Анализ социальной сегрегации в крупномасштабных сетях: мобильные данные и доходы

Анализ социальной сегрегации в крупномасштабных сетях: мобильные данные и доходы

Интересное сегодня

Почему люди с аутизмом склонны к избыточным объяснениям?

Почему люди с аутизмом склонны к избыточным объяснениям? Избыточные объяснения — это склонность пре...

Как читать диаграмму «ящик с усами»: полное руководство

Что такое диаграмма «ящик с усами»? В описательной статистике диаграмма «ящик с усами» (англ. boxplo...

Как просьбы о помощи могут усилить романтическое влечение: н...

Почему просьбы о помощи работают в романтических отношениях? Традиционные советы по знакомству учат ...

Признаки низкого эмоционального интеллекта: как распознать и...

Признаки низкого эмоционального интеллекта Люди с низким эмоциональным интеллектом (EQ) часто испыты...

Новое исследование: Связь между силой хвата и психозом

Психоз может начинаться не с галлюцинаций, а с тонких изменений в двигательной активности, таких как...

Депрессия у будущих отцов: распространенность и факторы риск...

Введение Депрессия является глобальной проблемой психического здоровья, включая период ожидания отцо...

Рисунок 1: Взаимосвязь между различиями в доходах и интенсивностью общения.
Рисунок 1: Взаимосвязь между различиями в доходах и интенсивностью общения.
Рисунок 2: Влияние дневного контакта с другими социальными слоями на сегрегацию.
Рисунок 2: Влияние дневного контакта с другими социальными слоями на сегрегацию.
Рисунок 3: Сравнение кластеризации среди богатых и бедных.
Рисунок 3: Сравнение кластеризации среди богатых и бедных.
Рисунок 4: Социальная сегрегация в большом городе Южной Азии.
Рисунок 4: Социальная сегрегация в большом городе Южной Азии.
Thumbnail 1
Thumbnail 2
Thumbnail 3
Thumbnail 4
Thumbnail 5
Thumbnail 6
Thumbnail 7
Оригинал исследования на сайте автора

Количественная оценка социальной сегрегации в крупномасштабных сетях

Мы представляем меру социальной сегрегации, которая объединяет данные мобильных телефонов и данные реестра доходов в Осло, Норвегия. Наше исследование не только измеряет степень социальной сегрегации, но и показывает, что социальная сегрегация сильна, устойчива, а социальные сети особенно кластеризованы среди самых богатых. Используя данные о местоположении районов, где люди работают, мы также изучаем, ослабляет ли контакт с другими социальными слоями измеренную сегрегацию. Наконец, мы распространяем наш анализ на крупный город Южной Азии и показываем, что наши основные результаты применимы к двум совершенно разным обществам.

Аннотация

Мы представляем меру социальной сегрегации, которая объединяет данные мобильных телефонов и данные реестра доходов в Осло, Норвегия. Наше исследование не только измеряет степень социальной сегрегации, но и показывает, что социальная сегрегация сильна, устойчива, а социальные сети особенно кластеризованы среди самых богатых. Используя данные о местоположении районов, где люди работают, мы также изучаем, ослабляет ли контакт с другими социальными слоями измеренную сегрегацию. Наконец, мы распространяем наш анализ на крупный город Южной Азии и показываем, что наши основные результаты применимы к двум совершенно разным обществам.

Введение

Подобные люди с большей вероятностью формируют социальные связи. Это явление, известное как социальная гомофилия, было задокументировано в нескольких академических дисциплинах1,2,3,4. Социальная гомофилия обычно основывается на социально значимых характеристиках, таких как социальный класс, пол, этническая принадлежность, религия или убеждения, и ведет к социальной сегрегации. Учитывая важность социального контакта для построения доверия, эмпатии и сотрудничества в популяции5,6,7,8,9,10, измерение социальной сегрегации имеет решающее значение. Однако это сложно, поскольку требует данных о закономерностях межличностных контактов в популяции. За некоторыми заметными исключениями11,12,13, большинство исследований поэтому либо использовали пространственную сегрегацию как прокси для социальной сегрегации, либо изучали социальные сети в небольших группах14,15,16,17,18. Хотя пространственная сегрегация важна, она недостаточна как прокси для социальной сегрегации в более крупном масштабе. Самое главное, пространственная близость не подразумевает контакт, и исследования показывают, что близость без контакта может фактически увеличить социальные разрывы14,19,20,21,22.

Технологический прогресс, и особенно появление смартфонов, позволил использовать данные мобильных телефонов с высокой детализацией. Это также привело к возрождению интереса к моделям социальных сетей19,23,24,25,26,27,28,29,30. Однако до сих пор не было исследований, которые сочетали бы подробные записи мобильных телефонов с данными реестра доходов для изучения социальной сегрегации, контролируя при этом пространственную близость. В этом и заключается цель нашего исследования. Мы вносим несколько вкладов в литературу по социально-экономической сегрегации. Во-первых, объединяя данные мобильных телефонов и данные реестра доходов, мы количественно оцениваем социальную сегрегацию по доходам в Осло, Норвегия. В частности, мы оцениваем связь между различиями в доходах и интенсивностью общения, контролируя пространственную близость. Во-вторых, мы исследуем, как дневной контакт с другими социальными слоями влияет на степень социальной сегрегации. В-третьих, мы оцениваем, как социальная кластеризация варьируется в зависимости от дохода. Наконец, расширяя анализ на крупный город Юго-Восточной Азии, мы исследуем сходство этих закономерностей в совершенно разных обществах.

В отличие от самоотчетных опросных данных, мобильные данные отражают реальное поведение. Кроме того, включив в наши анализы подробные данные о пространственной близости, это исследование предлагает беспрецедентный взгляд на фактическую социальную сегрегацию. Поскольку экономические возможности, такие как исходы на рынке труда, сильно зависят от социальных сетей, эта сегрегация может иметь важные последствия для уязвимых групп1.

Данные и методы

Измерение коммуникации

Для измерения социального контакта в Осло мы использовали подробные записи данных о звонках за 3-месячный период в 2013 году от крупнейшего оператора мобильной связи на рынке. Этот оператор имеет около 250 000 абонентов в городской черте, что составляет примерно 50% населения. Мы определяем коммуникационное событие как любое общение в виде телефонного звонка или текстового сообщения. За рассматриваемый период абоненты инициировали 36 миллионов коммуникационных событий. Хотя интернет-сервисы для обмена сообщениями и звонков, такие как Skype, WhatsApp, Messenger и FaceTime, в настоящее время являются основным способом общения с друзьями для многих, это исследование датируется 2013 годом, когда проникновение таких услуг было очень ограниченным. Например, опрос за этот период показал, что среди населения более 50% никогда не пользовались такими услугами, более 20% пользовались ими реже одного раза в месяц, а примерно 15% использовали их только 1–3 раза в месяц31.

Измерение социально-экономического статуса

Для измерения социально-экономического статуса мы использовали данные о трудовых доходах из норвежского реестра данных, где у нас есть данные о декларированных доходах всех норвежских граждан, а также демографические данные.

Связывание коммуникации и социально-экономического статуса

Исследование соответствует соответствующим руководящим принципам и нормам. Поэтому, из-за правил защиты конфиденциальности, записи данных о звонках и данные о доходах не могли быть связаны на индивидуальном уровне. Чтобы связать эти источники данных, мы агрегируем анализ на уровне базовой станции мобильной связи, которых в выборке 689 (см. Рис. А.3 в Дополнительных материалах для карт, показывающих вышки мобильной связи и коммуникацию в Осло). Каждому абоненту мобильной связи присваивается домашняя вышка — базовая станция, наиболее используемая абонентом между 19:00 и 7:00 в течение этого 3-месячного периода. Социально-экономический статус зоны покрытия домашней вышки определяется как средний доход жителей с положительным доходом, проживающих в данной зоне (см. Таблицу А.1; Рис. А.1 в Дополнительных материалах для описательной статистики выборки).

Измерение социальной сегрегации

Ядром наших анализов является доход и объем коммуникации между 474 721 направленными парами домашних вышек (см. Дополнительные материалы, Рис. А.2 для распределения интенсивности межвышковой коммуникации). Поскольку наши данные касаются коммуникации между парами вышек, каждая из которых имеет разнородное население абонентов, а экономический дифференциал между каждой парой индивидуумов непрерывен, мы полагаемся на методы изучения связи между агрегированной силой связей и агрегированными различиями в составе населения, как в13.

Мы присваиваем средний доход каждой вышке. Мы используем реестровые данные о доходе до вычета налогов для всех жителей Осло в 2010 году. Мы знаем основную единицу («grunnkrets») проживания каждого индивида. Затем мы усредняем по всем индивидам, проживающим в базовой единице g, чтобы найти средний доход в этой единице, y_g. Чтобы сопоставить доходы с вышками, мы строим зону покрытия вышки t, разделяя город на полигоны Вороного32. Пусть A_{tg} обозначает площадь пересечения между базовой единицей g и полигоном вышки t. Если они не пересекаются, A_{tg}=0. Тогда предполагаемый доход жителей зоны покрытия вышки t оценивается как:

$$egin{aligned} {ar{y}}_t= rac{um _g A_{tg}y_g}{um _g A_{tg}}. nd{aligned}$$

Чтобы обобщить наш подход, рассмотрим следующий иллюстрирующий пример: если агент, идентифицированный вышкой t, совершает звонок из местоположения, связанного с вышкой u, то связь регистрируется как исходящая от вышки t. Более того, если получатель живет в месте v, но принимает звонок в месте w, то связь регистрируется как между местом t и v.

В анализе доходов по группам мы используем реестровые данные для вычисления средних доходов по возрастным группам и полу, и мы используем аналогичную формулу для оценки среднего дохода для этой демографической группы в зоне покрытия вышки t. Одна из потенциальных проблем при использовании групповых средних вместо данных на индивидуальном уровне заключается в том, что это может привести к ошибке агрегации: ассоциации на уровне групп неправильно отражают ассоциации на индивидуальном уровне33. Чтобы проверить чувствительность наших результатов к этому типу ошибки, мы провели анализы, в которых мы импутируем групповые средние по доходам для 12 демографических групп — пол и шесть возрастных групп. Результаты показывают, что наша основная мера дохода лучше всего объясняет закономерности общения (см. Дополнительные материалы, Таблица А.5).

Азиатские данные

Мы использовали 1 месяц необработанных записей данных о звонках от крупнейшего оператора страны для построения общенационального графа вызовов. Общее количество абонентов составило 113 миллионов, 2,7 миллиарда коммуникационных связей и 10 000 мобильных вышек. Этот набор данных был дополнительно подмножеством, чтобы содержать только связи для крупнейшего города — охватывая 18 миллионов абонентов, 111 миллионов социальных связей и 2974 вышки.

Для доходов мы использовали опросные данные, поскольку надежные данные реестра доходов отсутствуют. Категории доходов случайной выборки из 76 005 абонентов были получены в ходе двух последовательных крупномасштабных маркетинговых исследований домашних хозяйств. Информация о доходах была напрямую задана респондентам, которых попросили отнести себя к заранее определенным группам доходов. Опрос также содержит геокоординаты места жительства каждого респондента. Респонденты в домохозяйстве были отобраны методом квоты Киша среди тех, кто имел право34. Корреляция между средним доходом по регионам на основе результатов опроса и их значениями, опубликованными в официальной статистике, составила 0,925.

Чтобы рассчитать распределение доходов на уровне вышки мобильной связи, набор данных был сначала ограничен, чтобы включить участников из крупнейшего города. Затем доход был агрегирован на уровне вышки путем присвоения каждого респондента ближайшей к нему вышке (по прямой линии).

Измерение корреляций с различиями в доходах

Для оценки корреляции между различиями в доходах и интенсивностью общения мы оцениваем регрессионную модель:

$$egin{aligned} ext {События}_{ij}=lpha + eta |n {ar{y}}_in {ar{y}}_j| + heta ^{rime }z_{ij} + u _{ij} nd{aligned}$$

Здесь ext {События}_{ij} — количество коммуникационных событий между вышками i и j, {ar{y}}_i и {ar{y}}_j — средний доход жителей каждой вышки, z_{ij} — вектор контрольных переменных, а u _{ij} — остаток. Вектор ковариат z_{ij} включает полиномиальную спецификацию четвертой степени географического расстояния между вышками мобильной связи, логарифм уровня дохода отправляющей и принимающей вышек, общий уровень трафика отправляющей и принимающей вышки, а также ожидаемый уровень трафика вышки. Эффект увеличения различий в доходах на интенсивность общения — это параметр eta. Мы также рассматриваем спецификации с фиксированными эффектами, где константа lpha заменяется специфическими для отправки и получения интерцептами lpha _i^S+lpha _j^R.

Измерение корреляции с дневным контактом с другими социальными слоями

Индивид, проживающий у богатой ночной вышки и часто посещающий бедную дневную вышку, или наоборот, считается подверженным влиянию других социально-экономических групп. Для измерения дневного контакта с другими социальными слоями мы сначала определяем наиболее часто используемую вышку мобильной связи каждого индивида между 12:00 и 14:00 в будние дни — дневную вышку. Затем мы регрессируем средний доход домашней вышки каждого индивида на средний доход других индивидов, находящихся у той же дневной вышки. Мы измеряем контакт как индивидуальные отклонения в абсолютном выражении от этой регрессионной линии, то есть степень, в которой дифференциал дохода между собственным доходом и доходом других отклоняется от ожидаемого уровня. В частности, мы используем логарифм абсолютного значения остатков {at{e}}_i как нашу меру контакта. Чтобы оценить модифицирующую роль контакта с другими слоями, мы оцениваем модифицированную модель:

$$egin{aligned} ext {События}_{ij}=lpha + eta |n {ar{y}}_in {ar{y}}_j| + amma n |{at{e}}_i| imes n |n {ar{y}}_in {ar{y}}_j| + heta ^{rime }z_{ij} + u _{ij} nd{aligned}$$

дающую предельный эффект увеличения логарифма разницы доходов на eta +amma n |{at{e}}_i|.

Измерение кластеризации

Кластеризация в различных сетях рассчитывается как доля троек узлов, которые замкнуты (т.е. при условии, что A общается с B и C, B и C также общаются друг с другом). Данные взвешиваются по интенсивности общения, присваивая каждой тройке вес, пропорциональный арифметическому среднему исходящей интенсивности, оцененному с помощью пакета tnet в R35.

Результаты

Различия в доходах и интенсивность общения

Наши основные выводы представлены на Рис. 1. На Рис. 1а мы отображаем средний ранг доходов принимающих вышек против процентного распределения доходов отправляющих вышек. Мы замечаем сильную тенденцию к непропорциональному внутригрупповому общению, особенно среди групп с самым высоким доходом. За исключением крайних значений распределения, связь монотонна.

Например, ожидаемый доход партнера по общению увеличивается примерно на 15% среднего дохода при переходе от 1-го к 70-му процентилю в распределении доходов; эффект сопоставим при переходе от 70-го к 100-му процентилю. Варьирование рангов доходов отправляющих вышек выше, чем варьирование среднего ранга получателя, из-за эффектов регрессии к среднему — если общение в некоторой степени случайно, то отправляющие сигналы на верхнем и нижнем процентилях имеют средний ранг дохода получателя, «смещенный» к среднему по выборке. Тем не менее, это четкое свидетельство того, что сила связи между двумя узлами в сети обратно пропорциональна их разнице в доходах.

Рис. 1b количественно оценивает связь между общением и различиями в доходах, контролируя пространственное расстояние и ряд других контрольных переменных (см. Таблицу А.2 в Дополнительных материалах для соответствующей таблицы регрессии). 10% увеличение разницы в доходах между двумя вышками коррелирует с уменьшением коммуникационных событий на 2,98. Это существенное число, поскольку менее 43% пар вышек имеют 3 или более коммуникационных событий. Чтобы убедиться, что связь не обусловлена общением внутри семьи, мы исключаем из анализа общение, происходящее в пределах одной и той же ночной вышки. Однако это общение составляет менее одной десятой процента событий и менее половины процента объема общения, поэтому эффект незначителен. В Дополнительных материалах мы также сообщаем о том, как степень сегрегации варьируется в зависимости от возраста и пола (Рис. А.4).

Дневной контакт с другими социальными слоями

В этом разделе мы исследуем связь между контактом с другими социально-экономическими группами и сегрегацией. Мы обнаруживаем сильную положительную корреляцию между собственным доходом и доходом других (R^2 = 0.8), иллюстрируемую на Рис. 2а. Следовательно, пространственная сегрегация доходов в обществе сохраняется и в дневное время.

Рис. 2b выявляет отрицательную корреляцию межвышковых дифференциалов доходов на всех уровнях контакта. Положительный наклон показывает, что степень сегрегации уменьшается с увеличением контакта с другими социально-экономическими слоями (см. Таблицу А.3 в Дополнительных материалах для соответствующей таблицы регрессии). Мы замечаем, что общее количество событий, а также вероятность общения с вышкой менее коррелированы с дифференциалами доходов для индивидов, которые испытывают более сильный контакт с другими доходными группами днем, поскольку член взаимодействия положителен. Тем не менее, эта разница относительно мала по величине, и существует отрицательная корреляция с дифференциалами доходов для всех групп.

Кластеризация внутри доходных групп

Чтобы изучить детали закономерностей кластеризации, мы сравниваем уровень кластеризации среди богатых и среди бедных. Взвешенный коэффициент кластеризации среди 100 самых богатых и 100 самых бедных вышек составляет 0,90 и 0,82 соответственно. Чтобы представить эти цифры в перспективе, мы вычисляем тот же коэффициент для случайных выборок из 100 вышек. На Рис. 3 мы показываем распределение симулированных групп, а также два реализованных значения. Только 1,6% симуляций ниже значения для самых бедных вышек, в то время как только 1,4% выше уровня самых богатых вышек, что указывает на очень разные сети в двух подвыборках. В Дополнительных материалах мы также сообщаем о взвешенных коэффициентах кластеризации при использовании 25, 50, 100 и 200 самых бедных и самых богатых вышек — результаты остаются весьма стабильными (Таблица А.4 в Дополнительных материалах).

Корреляции в большом городе Южной Азии

Для проверки внешней валидности наших выводов мы проводим тот же анализ, что и с норвежскими данными, с использованием данных из города Южной Азии. Город является одним из крупнейших в Азии за пределами Китая. Рис. 4 воспроизводит Рис. 1а для азиатских данных со 111 миллионами связей (см. Таблицу А.6 в Дополнительных материалах для соответствующей таблицы регрессии). Мы обнаруживаем поразительно схожую картину. По сравнению с результатами для Осло, кажется, что социальная сегрегация среди топ-5% еще сильнее, и весьма экстремальна по сравнению с остальной выборкой. Хотя эффекты различий в доходах на интенсивность общения очевидны, они несколько слабее, возможно, потому, что владение мобильными телефонами менее распространено среди бедных. Это частично является артефактом изменения распределения доходов между двумя странами, но при сравнении нормализованных бета-коэффициентов мы видим, что также происходит изменение размера эффекта.

Обсуждение

Социальный контакт между группами важен для общества, поскольку он порождает доверие и сотрудничество8,9. Он также важен на индивидуальном уровне, поскольку сети влияют на экономические возможности, такие как поиск работы1. Измерение степени социального контакта затруднено, поскольку оно требует данных о закономерностях межличностных контактов в популяции. Комбинация данных мобильных телефонов и данных реестра доходов несет в себе обещание в отношении мониторинга степени и закономерностей социальной сегрегации.

Наши результаты демонстрируют, что социальная сегрегация в Осло сильна, в том смысле, что наблюдается непропорционально большая доля общения внутри доходных групп. Это означает, что люди из разных доходных групп меньше контактируют друг с другом. Мы также исследуем, в какой степени контакт с другими социально-экономическими группами, измеренный как соседство в рабочее время, модифицирует социальную сегрегацию. Социальная сегрегация остается сильной даже после контроля за дневным контактом с другими социальными слоями. Более того, степень социальной кластеризации особенно высока среди жителей богатых районов. Мы также находим схожие закономерности социальной сегрегации в крупном городе Юго-Восточной Азии.

Существует несколько ограничений этого исследования. Во-первых, наши данные не позволяют делать каких-либо причинно-следственных интерпретаций. Например, при обсуждении связи между контактом с другими социальными слоями и степенью социальной сегрегации индивида может существовать самоотбор, в результате которого более социально интегрированные индивиды выбирают работу в более социально интегрированных районах. Во-вторых, наша мера дневного контакта с другими социальными слоями имеет очевидный недостаток: даже если район социально разнообразен, это не обязательно означает, что люди взаимодействуют между различными социально-экономическими группами. В-третьих, в то время как данные о доходах из Осло основаны на полных реестрах, исследование крупного города Юго-Восточной Азии опирается на самоотчетные данные о доходах. Это ограничивает сопоставимость, поскольку самоотчет может быть предвзятым, а данные, вероятно, отсутствуют неслучайным образом. В то же время анализ, основанный на рангах доходов, менее чувствителен к этому потенциальному недостатку.

Будущие исследования должны быть направлены на измерение социальной сегрегации во времени, чего мы не можем сделать с нашими данными из-за анонимизации. Такое исследование, возможно, также приведет к лучшей оценке причинно-следственной связи между контактом и сегрегацией.

Короткие версии статей можно найти в телеграм-канале.

Посмотреть канал
Кликните еще раз для перехода

Купить компрессионные колготки Релаксан 70Den - профилактика...

Компрессионные колготки Релаксан 70Den — идеальное решение для профилактики варикоза и снятия устало...

Эвалар Био Гинекологический чай — травы для женского здоровь...

Чай Эвалар Био Гинекологические травы в фильтр-пакетах сочетает отборные растительные компоненты, по...

Avent Natural 125 мл — детская бутылочка с антиколиковым кла...

Бутылочка Philips Avent Natural 125 мл с ультрамягкой силиконовой соской имитирует естественное груд...

Виардо Форте: БАД с омега-3, витаминами и антиоксидантами

Виардо Форте — биодобавка с полиненасыщенными жирными кислотами омега-3 (ЭПК и ДГК) и омега-6, витам...

Триммер Veet для чувствительных зон – бережная депиляция

Электрический триммер Veet для деликатной депиляции чувствительных зон. Идеально удаляет волосы на л...

Ланцет Accu-Chek Softclix №25 стерильный для глюкометра

Ланцет Стерил Accu-Chek Softclix №25 обеспечивают комфортное и безопасное взятие капли крови благода...