Надежные методы статистического вывода для общей линейной модели

Надежные методы статистического вывода для общей линейной модели

Интересное сегодня

Почему подростки обращаются к ИИ-компаньонам и как родителям...

Подростки и ИИ: новые формы общения Большинство подростков, использующих генеративные ИИ-инструменты...

Изучение категорий речевого восприятия: как индивидуальные р...

Введение Слушатели должны классифицировать входную речь по категориям, таким как /d/ и /t/, чтобы то...

Ожирение у детей с аутизмом: факторы риска и рекомендации

Введение Расстройство аутистического спектра (РАС) — это сложное нарушение нейроразвития, характериз...

Человеческая культура уникальна своей бесконечностью

Новое исследование предлагает, что уникальная сила человеческой культуры заключается не в способност...

Как мозг различает зуд и боль: новое исследование

Введение Если вы когда-либо касались шипа или вас укусила комар, вы знаете, что ощущение боли и зуд ...

Как псевдонаучные убеждения влияют на здоровье: исследование...

Влияние псевдонаучных убеждений на здоровье Новое исследование, проведённое при поддержке BIAL Found...

Рисунок 1
Рисунок 1
Рисунок 2
Рисунок 2
Рисунок 3
Рисунок 3
Рисунок 4
Рисунок 4
Рисунок 5
Рисунок 5
Рисунок 6
Рисунок 6
Рисунок 7
Рисунок 7
Рисунок 8
Рисунок 8
Рисунок 9
Рисунок 9
Рисунок 10
Рисунок 10
Thumbnail 1
Thumbnail 2
Thumbnail 3
Thumbnail 4
Thumbnail 5
Thumbnail 6
Thumbnail 7
Thumbnail 8
Thumbnail 9
Thumbnail 10
Оригинал исследования на сайте автора

Введение

Современные исследователи в области психологии и социальных наук часто сталкиваются с проблемой выбора наиболее подходящего статистического метода для своей конкретной ситуации с данными. Это становится особенно сложным, если предпосылки общепринятых методов в рамках общей линейной модели не выполняются. Более того, было показано, что эти предпосылки часто нарушаются в психологических исследованиях, иногда даже чаще, чем соблюдаются (Blanca et al., 2013; Bono et al., 2017; Micceri, 1989; Sladekova & Field, 2024b).

Семейство общей линейной модели включает множество типичных анализов, таких как корреляционный анализ, линейная регрессия, t-тесты или дисперсионный анализ (ANCOVA). Если предпосылки, на которых основана применимость этих анализов к вопросам психологических исследований, не соблюдаются, результаты будут в той или иной степени искажены, иногда с драматическими последствиями, как описано ниже.

Несмотря на наличие многочисленных альтернатив общей линейной модели, которые накладывают менее строгие предпосылки (Wilcox, 2022), она часто остается предпочтительным фреймворком для статистического анализа (Blanca et al., 2018; Torres & Akbaritabar, 2024). Причина, вероятно, в том, что популярные пакеты программного обеспечения, такие как SPSS, не имеют необходимых модулей для всех альтернативных анализов, в сочетании со склонностью исследователей использовать знакомые им модели (Sladekova & Field, 2024c). Поэтому представляется важным предоставить прикладным исследователям легкодоступные альтернативные способы вывода, которые работают в рамках хорошо известной общей линейной модели, одновременно избегая проблем, связанных с нарушениями предпосылок.

Исходная точка: Регрессия методом обычных наименьших квадратов

В данной статье мы исследуем эффективность нескольких хорошо известных альтернативных методов для некоторых типичных сценариев данных. В частности, мы сосредоточимся на линейных зависимостях между непрерывными переменными, обычно оцениваемых в рамках общей линейной модели. Одна из причин заключается в том, что другие зависимости между переменными могут быть легко выражены в рамках той же общей модели. Например, корреляцию можно выразить как простую регрессионную модель с непрерывной зависимой переменной и непрерывным предиктором. Аналогично, независимый выборочный t-тест или межсубъектный дисперсионный анализ (ANOVA) могут быть выражены как линейные модели с фиктивными предикторами вместо непрерывных.

Поскольку как корреляционные анализы, так и регрессионные модели с множественными предикторами являются распространенными в психологических исследованиях (Blanca et al., 2018), в данном исследовании рассматриваются оба. Таким образом, специально рассматриваются четыре различные зависимости между переменными, которые далее будут называться «моделями». Первая модель относится к двум некоррелированным переменным: одному предиктору и одной зависимой переменной. Вторая модель также относится к одному предиктору и одной зависимой переменной, но на этот раз они коррелируют друг с другом. Третья модель относится к двум предикторам и одной зависимой переменной, причем последняя зависит только от одного из предикторов, но независима от другого. Четвертая модель снова относится к двум предикторам, причем оба влияют на значение зависимой переменной.

Во всех сценариях предикторы известны точно, в то время как зависимая переменная аддитивно состоит из ее линейной зависимости от предиктора(ов) и некоторой неизвестной ошибки. Это означает, что зависимость между предиктором(ами) и зависимыми переменными может быть математически описана следующим уравнением:

$$y_{i}=um olimits_{k=0}^{K}{eta}_{k}{x}_{ik}+{arepsilon}_{i}= {eta}_{0}+{eta}_{1}{x}_{i1}+ots +{eta}_{K}{x}_{iK}+{arepsilon}_{i}$$

(1)

где i=1,ots ,n обозначает i-е из общего числа n наблюдений (или случаев), {x}_{ik} — значение k-го предиктора для i-го наблюдения, а {arepsilon}_{i} — ошибку i-го наблюдения. Параметры (также известные как регрессионные коэффициенты) {eta }_{k} с k=0,ots ,K выражают линейную зависимость между зависимой переменной {y}_{i} и предикторами {x}_{ik}. По этой причине заглавная буква K обозначает количество предикторов в модели. Если {x}_{ik} увеличивается на одну единицу (то есть значение 1), в то время как все остальные члены остаются постоянными в правой части Уравнения (1), то изменение {y}_{i} дается выражением {eta}_{k}. По этой причине параметры {eta}_{k} иногда также называют регрессионными наклонами, поскольку они буквально выражают, насколько увеличивается/уменьшается зависимая переменная, если соответствующий предиктор, и только он, изменяется на одну единицу. Параметр {eta}_{0} не связан ни с одним предиктором из-за {x}_{i0}:=1 и также называется свободным членом. Это название происходит от того факта, что {eta}_{0} равен значению, при котором ось y пересекается линейной регрессией (в случае одного предиктора) или (гипер)плоскостью (в случае нескольких предикторов), что делает его ожидаемым значением зависимой переменной, когда все предикторы равны нулю.

Уравнение (1) также может быть записано в матричной форме:

$${arvec{y}}={arvec{X}}{arvec{eta}}+{arvec{arepsilon}}$$ (2)

где {arvec{y}} и {arvec{arepsilon}} — векторы длины n, содержащие значения зависимой переменной и ошибки для всех n наблюдений, eta — вектор длины p, где p=K+1, включающий параметры {eta}_{k} с k=0,ots,K, а {arvec{X}} — матрица размера n imes p, включающая все значения {x}_{ik}, как в Уравнении (1), с i=1,ots ,n (обозначает i-ю строку матрицы) и k=0,ots,K (обозначает eft(k+1 ight)-й или p-й столбец). Обратите внимание, что первый столбец {arvec{X}} просто состоит из n единиц из-за {x}_{i0}:=1.

Для любого данного набора реальных данных, то есть набора из n наблюдений зависимых переменных {y}_{i} и предикторных переменных {x}_{ik}, первой задачей для прикладного исследователя обычно является оценка параметров {eta}_{k} на основе этого набора данных. Это далеко не просто, как видно из Уравнений (1) и (2), некоторая часть каждого наблюдения {y}_{i} определяется некоторой неопределенной ошибкой, что означает, что мы, в принципе, не знаем, насколько ошибочно отдельное наблюдение. Типичный способ справиться с этой неизбежной неопределенностью — искать оценку {arvec{eta}}, которая минимизирует вклад члена ошибки в Уравнениях (1) и (2). Полученное решение должно как можно больше описывать зависимую переменную предполагаемой линейной зависимостью от предикторов и как можно меньше — ошибками.

Одним из таких широко устоявшихся решений стала регрессия методом обычных наименьших квадратов (МНК). В регрессии МНК параметры {eta}_{k} определяются таким образом, чтобы сумма квадратов остатков (RSS), то есть выражение:

$$ ext{RSS}= um olimits_{i=1}^{n}{r}_{i}^{2}=um olimits_{i=1}^{n}{({y}_{i}{idehat{y}}_{i})}^{2}=um olimits_{i=1}^{n}{({y}_{i}{um }_{k=0}^{K}{idehat{eta }}_{k}{x}_{ik})}^{2}$$ (3)

была минимальной. В Уравнении (3) r_i для i=1,ots,n обозначают так называемые остатки, которые просто являются разницей между наблюдаемыми значениями зависимой переменной {y}_{i} и предсказанными значениями зависимой переменной {idehat{y}}_{i}={um olimits }_{k=0}^{K}{idehat{eta }}_{k}{x}_{ik} при некоторых выбранных значениях параметров {idehat{eta}}_{k}$.

Обратите внимание, что {idehat{eta }}_{k} — это не истинные регрессионные параметры {eta}_{k}, а скорее оценки {eta}_{k}, которые минимизируют сумму квадратов остатков. Ссылаясь на матричное представление, введенное в Уравнении (2), они даются выражением:

$$idehat{{arvec{eta}}}={eft({{arvec{X}}}^{ ext{T}}{arvec{X}} ight)}^{1}{{arvec{X}}}^{ ext{T}}{arvec{y}}$$ (4)

где idehat{{arvec{eta}}} обозначает вектор длины p=K+1, содержащий оцененные параметры {idehat{eta }}_{k} с k=0,ots ,K, {{arvec{X}}}^{ ext{T}} обозначает транспонированную матрицу {arvec{X}}, а {eft({{arvec{X}}}^{ ext{T}}{arvec{X}} ight)}^{1} обозначает обратную матрицу {{arvec{X}}}^{ ext{T}}{arvec{X}}. При определенных условиях оценка МНК имеет некоторые статистически благоприятные свойства, такие как представление наилучшей линейной несмещенной оценки (BLUE) истинных регрессионных коэффициентов. Эти условия или предпосылки изложены ниже, а подробные описания можно найти в работе Berry (1993).

Классическая инференциальная статистика в рамках регрессии МНК

Особенно важными для настоящей работы являются условия, связанные с методами инференциальной статистики, то есть методами, которые позволяют нам количественно оценить неопределенность, связанную с оценками параметров. Например, если оценщик МНК дает положительный регрессионный коэффициент для зависимости между конкретным предиктором и зависимой переменной в нашей выборке, насколько мы можем быть уверены, что такая положительная зависимость существует в генеральной совокупности? Если данные удовлетворяют определенным требованиям, эти вопросы могут быть частично отвечены с помощью классического тестирования гипотез (Jones & Tukey, 2000). Например, если ошибки в Уравнениях (1-2) могут рассматриваться как независимые, нормально распределенные случайные величины со средним нулем и постоянной дисперсией, то оценки параметров, полученные МНК, также следуют нормальному распределению (Berry, 1993). Кроме того, разброс этого теоретического нормального распределения оценок параметров охватывается оценкой его стандартного отклонения, известного как стандартная ошибка (SE) параметра (Cohen et al., 2003). Вычисление отношения оцененных параметров к их стандартным ошибкам приводит к тестовой статистике, которая следует t-распределению. Сравнивая ее с критическим значением или вычисляя p-значение, классическое тестирование статистических гипотез (NHST) может быть применено для принятия разумного решения о знаке истинного регрессионного коэффициента. Однако достоверность этого процесса и надежность его результатов зависят от предположения, что данные изначально удовлетворяют этим конкретным условиям.

Точнее говоря, для получения несмещенных оценок как регрессионных параметров, так и их стандартных ошибок требуется соблюдение нескольких предположений относительно данных. Эти предпосылки включают безошибочное измерение всех предикторов, ошибки с математическим ожиданием, равным нулю, и постоянной дисперсией по всему диапазону предикторов (последнее известно как предпосылка гомоскедастичности), независимость ошибок, нормально распределенные ошибки и различные дополнительные критерии в зависимости от источника (Berry, 1993). Более того, все это опирается на условие, что между предикторами и зависимой переменной существует линейная зависимость, как выражено в Уравнениях (1) и (2), действительно существует с учетом члена ошибки, удовлетворяющего этим предпосылкам (Williams et al., 2013).

Некоторые предпосылки, такие как безошибочное измерение предикторов, влияют на саму оценку регрессионного параметра. Например, в бивариантном сценарии с ошибкой измерения предиктора его влияние на зависимую переменную будет ослаблено (Shear & Zumbo, 2013). Однако в данной статье основное внимание будет уделено только двум предпосылкам, которые не влияют на саму оценку параметра. Вместо этого две рассматриваемые предпосылки влияют только на инференциальные методы, следующие за регрессией МНК в типичных психологических приложениях (т.е. тесты значимости регрессионных параметров). Двумя такими предпосылками являются гомоскедастичность и нормальность ошибок.

Обратите внимание, что в приложениях в рамках иерархических данных или временных рядов предпосылка о независимости ошибок часто нарушается, и следует рассматривать альтернативные анализы (многоуровневые модели, анализ временных рядов, кластерно-робастные стандартные ошибки и т. д.) (Williams et al., 2013). Однако предпосылки относительно распределения и постоянной дисперсии ошибок часто могут быть урегулированы в рамках знакомой модели линейной модели путем простого использования скорректированных стандартных ошибок или опоры на бустрап-методы для тестирования значимости (Astivia & Zumbo, 2019). Поскольку оба метода легко доступны в популярных пакетах программного обеспечения, мы сосредоточимся на этих методах в данной работе и кратко представим их в следующем разделе.

Гетероскедастично-согласованные стандартные ошибки

Как указано выше, классическое тестирование значимости регрессионных параметров предполагает очень специфическую структуру ошибок, особенно то, что все ошибки имеют одинаковую дисперсию и не коррелируют друг с другом. На практике предпосылка о постоянной дисперсии может, в некоторой степени, быть исследована визуально с помощью K частичных диаграмм рассеяния между всеми предикторами и остатками модели. Добавление регрессионной линии к каждому графику может, по крайней мере, дать некоторое представление о разбросе остатков относительно предикторов. Если, например, становится очевидным, что вариативность остатков вокруг линии регрессии различна для разных уровней предикторов, то предпосылка о постоянной дисперсии ошибок может быть поставлена под сомнение. Использование инференциального теста, основанного на этом предположении, несмотря на это, может привести к смещенной стандартной ошибке, часто приводящей к резко завышенным уровням ошибки первого рода (Cribari-Neto, 2004; Long & Ervin, 2000).

Все различные версии гетероскедастично-согласованных (HC) стандартных ошибок были разработаны для решения этой проблемы в оценке стандартной ошибки МНК. Они корректируют стандартные ошибки регрессионных коэффициентов, используя информацию о (разнице в) вариабельности остатков в данных. Два из наиболее широко используемых и рекомендуемых оценщиков — это стандартные ошибки HC3 и HC4 (Hayes & Cai, 2007). Оба не только включают информацию о вариабельности остатков на разных уровнях, но и преобразуют остатки, используя значения рычага (leverage values), чтобы учесть их различное влияние.

Предыдущие исследования подчеркнули ценность использования либо HC3, либо HC4 вместо обычных стандартных ошибок для вывода при несоблюдении предпосылки о гетероскедастичности. Было также установлено, что HC4 имеет превосходящее поведение в малых выборках и может превосходить HC3 в выборках с влиятельными наблюдениями (Cribari-Neto, 2004; Hayes & Cai, 2007).

Бустрап-процедуры

Другой подход к тестированию значимости в менее строгих условиях заключается не в корректировке стандартных ошибок, а в попытке эмпирически воспроизвести выборочное распределение интересующего параметра. Основная идея заключается в том, чтобы рассматривать данную выборку из n наблюдений просто как генеральную совокупность и создавать новые выборки того же размера, извлекая наблюдения из данной выборки с замещением. Затем для каждой из этих так называемых бустрап-выборок вычисляется оценка регрессионных параметров методом МНК. Путем многократного извлечения бустрап-выборок таким образом генерируется эмпирическое распределение таких оценок. Обычно извлекается не менее 1000 бустрап-выборок, чтобы обеспечить достаточно плотную оценку выборочного распределения.

Тестирование значимости может выполняться различными способами, включая использование стандартного отклонения бустрап-выборочного распределения в качестве оценки стандартной ошибки соответствующего параметра, вычисление бустрап p-значения или построение доверительных интервалов (CI) из бустрап-выборочного распределения (Hesterberg, 2011). SPSS, как и многие другие коммерческие программы, позволяет проводить тестирование значимости с помощью двух типов бустрап-доверительных интервалов: перцентильного и с коррекцией смещения и ускорения (BCa), а также бустрап p-значения. Все эти подходы будут сравниваться в данном исследовании.

Описанный выше бустрап-подход также известен как бустрап пар (pairs bootstrap) или просто передискретизация случаев (case resampling), потому что именно случаи передискретизируются. Здесь случай обозначает комбинацию наблюдаемой зависимой переменной со связанными с ней значениями предикторов. В SPSS передискретизация пар называется «простой бустрап» и выбирается по умолчанию.

Однако сама передискретизация может выполняться различными способами (MacKinnon, 2006). Например, один метод бустрапа был разработан специально для структуры гетероскедастических ошибок и известен как дикий бустрап (wild bootstrap) (MacKinnon, 2013). Его подход заключается в том, чтобы сначала вычислить оценку регрессионных параметров методом МНК, используя данную выборку. Затем полученные остатки сохраняются, преобразуются и умножаются на случайный шум, прежде чем использоваться для вычисления различных бустрап-выборок. Этот метод далее подробно рассматривается в разделе методов.

В то время как HC стандартные ошибки позволяют выполнять обычные вычисления тестовых статистик и соответствующих p-значений, вывод с помощью бустрап-методов часто опирается на доверительные интервалы или p-значения, полученные из бустрап-выборочного распределения. Как бустрап-методы, так и методы, основанные на скорректированных стандартных ошибках, были рекомендованы для решения проблем с выводом в рамках общей линейной модели при нарушении соответствующих предпосылок (Astivia & Zumbo, 2019; Davidson & Flachaire, 2008).

Конкретные цели настоящей работы

Общая цель данной статьи — сравнить некоторые из этих хорошо зарекомендовавших себя и легкодоступных методов с традиционным подходом для четырех описанных выше сценариев данных. Методы будут сравниваться по уровню ошибки первого рода, мощности, охвату доверительных интервалов (CI) и смещению стандартной ошибки. Цель состоит в том, чтобы выделить тип ситуации с данными, для которой конкретный инференциальный метод представляется предпочтительным, и когда все же может быть уместно придерживаться традиционного подхода. Последнее особенно интересно при нарушениях предпосылок о распределении, поскольку многие учебники утверждают, что классическое тестирование статистических гипотез для оценщиков МНК в значительной степени устойчиво благодаря центральной предельной теореме (Pek et al., 2018). Предыдущие симуляционные исследования показали, что классический вывод обычно работает хорошо при нарушении предпосылки о нормальности, за исключением случаев, когда присутствуют дополнительные крайние выбросы (Knief & Forstmeier, 2021). И наоборот, другие авторы предостерегают от обобщения утверждений об устойчивости классических инференциальных методов при нарушении предпосылок о распределении (Field & Wilcox, 2017).

По этой причине данные, симулированные для данного исследования, были сгенерированы с использованием трех распределений ошибок (нормальное, умеренно асимметричное и сильно асимметричное) и четырех уровней дисперсии ошибок, варьирующихся от гомоскедастических до сильно гетероскедастических структур ошибок. Дополнительно, источник гетероскедастических ошибок в некоторых моделях генерации данных происходит от интересующего предиктора (первая и вторая модели), а в других — от другого предиктора, не представляющего основного интереса для исследователя, как в случае контрольной переменной (третья и четвертая модели). Насколько нам известно, вопрос о том, как гетероскедастичность, введенная одним предиктором, может повлиять на вывод о параметрах, связанных с другим предиктором, до сих пор рассматривался лишь редко. Тем не менее, одно предыдущее симуляционное исследование показало, что классический метод вывода в основном давал завышенные уровни отклонения для заданного эффекта, если гетероскедастичность была функцией того же предиктора, но не если она была функцией другого предиктора (Long & Ervin, 2000).

Хотя данное исследование не изучает явно влияние выбросов на показатели эффективности, использование сильно асимметричных распределений ошибок часто приводит к появлению данных с выбросами (Knief & Forstmeier, 2021).

Методы

Симуляция данных

Для исследования разнообразных ситуаций с данными были симулированы четыре различные модели генерации данных, три распределения ошибок, четыре уровня гетероскедастичности и пять размеров выборки. Все условия обобщены в Таблице 1.

Таблица 1. Обзор симулированных условий

Рассматривались две регрессионные модели с одним предиктором и две регрессионные модели с двумя предикторами для линейной зависимости между предикторами {x}_{ik} и зависимой переменной {y}_{i}, каждая из которых включала либо нулевой эффект интереса (обозначаемый как {x}_{i1}) для исследования ошибки первого рода, либо эффект интереса (обозначаемый как {x}_{i1}) равный 0,8 для исследования мощности. Этот большой эффект 0,8 был выбран для моделей 2 и 4, чтобы снижение мощности из-за изменения метода или сценария отражалось в результатах с высоким разрешением. Модели с одним предиктором представляют корреляционные анализы, распространенные в психологических исследованиях (Blanca et al., 2018), а модели с двумя предикторами допускают вариацию в источнике гетероскедастичности, что также влияло на уровни отклонения (Long & Ervin, 2000).

Индекс i принимает значения от 1 до n, где n обозначает один из пяти возможных размеров выборки (т.е. 25, 50, 100, 200 или 500). Каждая смоделированная линейная зависимость сочеталась с членом ошибки согласно Уравнениям (1) и (2) и моделировалась, как описано выше. Наконец, для предикторов были выбраны следующие специфические (истинные) регрессионные веса:

  • Модель 1: $$y_{i}=0+0dot {x}_{i1}+{arepsilon}_{i}$$ (5)
  • Модель 2: $$y_{i}=0+0.8dot {x}_{i1}+{arepsilon}_{i}$$ (6)
  • Модель 3: $$y_{i}=0+0dot {x}_{i1}+0.3dot {x}_{i2}+{arepsilon}_{i}$$ (7)
  • Модель 4: $$y_{i}=0+0.8dot {x}_{i1}+0.3dot {x}_{i2}+{arepsilon}_{i}$$ (8)

В Уравнениях (5)-(8) {arepsilon }_{i} обозначает симулированную ошибку для i-го наблюдения, и i=1,ots,n, где nn eft25, 50, 100, 200, 500 ight.

Предикторы в каждой из четырех моделей были извлечены из нормального распределения со средним 0 и дисперсией 1. Распределение предикторных переменных не имеет значения для классического метода вывода в регрессии МНК (Williams et al., 2013), поэтому нормальное распределение было выбрано просто потому, что многие исследователи с ним знакомы. Среднее 0 и дисперсия 1 делают переменные известными z-стандартизированными переменными, в которые может быть преобразована любая (непрерывная) переменная в любом наборе данных. Предикторы были выбраны так, чтобы иметь корреляцию r=0.10, поскольку исследователи редко имеют идеально некоррелированные предикторы на практике. Согласно конвенциям, выбранная корреляция будет классифицирована как малый эффект (Cohen, 1988). Однако этот выбор совершенно произволен и мог бы быть систематически варьирован в последующих симуляциях (см., например, Long & Ervin, 2000).

Как упоминалось выше, симулированные наборы данных имели размеры 25, 50, 100, 200 и 500, чтобы оценить эффективность в диапазоне размеров выборок, реалистично встречающихся прикладными исследователями.

Дополнительно, для каждой из четырех моделей с пятью различными размерами выборки были сгенерированы различные комбинации распределений ошибок и гетероскедастичности. Ошибка i-го наблюдения вычислялась как {arepsilon}_{i}={u}_{i}st {igma}_{i}. Переменные {u}_{i} со средним 0 и дисперсией 1 были извлечены из трех различных распределений с возрастающей ненормальностью: Нормальное (скошенность = 0, эксцесс = 0), умеренно ненормальное (скошенность = 2, эксцесс = 7) и сильно ненормальное (скошенность = 3, эксцесс = 21). Значения были выбраны на основе предыдущих симуляционных исследований (Curran et al., 1996; Nevitt & Hancock, 2001). В данной статье эксцесс всегда относится к избыточному эксцессу, где избыточный эксцесс = эксцесс – 3, так что нормальное распределение определяется как имеющее эксцесс, равный нулю. Функция fleishman_sim (на основе Fleishman, 1978) из пакета R miceadds (версия 3.1744) использовалась для генерации случайной величины u из унивариантного распределения с заданной скошенностью и эксцессом (Robitzsch & Grund, 2024). Однако для наименьшего размера выборки 25 случаев было невозможно надежно извлечь выборки, соответствующие сильно ненормальной форме генеральной совокупности, поэтому это условие могло быть сгенерировано только для выборок размером 50 и более. Дополнительно, поскольку значения скошенности и эксцесса эмпирического распределения могут существенно отличаться от значений генеральной совокупности, из которой они извлечены, были установлены пределы для эмпирических значений скошенности и эксцесса. В частности, векторы {u}_{i} заданного размера выборки извлекались до тех пор, пока значения скошенности и эксцесса их эмпирического распределения не приближались к заданным значениям для каждого раунда симуляции отдельного набора данных. «Приближение» означало, что эмпирические значения находились в пределах от –1 до 1 (скошенность и эксцесс) для нормального условия, от 1 до 3 (скошенность) и от 6 до 8 (эксцесс) для умеренно ненормального условия, и от 2 до 4 (скошенность) и от 19 до 23 (эксцесс) для сильно ненормального условия.

Ограничение процесса выборки относительно формы распределения отобранных ошибок было сделано для:

  • Противодействия нисходящему смещению скошенности и эксцесса
  • Отражения того факта, что альтернативные анализы часто рассматриваются только тогда, когда эмпирическое распределение остатков в выборке демонстрирует заметные ненормальные признаки.

Тем не менее, были также рассмотрены 1000 репликаций без ограничения выборки. Результаты были сопоставимы независимо от процедуры выборки. Это далее изложено в приложении. Поэтому мы продолжаем ссылаться на долю значимых результатов как на ошибку первого рода и мощность для истинного эффекта, равного нулю и 0,8 соответственно, с оговоркой, что процесс выборки не был строго случайным.

Для включения различных источников гетероскедастичности {igma}_{i} вычислялась как {igma}_{i}^{2}={e}^{gst{x}_{i1}} для моделей 1 и 2 в Уравнениях (5) и (6), и как {igma}_{i}^{2}={e}^{gst{x}_{i2}} для моделей 3 и 4 в Уравнениях (7) и (8). Значения g характеризуют четыре уровня гетероскедастичности: g=0, g=0.5, g=1, g=2. Значение g=0 приводит к отсутствию гетероскедастичности, поскольку каждая i-я ошибка имеет одинаковую дисперсию {igma}_{i}^{2} (и стандартное отклонение {igma}_{i}) равную 1. Увеличение g приводит к дисперсиям ошибок, которые различаются между n наблюдениями, таким образом, индуцируя гетероскедастичность как функцию либо {x}_{1}, либо {x}_{2}.

В целом, это привело к 56 (60 минус 4) сценариям для каждой из смоделированных линейных зависимостей, выраженных Уравнениями (5)-(8), из-за пяти возможных размеров выборки, трех рассматриваемых распределений ошибок, четырех рассматриваемых уровней гетероскедастичности и того факта, что для наименьшего размера выборки 25 случаев было невозможно надежно извлечь выборки, соответствующие сильно ненормальной форме генеральной совокупности. Для каждого сценария было сгенерировано десять тысяч репликаций. Все описанные выше расчеты и анализы были выполнены в R (версия: 4.3.3) и RStudio.

Эффективность методов

Для каждой сгенерированной репликации выполнялась регрессия МНК, за которой следовало вычисление классических, HC3 и HC4 стандартных ошибок для статистического вывода о регрессионных параметрах. Кроме того, использовались два метода бустрап-выборки (бустрап пар и дикий бустрап) для вывода с помощью версий SPSS для бустрап p-значений, перцентильных доверительных интервалов и доверительных интервалов с коррекцией смещения и ускорения (BCa). Всего получилось девять различных методов. Уровни значимости выбирались как lpha =.05 в каждом случае, что означает, что результаты с p-значением < 0,05 считались статистически значимыми. Критериями для приемлемой производительности были: уровень ошибки первого рода в пределах 0,025–0,075, охват доверительного интервала в пределах 0,925–0,975 и мощность > 0,80. Для наилучшей производительности требовалось, чтобы все эти три критерия были соблюдены. В случае, если только один из трех критериев был соблюден, метод считался «приемлемым», если два были соблюдены — «хорошим».

Таблица 2. Производительность методов в отношении ошибки первого рода и охвата

Таблица 3. Производительность методов в отношении мощности

Анализ чувствительности

Хотя данное симуляционное исследование может дать некоторое представление о том, какие методы использовать в тех или иных обстоятельствах, проверка того, исходят ли любые данные выборки из генеральной совокупности, нарушающей предпосылки о гетероскедастичности и/или нормальности, — это совсем другое дело. Как рекомендовано в предыдущих исследованиях, тесты значимости не следует использовать при проверке нарушений предпосылок, поскольку их мощность может быть недостаточной для обнаружения отклонений в выборках, где нарушения действительно имеют значение (Field & Wilcox, 2017; Long & Ervin, 2000). Мы рекомендуем сначала визуализировать выборку данных с помощью частичных диаграмм рассеяния для каждого предиктора и остатков модели для проверки гомоскедастичности и оценивать гистограммы остатков (или ppp-графики или qq-графики) для предпосылок о распределении. Диаграммы рассеяния, показывающие форму воронки, бабочки или обратной бабочки (см. Рис. 1 в Sladekova & Field, 2024d), могут указывать на проблемы с гомоскедастичностью, а гистограммы остатков, изображающие отклонения от нормальной кривой, могут указывать на нормально распределенные ошибки. Однако этот визуальный анализ весьма субъективен, и нет четких руководств относительно того, насколько отклонения остаются проблематичными. Недавно Sladekova и Field (2024d) описали метод количественной оценки гетероскедастичности для непрерывных предикторов, который может служить численным дополнением к визуальному анализу.

В целом, считается хорошей практикой сравнивать результаты нескольких методов, особенно если данные выборки указывают на нарушение предпосылок. Если все методы согласуются, вывод можно считать более надежным (Wagenmakers et al., 2021). Это совпадение, очевидно, не устраняет возможности того, что любой вывод, сделанный на основе результатов, на самом деле является ошибкой первого или второго рода. Однако оно демонстрирует, что достигнутые выводы, по крайней мере, не чувствительны к отклонениям от нормальности или гетероскедастичности, в зависимости от используемого метода. Если выводы различаются в зависимости от используемого метода, знание типа нарушения предпосылки и эффективности метода может быть использовано для оценки достоверности данного результата.

Например, представьте себе исследование с выборкой из 60 случаев, где гистограмма остатков выглядит достаточно нормальной, но анализ частичной диаграммы рассеяния показывает заметный конусообразный узор вокруг линии регрессии для интересующего предиктора. Несмотря на то, что предпосылка о гетероскедастичности относится к ошибкам генеральной совокупности, а не к остаткам выборки, в этом сценарии может быть более разумно не слепо предполагать гомоскедастичность. По этой причине воображаемый исследователь решает использовать стандартный метод бустрапа SPSS (т.е. бустрап пар с перцентильным доверительным интервалом) и сравнивает его с p-значением, вычисленным с использованием стандартной ошибки HC4. Перцентильный доверительный интервал бустрапа пар указывает на отклонение нулевой гипотезы, но p-значение HC4 указывает на отсутствие отклонения нулевой гипотезы.

Рисунок 1 показывает, что для сравнимой выборки размером 50 и нормально распределенных, но по крайней мере умеренно гетероскедастических ошибок, бустрап пар с перцентильным CI более склонен к ошибке первого рода (8–9%), чем HC4 (5%). Этот результат также можно получить из Таблицы 2, где показано, что для условия «гетероскедастичность и нормальность» и размера выборки 50 только HC4 находился в пределах строгого критерия. Кроме того, Рисунок 5 показывает, что для тех же условий оценки мощности могут снижаться до 41% для HC4 и 48% для перцентильного бустрапа в зависимости от степени гетероскедастичности. Это отражено в Таблице 3, поскольку ни HC4, ни бустрап пар с перцентильным CI не указаны как имеющие адекватную мощность (т.е. ≥ 0,80). Учитывая это, исследователь, который больше обеспокоен избежанием ошибки первого рода, чем ошибки второго рода, может тогда принять решение основывать свои выводы на HC4, а не на результатах бустрапа. Приоритет результатов перцентильного бустрапа над HC4 из-за более высокой мощности (т.е. более низкого уровня ошибки второго рода) также, безусловно, может быть аргументирован, хотя его труднее обосновать, поскольку оба анализа продемонстрировали довольно низкую мощность в нашей симуляции. В целом, никакой вывод не должен основываться исключительно на статистическом анализе, а вместо этого всегда следует взвешивать последствия совершения ошибки первого или второго рода, помимо других (теоретических) соображений (Benjamin et al., 2017).

Априорная мощность

При планировании исследования также важно подумать о том, вероятно ли, что соответствующие предпосылки анализа выполняются в исследуемых генеральных совокупностях. Симуляции для регрессионных моделей показали, что можно ожидать резкое снижение статистической мощности просто из-за несоблюдения предпосылки о гомоскедастичности. Например, там, где большой эффект имел бы 94% мощность для обнаружения в выборке из 25 при соблюдении предпосылок, она снижается до 53% при сильно гетероскедастичных ошибках и до 41%, когда, в дополнение, ошибки ненормально распределены. Общеизвестные программы для анализа мощности, такие как G*Power (Faul et al., 2007) или встроенный анализ мощности SPSS, могут вычислять мощность только в том случае, если предпосылки модели соблюдены. Рисунки 5 и 6 могут дать некоторое представление о том, какие комбинации нарушений предпосылок сильно влияют на статистическую мощность при определенном размере выборки. На этих рисунках исследователи могут сравнить верхнюю левую ячейку для классического метода вывода, где данные были сгенерированы как нормальные и гомоскедастические, для каждого размера выборки со всеми другими ячейками в соответствующем блоке. Более сильное снижение мощности для какого-либо условия по сравнению со случаем, когда предпосылки соблюдены, подразумевает, что потребуется протестировать больше участников. Чтобы точно выяснить, сколько участников потребуется, мощность можно оценить путем симуляции, а не аналитически с помощью таких программ, как R. Таким образом, все типы нарушений предпосылок и ожидаемый размер эффекта в генеральной совокупности могут быть явно смоделированы (Green & MacLeod, 2016; Lakens & Caldwell, 2021; Zimmer et al., 2023).

Ограничения

Симулированные в данном исследовании сценарии данных — лишь малая часть того, с чем исследователи могут столкнуться на практике. Таким образом, основываясь только на данном исследовании, нельзя обобщать на все возможные случаи ненормально распределенных и/или гетероскедастических ошибок. Например, симулированный здесь паттерн гетероскедастичности (форма воронки) — лишь один из многих. Сообщалось, что дикий бустрап и HC стандартные ошибки могут различаться по эффективности в зависимости от паттерна дисперсии (Ng & Wilcox, 2009). Например, формы бабочки и воронки имеют тенденцию снижать taux de couverture доверительных интервалов ниже их номинальных значений, в то время как обратная форма бабочки имеет тенденцию превышать их (Sladekova & Field, 2024a). Форма воронки может встречаться, когда переменные имеют «нижнюю границу ноль, но нет верхней границы» (Cohen et al., 2003, стр. 244). Другим примером являются измерения с эффектами пола или потолка, где дисперсия на одном конце шкалы ослаблена.

Далее, хотя распределение предикторов не является предметом предпосылок регрессии МНК и ее вывода, следует отметить, что в данном исследовании были симулированы только предикторы с непрерывными нормальными распределениями. Различные распределения ошибок, которые были симулированы, основывались на предыдущих симуляционных исследованиях, которые сами базировали эти значения скошенности и эксцесса на наборах данных из нескольких общедоступных исследований психического здоровья и злоупотребления психоактивными веществами (Curran et al., 1996). Тем не менее, настоящие результаты охватывают только отклонения от нормальности, которые потенциально более экстремальны, чем обычно встречающиеся (Blanca et al., 2013), и не учитывают другие формы распределений, такие как равномерное, отрицательно асимметричное или симметричное, но с тяжелыми хвостами.

Представленные в данном исследовании таблицы поэтому следует скорее рассматривать как некоторую поддержку для прикладных исследователей, чтобы они могли ориентироваться в том, какие методы могут, а какие, вероятно, не будут работать ожидаемым образом в их конкретной ситуации с данными. В целом, стоит подчеркнуть, что все результаты статистического вывода несут неопределенность, и любой вывод следует делать скромно, прозрачно признавая оставшиеся сомнения и ограничения (Wagenmakers et al., 2021).

Наконец, методы, оцененные в данном исследовании, исключительно сосредоточены на различных подходах к выводу для оценщика МНК, а не на самой оценке параметров. В рамках регрессионной модели методы робастной регрессии, использующие другой оценщик, могут быть лучше приспособлены для решения специфических явлений, влияющих на результаты, таких как выбросы (Wilcox, 2022). Однако в долгосрочной перспективе размышление о потенциальных процессах генерации данных, лежащих в основе ненормальных форм распределений или гетероскедастических паттернов дисперсии, может способствовать лучшему пониманию основных психологических или предметно-специфических механизмов. Как только будут сформулированы генеративные модели, отражающие такие механизмы, они, вероятно, скоро превзойдут любой простой линейный модель для эпистемологических целей (т.е. для получения знаний и понимания о реальных явлениях). Тем не менее, использование робастного метода вывода для регрессии МНК все еще может быть полезной первой попыткой осмыслить любые заданные данные, одновременно защищаясь от повышенных уровней ошибки первого и/или второго рода.

Заключение

Цель настоящего исследования заключалась в сравнении различных робастных альтернатив, доступных в SPSS (версия 29), классическому методу вывода для регрессионного анализа методом обычных наименьших квадратов. Была симулирована серия сценариев данных, созданных с различными размерами выборки и уровнями нарушения предпосылок гомоскедастичности и нормальности, основанных на четырех различных моделях генерации данных. Результаты показали, что ни один из методов, включая классический метод, HC3, HC4 и шесть различных бустрап-методов, не показал удовлетворительных результатов по всем показателям в рассмотренных сценариях данных с точки зрения ошибки первого рода, охвата и мощности.

Либо одна гетероскедастичность, либо в сочетании с ненормальностью приводили к наихудшим показателям для большинства методов. Классический метод часто недооценивал размер стандартной ошибки, что приводило к чрезмерно узким доверительным интервалам и грубо завышенным уровням ошибки первого рода. Использование либо стандартных ошибок HC3 или HC4, либо процедуры дикого бустрапа с перцентильными доверительными интервалами приводило к приемлемым результатам во многих, но не во всех рассмотренных ситуациях с данными с точки зрения уровня ошибки первого рода, охвата, а также мощности. Настоящее исследование призвано предоставить прикладным исследователям некоторое руководство по поиску более подходящих альтернатив классическому выводу, типичному для регрессии МНК, когда их данные ставят под сомнение достоверность классического подхода. В целом, сравнение нескольких методов и исследование их различий может способствовать более полному пониманию данных и лежащих в их основе генерирующих механизмов или процессов.

Короткие версии статей можно найти в телеграм-канале.

Посмотреть канал
Кликните еще раз для перехода

Термальная вода Vichy 150 мл - успокаивающий уход

Термальная вода Vichy с 15 минералами успокаивает и укрепляет кожу. Устраняет покраснения и раздраже...

...

Uriage мицеллярная вода 500 мл для чувствительной кожи

Мицеллярная вода Uriage бережно удаляет макияж и загрязнения, успокаивает и увлажняет чувствительную...

Фагодерм гель 50мл с бактериофагами для здоровья кожи

Фагодерм гель с бактериофагами 50 мл обеспечивает мягкий уход и защиту кожи, помогает снизить риск р...

Зубная паста Президент Антибактериальная 50 мл - купить

Зубная паста Президент Антибактериальная 50 мл обеспечивает комплексную защиту полости рта. Содержит...

Абуцел паста для стомы 45г | Защита кожи и уход

Абуцел паста для стомы 45 г мягко защищает кожу вокруг стомы от раздражений и воспалений, способству...