Вводящие в заблуждение p-значения чаще появляются в статьях биомедицинских журналов

Исследование миллионов журнальных статей показывает, что их авторы все чаще сообщают о р-значениях, но часто вводят в заблуждение, согласно исследованию, проведенному учеными из Медицинской школы Стэнфордского университета. P-значения являются мерой статистической значимости, предназначенной для научных выводов.Исследователи обнаружили, что из-за того, что p-значения так часто используются неправильно, их более широкое использование, вероятно, не указывает на улучшение методов проведения биомедицинских исследований или анализа данных.«Обычно это неоптимальный метод, а затем он используется предвзято, поэтому может ввести в заблуждение», — сказал Джон Иоаннидис, доктор медицинских наук, профессор профилактики заболеваний, исследований и политики в области здравоохранения и содиректор Meta- Исследовательский инновационный центр в Стэнфорде.

Исследование будет опубликовано 15 марта в JAMA. Иоаннидис — старший автор.

Ведущий автор — Дэвид Чавалариас, доктор философии, директор Института сложных систем во Франции.Когда p-значения = смущениеКоманда Иоаннидиса использовала автоматический анализ текста для поиска в биомедицинских базах данных MEDLINE и PubMed Central на предмет появления p-значений в миллионах рефератов, а также вручную проверила 1000 рефератов и 100 полных статей. Все статьи были опубликованы с 1990 по 2015 год.

Широко распространенное неправильное использование p-значений — часто создающее иллюзию достоверных исследований — стало затруднением для нескольких академических областей, включая психологию и биомедицину, особенно после того, как Иоаннидис начал публиковать критические обзоры методов проведения современных исследований.Отчеты в Nature, STAT и FiveThirtyEight, например, охватывают слабые стороны p-значений.

7 марта Американская статистическая ассоциация выступила с заявлением, в котором предостерегала от злоупотреблений. В одном из серии эссе, сопровождающих заявление, эпидемиолог Бостонского университета Кеннет Ротман, DMD, DrPH, написал: «Это пагубные проблемы … , журналисты и другие) использовали тесты значимости для интерпретации результатов и, следовательно, не смогли определить наиболее полезные варианты действий ".В Стэнфорде команда Иоаннидиса обнаружила, что среди всех миллионов биомедицинских выдержек в базах данных показатель p-значений увеличился более чем вдвое с 7,3 процента в 1990 году до 15,6 процента в 2014 году. В отрывках из основных медицинских журналов 33 процента сообщили о p. -значения, а в подмножестве рандомизированных контролируемых клинических исследований почти 55% сообщили о p-значениях.

Значение p-значенийP-значения призваны пролить свет на фундаментальную статистическую загадку. Предположим, что в клинических испытаниях сравниваются два препарата, и препарат А оказывается на 10 процентов эффективнее, чем препарат Б. Это может быть связано с тем, что препарат А действительно на 10 процентов эффективнее. Или может быть случай, когда препарат А оказался более эффективным в этом испытании.

Короче говоря, лекарству А могло просто повезти. Откуда вы знаете?Значение p оценивает, насколько вероятно, что данные могут быть получены таким же образом, как если бы «нулевая гипотеза» была верной — в данном случае, что нет никакой разницы между эффектами лекарств A и B. Так, например, , если препараты A и B одинаково эффективны и вы проводите сравнительное исследование, значение p 0,05 означает, что препарат A будет как минимум на 10 процентов эффективнее препарата B примерно в 5 процентах случаев.

Другими словами, если предположить, что лекарства имеют такой же эффект, p-значение оценивает вероятность получения результата, предполагающего, что A как минимум на 10 процентов лучше.«Точное определение p-значения, — сказал Иоаннидис, — состоит в том, что если нулевая гипотеза верна, p-значение — это шанс увидеть результат исследования или какой-то более экстремальный результат». К сожалению, многие исследователи ошибочно полагают, что p-значение является оценкой вероятности того, что нулевая гипотеза неверна или что результат верен.P-значения «Значение p не говорит вам, верно ли что-то.

Если вы получаете значение p 0,01, это не означает, что у вас есть 1 процентный шанс, что что-то не соответствует действительности», — добавил Иоаннидис. «Значение p, равное 0,01, может означать, что результат с вероятностью 20 процентов будет правдой, с вероятностью 80 процентов или с вероятностью 0,1 процента — и все это при одном и том же значении p. Одно только значение p не расскажу, насколько верен ваш результат ».По словам Иоаннидиса, для реальной оценки вероятности того, что результат будет истинным или ложным, исследователи должны вместо этого использовать частоту ложных открытий или вычисления байесовского фактора.Несмотря на серьезные ограничения p-значений, они стали символом хорошего экспериментального дизайна в нынешнюю эпоху.

Но, к сожалению, они не более чем символ. Иоаннидис и его команда обнаружили, что практически единственными p-значениями, указанными в рефератах, были те, которые были определены несколько произвольно как «статистически значимые» — число, обычно устанавливаемое на уровне менее 0,05. Команда обнаружила, что 96 процентов рефератов с p-значениями имели хотя бы одно такое «статистически значимое» p-значение.

«Это говорит о том, что существует избирательное давление, благоприятствующее более экстремальным результатам. Тот факт, что у вас так много значимых результатов, совершенно нереалистичен. Невозможно, чтобы 96 процентов всех проверяемых гипотез были значимыми», — сказал Иоаннидис.

Но насколько велик был эффект?Несмотря на все большее количество статей, в которых сообщается, что результаты были статистически значимыми, лишь немногие статьи сообщали о том, какой эффект оказывает лечение по сравнению с контролем или плацебо. Например, предположим, что у 10 000 пациентов наблюдалось среднее улучшение симптомов, которое было статистически значимым, по сравнению с другими 10 000 пациентов, которые не получали лекарство.

Но если бы пациенты, принимавшие препарат, чувствовали себя лучше только на 1%, статистическая значимость, полученная на основе p-значения, вероятно, не имела бы практической ценности.Из 796 статей, вручную рассмотренных командой Иоаннидиса и содержащих эмпирические данные, только 111 сообщали о величине эффекта и только 18 сообщали о доверительных интервалах (мера неопределенности в отношении величины эффекта). Наконец, ни один из них не сообщил о байесовских факторах или частоте ложных открытий, которые, по словам Иоаннидиса, лучше подходят для того, чтобы сказать нам, является ли то, что наблюдаемое, правдой.

Менее 2 процентов рефератов, рассмотренных командой, сообщали как о величине эффекта, так и о доверительном интервале.В ручном обзоре 99 случайно выбранных полнотекстовых статей с данными 55 сообщили по крайней мере об одном значении p, но только о четырех указанных доверительных интервалах для всех размеров эффекта, ни один из них не использовал байесовские методы, и только в одной использовалась частота ложных обнаружений.Иоаннидис выступает за более строгие подходы к анализу данных. «Способ двигаться вперед, — сказал он, — состоит в том, что p-значения необходимо использовать более избирательно. При использовании они должны дополняться величиной эффекта и неопределенностью [доверительными интервалами].

И это часто было бы хорошей идеей. использовать байесовский подход или процент ложных открытий, чтобы ответить на вопрос: «Насколько вероятно, что этот результат будет правдой?» "Неоптимальная техникаПо его словам, P-значения — это неоптимальный метод, и они часто используются предвзято и вводят в заблуждение. «Во всей литературе используемые статистические подходы часто неоптимальны.

P-значения потенциально вводят в заблуждение, и они выборочно сообщаются в пользу более значимых результатов, особенно в рефератах. А авторы недостаточно используют метрики, которые были бы более значимыми и более значимыми. полезно иметь — размеры эффекта, доверительные интервалы и другие показатели, которые могут повысить ценность понимания того, что означают результаты ".

Джошуа Дэвид Уоллах, докторант Стэнфордского университета, является соавтором статьи.Это исследование было поддержано Стэнфордским инновационным центром метаисследований, известным как METRICS, за счет гранта Фонда Лауры и Джона Арнольдов; грант от программы CNRS Mastodons; и грант от Сью и Боба О’Доннелл Стэнфордскому исследовательскому центру профилактики.