На днях Американская Статистическая Ассоциация (American Statistical Association) впервые за свою 177-летнюю историю опубликовала подробную инструкцию о том, как следует использовать классическое тестирование гипотез на статистическую значимость. В документе приводятся наиболее частые примеры ошибочной трактовки результатов подобного тестирования.
Проблема в том, что подавляющее большинство исследований опирается на тест статистической значимости гипотез как на единственный и вполне надежный способ установления зависимости между наблюдаемыми явлениями. Однако наличие корреляции, пусть и статистически значимой, не гарантирует ни смысловой нагрузки корреляции, ни значительного эффекта взаимосвязи. В итоге распространенность данного теста в совокупности с распространенностью ошибочных трактовок его результатов приводит к публикации значительного количества необоснованных или недостаточно обоснованных выводов и суждений. Кроме того, искусственный и крайне субъективный 95-процентный барьер доверительного интервала отсекает значительную часть любопытных результатов, которые не могут быть опубликованы из-за засилья р<0,05 стереотипа. Надо ли говорить о том, что наличие жестко определенного барьера соблазняет некоторых исследователей “допросить данные с пристрастием”, чтобы получить заветные значения ниже пяти сотых.
Статистики призывают использовать более изощренные методы для статистически обоснованного установления взаимосвязи или хотя бы не делать наиболее распространенных ошибок. О чем нам могут и не могут сообщить p-значения в шести пунктах по мнению American Statistical Association:
- P-значения могут указывать на несовместимость данных в рамках статистической модели.
- P-значения не измеряют вероятность того, что проверяемая гипотеза окажется верной, равно как и вероятность того, что данные сгенерированы случайным процессом.
- Научные выводы и предлагаемые меры не должны определяться лишь попаданием р-значения в субъективно указанный интервал.
- Полноценные логические выводы должны быть подтверждены абсолютно прозрачным анализом.
- Р-значение, или статистическая значимость, не измеряет размер наблюдаемого эффекта или важность результата.
- Само по себе р-значение не является хорошим измерителем статистической модели или гипотезы.
Публикация в жунрале Демоскоп Weekly, #677-678