Исследование эквивалентности

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Рис.1. Средние различия (черные квадраты) и 90 % доверительные интервалы (горизонтальные линии) с границами эквивалентности ΔL = −0,5 и ΔU = 0,5 для четырёх комбинаций результатов испытаний, статистически эквивалентных/неэквивалентных и статистически отличных от нуля/равных нулю. Пример A статистически эквивалентен, пример B статистически отличается от 0, пример C практически незначим, а пример D неубедителен (ни статистически не отличается от 0, ни эквивалентен).

Исследование эквивалентности — это разновидность тестов гипотез, используемых для получения статистических выводов из наблюдаемых данных. В этих тестах нулевая гипотеза определяется как эффект, выходящий за границы эквивалентности. Альтернативной гипотезой является эффект, который находится в пределах заданной границы эквивалентности. Наблюдаемые данные статистически сравниваются с границами эквивалентности. Если статистический тест показывает, что наблюдаемые данные не находятся в границах ожидаемого, при условии, что истинные эффекты, по крайней мере, столь же экстремальны, как и границы эквивалентности, можно использовать подход Неймана-Пирсона к статистическим выводам для отклонения размеров эффектов, превышающих границы эквивалентности, с заранее определённым коэффициентом ошибок первого рода.

Исследования на эквивалентность берут свое начало в области клинических испытаний.[1] Один из вариантов применения, известный как исследование не меньшей эффективности, используется для того, чтобы показать, что новое лекарство, которое дешевле имеющихся альтернатив, работает так же хорошо, как и существующее лекарство. По сути, испытания на эквивалентность состоят в расчете доверительного интервала вокруг наблюдаемого размера эффекта и отклонении эффектов, выходящих за границы эквивалентности, когда доверительный интервал не пересекается с границей эквивалентности. В двусторонних тестах указываются как верхняя, так и нижняя границы эквивалентности. В испытаниях не меньшей эффективности, целью которых является проверка гипотезы о том, что новое лечение не хуже существующего, указывается только нижняя граница эквивалентности.

Исследования эквивалентности можно проводить в дополнение к тестам значимости нулевой гипотезы.[2][3][4][5] Это может предотвратить распространенное неверное толкование уровня значимости p, превышающего альфа-уровень, как подтверждения отсутствия истинного эффекта. Кроме того, исследования эквивалентности могут выявлять статистически значимые, но практически незначимые эффекты, когда эффекты статистически отличны от нуля, но при этом статистически меньше любого размера эффекта, который считается значимым (см. Рис.1).[6] Тесты эквивалентности первоначально использовались в таких областях, как фармацевтика, часто в испытаниях на биоэквивалентность. Однако эти тесты можно применять в любом случае, когда в исследовании ставится вопрос о том, являются ли средние значения двух наборов оценок практически или теоретически эквивалентными. Таким образом, анализ эквивалентности стал использоваться практически во всех областях медицинских исследований. Кроме того, в области психологии также используется анализ эквивалентности, особенно в клинических исследованиях. Однако это не означает, что анализ эквивалентности должен ограничиваться клиническими испытаниями, его можно применять в самых разных областях исследований. Так, недавно исследования эквивалентности были введены в оценку измерительных приборов,[7][8] искусственного интеллекта,[9] а также физиологии упражнений и спортивной науки.[10] Существует несколько тестов для анализа эквивалентности, однако в последнее время значительное внимание привлекает процедура two-one-sided t-tests (TOST).

TOST процедура

[править | править код]

Очень простым подходом к проверке эквивалентности является процедура TOST.[11] В процедуре TOST верхняя (ΔU) и нижняя (-ΔL) границы эквивалентности определяются на основе наименьшего интересующего размера эффекта (например, положительная или отрицательная разница d = 0,3). Проверяются две составные нулевые гипотезы: H01 (Δ ≤ -ΔL) и H02 (Δ ≥ ΔU). Если оба этих односторонних теста могут быть статистически отвергнуты, можно сделать вывод, что -ΔL < Δ < ΔU, или что наблюдаемый эффект попадает в границы эквивалентности и статистически меньше любого эффекта, который считается значимым и практически эквивалентным.[12] Были разработаны и альтернативы процедуре TOST.[13] Недавняя модификация TOST делает этот подход применимым в случае повторных измерений и оценки нескольких переменных.[14]

Сравнение между t-критерием и исследованием эквивалентности

[править | править код]

Тест на эквивалентность может быть получен с помощью t-критерия.[7] Рассмотрим t-критерий при уровне значимости αt-test со статистической мощностью 1-βt-test для соответствующего значения эффекта dr. Если Δ=dr, а также αequiv.-testt-test и βequiv.-testt-test совпадают, то есть типы ошибок (тип I и тип II) меняются местами между t-критерием и тестом на эквивалентность, то t-тест даст те же результаты, что и тест на эквивалентность. Чтобы достичь этого для t-критерия, необходимо либо правильно рассчитать объём выборки, либо скорректировать уровень значимости t-критерия при тестировании, что называется пересмотренным t-критерием.[7] Оба подхода сталкиваются с трудностями на практике, поскольку планирование размера выборки основывается на непроверяемых предположениях о стандартном отклонении, а пересмотренный t-критерий приводит к численным проблемам.[7] Сохраняя принцип теста, эти ограничения можно устранить с помощью теста эквивалентности.

Рис.2. Шансы пройти t-критерий или исследование на эквивалентность зависят от фактической ошибки 𝜇.

На рис.2 показано визуальное сравнение теста эквивалентности и t-критерия, когда на расчет размера выборки влияют различия между априорным стандартным отклонением и стандартным отклонением выборки , что является распространенной проблемой. Использование теста эквивалентности вместо t-критерия дополнительно гарантирует, что αequiv.-test ограничен, чего не делает t-критерий в случае, когда с произвольно большой ошибкой второго рода. С другой стороны, если , то t-критерий будет более строгим, чем dr, указанный при планировании, что может негативно сказаться на источнике выборки (например, производителе устройства). Это делает исследование эквивалентности более безопасным в использовании.

На рис.2 разные линии обозначают разные размеры выборки, полученные на основе различных априорных значений стандартного отклонения σ. Золотистая сплошная кривая всегда отражает правильно оцененный размер выборки, зелёная кривая — слишком большую выборку, а остальные кривые — слишком маленькие выборки. Пренебрежение ошибкой t-теста II рода (или теста эквивалентности I рода) предполагает мощность в 50 %. Толстые серые линии обозначают 𝛥=1 %. Для сравнения: на нижнем графике неправильные решения контрольного теста выделены красным цветом, правильные решения — синим. Причиной существования красных областей являются экономические соображения, направленные на ограничение затрат на тестирование: дальнейшее увеличение объёма выборки до бесконечности привело бы к исчезновению красных областей, по крайней мере, для пересмотренного t-критерия или исследования эквивалентности. Для t-критерия области с систематической погрешностью 𝜇>1 % и 𝜇<-1 % остаются синими, но внутренняя часть становится красной. Такое поведение противоречит идее о том, что ошибка статистического теста стремится к нулю, когда размер выборки стремится к бесконечности.[7]

Литература

[править | править код]

Примечания

[править | править код]
  1. Snapinn, Steven M. Noninferiority trials (англ.) // Current Controlled Trials in Cardiovascular Medicine. — 2000. — Vol. 1, iss. 1. — P. 19—21. — ISSN 1745-6215. — doi:10.1186/cvm-1-1-019. — PMID 11714400.
  2. Rogers, James L.; Howard, Kenneth I.; Vessey, John T. Using significance tests to evaluate equivalence between two experimental groups. (англ.) // Psychological Bulletin. — 1993. — Vol. 113, iss. 3. — P. 553–565. — ISSN 1939-1455. — doi:10.1037/0033-2909.113.3.553. — PMID 8316613.
  3. Statistics applied to clinical trials / Ton J. M. Cleophas. — 4th ed. — Dordrecht: Springer, 2009. — 559 с. — ISBN 978-1-4020-9522-1.
  4. Piaggio, Gilda; Elbourne, Diana R.; Altman, Douglas G.; Pocock, Stuart J.; Evans, Stephen J. W. Reporting of Noninferiority and Equivalence Randomized Trials An Extension of the CONSORT (англ.) // JAMA. — 2006. — Vol. 295, no. 10. — P. 1152—1160. — doi:10.1001/jama.295.10.1152. — PMID 16522836.
  5. Piantadosi, Steven. Clinical trials: a methodologic perspective (англ.). — Third edition. — Hoboken, NJ: John Wiley & Sons, 2017. — P. 8, 6, 2. — 886 p. — (Wiley series in probability and statistics). — ISBN 978-1-118-95920-6.
  6. Lakens, Daniël. Equivalence Tests: A Practical Primer for t-Tests, Correlations, and Meta-Analyses (англ.) // Social Psychological and Personality Science. — 2017. — Vol. 8, iss. 4. — P. 355–362. — ISSN 1948-5506. — doi:10.1177/1948550617697177. — PMID 28736600.
  7. 1 2 3 4 5 Siebert, Michael; Ellenberger, David. Validation of automatic passenger counting: introducing the t-test-induced equivalence test (англ.) // Transportation. — 2020. — Vol. 47, iss. 6. — P. 3031–3045. — ISSN 1572-9435. — doi:10.1007/s11116-019-09991-9. — arXiv:1802.03341.
  8. Schnellbach, Teresa. Hydraulic Data Analysis Using Python (англ.) // Technische Universität Darmstadt. — 2022. — doi:10.26083/tuprints-00022026.
  9. Jahn, Nico; Siebert, Michael. Engineering the Neural Automatic Passenger Counter (англ.) // Engineering Applications of Artificial Intelligence. — 2022. — Vol. 114. — P. 105148. — ISSN 0952-1976. — doi:10.1016/j.engappai.2022.105148. — arXiv:2203.01156.
  10. Mazzolari, Raffaele; Porcelli, Simone; Bishop, David J.; Lakens, Daniël. Myths and methodologies: The use of equivalence and non‐inferiority tests for interventional studies in exercise physiology and sport science (англ.) // Experimental Physiology. — 2022. — Vol. 107, iss. 3. — P. 201–212. — ISSN 0958-0670. — doi:10.1113/EP090171. — PMID 35041233.
  11. Schuirmann, Donald J. A comparison of the Two One-Sided Tests Procedure and the Power Approach for assessing the equivalence of average bioavailability (англ.) // Journal of Pharmacokinetics and Biopharmaceutics. — 1987. — Vol. 15, iss. 6. — P. 657–680. — ISSN 0090-466X. — doi:10.1007/BF01068419. — PMID 3450848.
  12. Lakens, Daniël. Equivalence Tests: A Practical Primer for t Tests, Correlations, and Meta-Analyses (англ.) // Social Psychological and Personality Science. — 2017. — Vol. 8, iss. 4. — P. 355–362. — ISSN 1948-5506. — doi:10.1177/1948550617697177. — PMID 28736600. — PMC 5502906.
  13. Wellek, Stefan. Testing statistical hypotheses of equivalence and noninferiority (англ.). — 2. ed. — Boca Raton: CRC Press, Chapman & Hall, 2010. — 415 p. — ISBN 978-1-4398-0818-4.
  14. Rose, Evangeline M.; Mathew, Thomas; Coss, Derek A.; Lohr, Bernard; Omland, Kevin E. A new statistical method to test equivalence: an application in male and female eastern bluebird song (англ.) // Animal Behaviour. — 2018. — Vol. 145. — P. 77–85. — ISSN 0003-3472. — doi:10.1016/j.anbehav.2018.09.004.