1.02k likes | 1.35k Vues
24-я годичная конференция Санкт-Петербургского союза ученых ( СПбСУ ) 5-6 апреля 2014 г. Санкт-Петербург. Кризис воспроизводимости (и / или согласованности) результатов в биомедицине, его истоки и пути преодоления. Никита Николаевич Хромов-Борисов Кафедра физики, математики и информатики
E N D
24-я годичная конференция Санкт-Петербургского союза ученых (СПбСУ) 5-6 апреля 2014 г. Санкт-Петербург
Кризис воспроизводимости (и/или согласованности) результатов в биомедицине, его истоки и пути преодоления Никита НиколаевичХромов-Борисов Кафедра физики, математики и информатики ПСПбГМУим. акад. И.П. Павлова 8-952-204-89-49 (Теле2); 8-921-449-29-05 (МегаФон) Nikita.KhromovBorisov@gmail.com http://independent.academia.edu/NikitaKhromovBorisov
Вместо эпиграфа: Политики обсуждают глобальное потепление (Берлин)
Плохая воспроизводимотсь результатов экспериментов и наблюдений – бич современной биомедицины
Из истории эпидемиологических исследований: факторы риска для возникновения рака (JenksS., Nancy Volkers N. Razors and refrigerators and reindeer — Oh My! //J. Natl. Cancer Inst., 1992. – Vol. 84. – No. 24. – P.1863) • Электробритвы • Холодильники • Флуоресцентные светильники • ЛЭП – линии электропередач • Аллергия • Содержание певчих птиц • Хот-доги • Разведение северных оленей • Профессия – официант • Высокий рост • Малый рост • И, конечно, мобильные телефоны! Обширный перечень зачастую курьезных медицинских заблуждений о разнообразных факторах риска, оказавшихся несостоятельными, приведен в работе: BuchananA.V., Weiss K.M., Fullerton S.M.Dissecting complex disease: the quest for the Philosopher’s Stone?International Journal of Epidemiology 2006. – Vol. 35. – P. 562–571.
Перечень спорных невоспроизводимых результатов • Гормонозаместительная терапия и заболевания сердца • Гормонозаместительная терапия и рак • Стресс и язва желудка • Ежегодные физические обследования и предотвращение болезней • Нарушения поведения и их причины • Маммография и предупреждение рака • Самообследование молочных желез и предупреждение рака • Эхинацея и простуда • Витамин С и простуда • Детский аспирин и предупреждение болезней • Поваренная соль и гипертензия • Потребление жира и заболевания сердца • Пищевой кальций и прочность костей • Ожирение и болезни • Пищевые волокна иколоректальный рак • Пищевая пирамида и рекомендуемые суточные нормы потребления • Холестерин и сердечнососудистые заболевания • Гомоцистеин и сердечнососудистые заболевания • Воспаления и сердечнососудистые заболевания • Оливковое масло и рак молочной железы
Перечень спорных невоспроизводимых результатов(продолжение) • Беспокойство и ожирение • Солнце и рак • Ртуть и аутизм • Родовспоможение и шизофрения • Материнская забота и шизофрения • Что-то еще и шизофрения • Красное вино (но не белое и не виноградный сок) и заболевания сердца • Сифилис и гены • Материнская забота и аутизим • Грудное вскармливание и астма • Искусственное вскармливание и астма • Бог знает, что и астма • Силовые трансформаторы и лейкемия • Атомные электростанции и лейкемия • Мобильные телефоны и опухоли мозга • Витаминные антиоксиданты и рак или старение • Организация медицинского обеспечения и удешевление медицинский услуг • Организация медицинского обеспечения и оздоровления населения • Гены – и вы можете сами назвать, что еще!
Мифы об AB0 • Классическим примером неподтвержденных связей с различными состояниями человека может служить система группы крови AB0. • Сообщались самые невероятные явления. • Якобы у субъектов с А более тяжелое похмелье; • у субъектов с 0 более здоровые зубы; • военные с 0слабохарактерны, а с Bболее импульсивны; • субъекты с Bболее склонны к преступлениям; между AB0и пищеварением – сильная связь: для каждой группы своя диета; аллель 0 якобы более древняя и поэтому ее носители – охотники и плотоядны, а аллель A моложе и поэтому ее носители – фермеры и вегетарианцы; • у субъектов с А2более высокий IQ; • люди с группой Вчаще испражняются. • Все эти связи не воспроизводятся и практически забыты.
Статистически «доказанными» до сих пор остаются лишь связи между группами крови AB0и злокачественными новообразованиями, тромбозами, пептическими язвами, кровотечениями, бактериальными и вирусными инфекциями. • Увы, клинической (практической) ценности эти связи не имеют, поскольку такой показатель статистической связи как отношение шансов («оддов») (OR) для них не превышает значения OR=1,5.
Словесная интерпретация (вербальная шкала) градаций для отношения шансов OR По:HopkinsW.G.A Scale of Magnitudes for Effect Statisticshttp://www.sportsci.org/resource/stats/
Рубанович А.В., Хромов-Борисов Н.Н. Теоретический анализ показателей предсказательной эффективности бинарных генетических тестов //Экологическая Генетика, 2013. – Т. 11. – С. 77‑90. • Наше теоретическое исследование показывает, что при OR< 2,2 маркер обладает заведомо низкой прогностической эффективностью во всех смыслах и при любых частотах встречаемости заболевания и маркера. • Маркер может быть хорошим классификатором, если OR > 5,4, да и то при условии, что его популяционная частота достаточно высока (pM> 0,3). • Не следует забывать, что указанным неравенствам должны удовлетворять нижние границы доверительного интервала для оцениваемого значения ORL. • Ранее близкие значения критических уровней наблюдаемых эффектов в генетике предрасположенностей предлагались для относительных рисков (RR< 2 и RR> 5). • Ioannidis J.A.P.Commentary: Grading the credibility of molecular evidence for complex diseases //International Journal of Epidemiology, 2006. Vol. 35. P. 572–577.
BegleyC.G., Ellis L.M. Raise standards for preclinical cancer research // Nature, 2012. – Vol. 483. – P. 531-533. • ГленнБегли (C. Glenn Begley), бывший вице-президент известной биотехнологической компании Amgen, иего коллега Ли Эллис (Lee M. Ellis) недавно сообщили, что ученые этой компании не смогли подтвердить (воспроизвести) результаты 47 из 53 статей, которые казались очень плодотворными для запуска программ по производству новых лекарств.
В одном исследовании, которое за короткий период цитировалось более 1900 раз, даже сами авторы впоследствии не смогли воспроизвести собственные результаты. • Бегли и Эллис считают, что плохая воспроизводимость результатов становится системной проблемой современной науки.
IoannidisJ.P.A.Why most published research findings are false// PLoS Med., 2005. – Vol. 2. – No. 8. – Paper: e124. Почему результаты большинства опубликованных исследований оказываются ложными?
Сэр Карл РаймундПо́ппер (KarlRaimundPopper; 28.07.1902 — 17.09.1994) — австрийский и британский философ и социолог. Один из самых влиятельных философов науки XX столетия
Золотое правило • Возможность поставить эксперимент является главным критерием отличия научной теории отпсевдонаучной (Поппер). • Золотое правило экспериментальной науки: • Многократноповторять эксперименты или наблюдения и изучать, насколько их результаты согласуются друг с другом, т.е. насколько они воспроизводятся.
Воспроизводимость является Золотым стандартом науки. • В идеале, результаты исследования заслуживают внимания, опубликования и цитирования, только после того как независимые исследователи подтвердят их, используя описанные авторами материалы и методы.
Научный метод • Ни один уважающий себя ученый не ограничится в своих исследованиях одним-единственным экспериментом, хотя бы ради того, чтобы исключить неизбежные ошибки наблюдения, измерений, подсчетов и т. д. • Законы Менделя стали законами только после того, как их справедливость была продемонстрирована для всех диплоидных организмов, размножающихся половым путем – от дрожжей до человека. • Смешно было бы, если Мйкельсон и Морлипровели бы всего лишь одно измерение скорости света и на основании такого этого единственного измерения утверждали бы, что скорость света постоянна (в пределах точности измерения, которую и оценить-то невозможно, если измерение одно). 19
AlbertAbrahamMichelson(19.12.1852 — 09.05.1931) Edward Williams Morley(29.01.1839 — 24.02.1923)
Грегор Иоганн Мендель(Gregor Johann Mendel; 20.07.1822 — 06.01.1884) Портрет 1884 года Памятник-бюст Г. Менделю в Колтушах. Фото 2011 г.
Культ одиночного изолированного исследования • Чрезмерное «увлечение» анализом одиночных наборов данных пронизывает почти всю биомедицинскую литературу и является серьезной болезнью статистического образования. • Конечно же, не всегда возможно собрать больше данных, и некоторые научные эксперименты столь дорогостоящи, что правомочно извлекать из данных как только возможно больше информации. • Однако, во многих других ситуациях можно и нужно собирать как можно больше данных, и это представляется благоразумным. • Наука не дается малой кровью. 23
Вавилонское столпотворение в статистике • Статистики говорят на разных языках и зачастую не слышат и/или не понимают друг друга. • Существуют две основные идеологии статистических рассуждений: • Частотническая(Фреквентисткая) и • Бейзовская (Бейзианская). • В частотнической идеологии выделяются две основные идеологии: • Фишера и • Неймана-Пирсона • Пользователи их редко различают, и отсюда проистекают серьезные недоразумения.
Синдром статистической снисходительности и доверчивостиилизначение и назначение P-значения
Процедура проверки значимости нулевой гипотезы, основанная на значении Pval,– квинтэссенция традиционной (ортодоксальной) статистической практики • и одновременно – ее величайшее недоразумение и заблуждение.
Что же такое значениеP • Значение P есть условная вероятность, а именно: • Вероятность получить наблюдаемое абсолютное значение • t’obs =|tobs|статистики критерия T* и все остальные значения, еще более отклоняющиеся от значения 0, ожидаемого ПРИ УСЛОВИИ, что верна нулевая гипотеза H0: • Pval= Pr(T* ≥ t’obs|H0). • Значение Pvalпринято интерпретировать как свидетельство против нулевой гипотезы. 28
Основная логика использования наблюдаемого значения величины Pval состоит в том, что если оно малó, то считается, что малоправдоподобно получить имеющиеся данные при условии, что справедлива нулевая гипотеза. • Как следствие делается вывод, что в таком случае малоправдоподобна и сама нулевая гипотеза. • Это считается достаточным аргументом для того, чтобы отклонить Н0 и принять альтернативную гипотезу Н1.
n1 = 5, n2 = 7, df = 10, t = 1,5P = 0,16– различие статистически незначимо
n1 = 5, n2 = 7, df = 10, t = 3,0 P = 0,013– различие статистически значимо на уровне значимости α = 0,05, но не 0,01
Статистическая снисходительность • Преодоление порогового (критического) уровня Pval < 0,05 всего лишь в одной выборке часто считается достаточным для вывода о статистической значимости наблюдаемого различия (или любого иного эффекта). • В последнем случае в отечественных научных публикациях часто употребляется даже более сильное утверждение: «различие достоверно» («эффект достоверен»).
Не «достоверный», но всего лишь «статистически значимый» • В статистике надо стараться избегать слова «достоверность», ибо в русском языке оно означает подлинный, несомненно верный, не вызывающий сомнения. • В теории вероятностей достоверное событие – событие с вероятностью, равной 1. • Всестороннее обсуждение этого вопроса см. в: • Зорин Н.А. О неправильном употреблении термина «достоверность»вроссийских научных психиатрических и общемедицинских статьях. 2000. http://www.biometrica.tomsk.ru/let1.htm
Выбор порога для значенияPval, и можно ли его обосновать?
АндрейНиколаевичКолмогоров12 (25) апреля 1903 – 20 октября 1987 • Пророк в своем отечестве
Колмогоров, статья «Вероятность» в отечественных энциклопедияхhttp://www.encyclopediaofmath.org/index.php/Probability • В статистике рекомендованный уровень значимости варьирует от 0,05– для предварительных ориентировочных экспериментов до 0,001 – для важных окончательных выводов, но достижимая надежность вероятностных выводов часто бывает гораздо более высокой. • Так, принципиальные выводы в статистической физике основываются на пренебрежении вероятностями менее 10−10. • БСЭ, 1969-1978. http://bse.chemport.ru/veroyatnost.shtml; • БРЭ • Вероятность и математическая статистика. Энциклопедия. — М.: Изд-во «Большая Российская Энциклопедия», 1999. – c. 97, 874.
«Фильтруйте базар»: Sterne J.A.C., Davey Smith G. Sifting the evidence – what’s wrong with significance tests? // BMJ, 2001. – Vol. 322. – P. 227-231. • ЗначениеPvalблизкое к 0,05неявляетсясильнымсвидетельствомпротивнулевойгипотезы. • СильнымисвидетельствамипротивН0следуетпризнаватьзначенияPval < 0,001. • В публикацияхнадопредставлятьточныезначенияPvalбезсоотнесенияих с какими-либопороговыми (критическими) значениями (типа Pval< 0,05). 37
ТрадиционнаяинтерпретациязначенийPval(и их «звездность» по шкале Michelin) 4-х звездочное критическое (пороговое) значение 0,0001 добавлено относительно недавно Мотульским: http://www.graphpad.com/guides/prism/6/statistics/index.htm?interpreting_a_small_p_value_from_an_unpaired_t_test.htm 38
[0,05; 0,01] – «серая зона»Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия, Л.: Изд-во ЛГУ, 1982. – 264 с. • Выбор уровня значимости определяется важностью биологических выводов, которые должен сделать экспериментатор. • В настоящее время многие биометрики склоняются к следующему правилу: • а) если Pval> 0,05, то принимается нулевая гипотеза; • б) если Pval< 0,01, то нулевая гипотеза отклоняется и принимается конкурирующая; • в) если 0,01 < Pval< 0,05, то результат считается неопределенным. 39
Привычка свыше нам дана • Многие исследователи (авторы) имеют дурную привычку обращать внимание исключительно на значениеPval, • игнорируя клиническую (практическую) ценность (важность) полученных ими данных.
Положительные эмоции • Когда они получают малые значенияPval, которые указывают на статистически значимое различие,например, между новым и стандартным способами лечения, • они дико радуются, ликуют, танцуют на улицах, с шумом открывают бутылки с шампанским и публикуют свои результаты в журналах класса «А» с высоким импакт-фактором.
Отрицательные эмоции • Когда же они получают большие значения Pval, • то они рвут на себе волосы, посыпают голову пеплом, срывают с себя одежды, стенают и рыдают и публикуют свои результаты в малоавторитетных журналах класса «С».
Акт интеллектуальной смелости • Когда P-значение очень мало, мы берем на себя смелость отклонить нулевую гипотезу (и принять альтернативную). • Всякий раз, принимая решение отклонить или принять нулевую гипотезу, мы совершаем акт интеллектуальной смелости. • И этот акт является внестатистическим. 43
Наираспространеннейший соблазн • Квинтэссенцию традиционных (частотнических) заключений при проверке статистических гипотез принято интерпретировать так: • чем меньше P-значение, тем весомее доводы против нулевой гипотезы H0, которые предоставляют нам имеющиеся данные; тем больше у нас оснований сомневаться вH0. • Отсюда невольно (и вроде бы естественно) возникает соблазн интерпретировать P-значение как вероятность нулевой гипотезы. 44
Распространенноезаблуждение • P-значениенеестьвероятностьнулевойгипотезы ! • Поскольку P-значениевычисляется приусловии, • чтосправедливанулеваягипотезаH0: • Pval = Pr{T ≥tнабл.|H0}, • то оно никак не может быть вероятностью нулевой гипотезы: • P{t|H0}≠ P{H0|t} 45
P(L|D) ≠ P(D|L) • Если у субъекта смертельная неизлечимая болезнь, допустим, прионная губчатая энцефалопатия Болезнь Кройтцфельдта-Якоба(D), то вероятность летального исхода (L)очень велика, практически 100%: • P(L|D) =100% • Но если перед нами труп, то вероятность того, что причиной смерти является именно эта болезнь очень мала: • P(D|L) =10-6=0,0001%
Заблуждения относительно интерпретации значения Pval • Подробнее о том, чем не является значениеPval, см. энциклопедическую статью: • http://en.wikipedia.org/wiki/P-value • и недавнюю работу С. Гудмана, в которой перечислена «грязная дюжина» ошибочных интерпрертаций значенияPval: • Goodman S. A dirty dozen: Twelve P-value misconceptions // Semin. Hematol., 2008. - Vol. 45. – P. 135-140.
Визуализация результатов проверки статистических гипотез с помощью доверительных интервалов (ДИ) для размера эффекта ДИ наряду со значением Pvalили вместо него 48
Использование доверительных интервалов (ДИ) для проверки нулевых гипотез • Для проверки нулевой гипотезы о равенстве двух средних: • H0: μ1 = μ2 • или, что то же самое: • δ0= μ1-μ2 = 0 следует построить ДИ для разности среднихδ= μ1-μ2. • Тогда, если вычисленный 100(1 – α)%-й ДИ не накрывает постулируемое этой гипотезой значение δ0 = 0, то отличие оцениваемой эти интервалом неизвестной нам разности δunkn отδ0 = 0 можно признать статистически значимым на уровне значимости α, который выбирается исследователем заранее.
ДИ и статистическая значимость Ожидаемое значениеδ 100(1 – α)%-й ДИ для неизвестного значения δunkn: Неизвестное, оцениваемое данным интервалом значение δunknстатистически не отличается от ожидаемого. Неизвестное, оцениваемое данным интервалом значение δunknстатистически значимо превышает ожидаемое на уровне значимости α. Неизвестное, оцениваемое данным интервалом значение δunknстатистически значимо меньше ожидаемого на уровне значимости α.