На охоте за гигантскими эффектами

Несколько человек спрашивали нас, почему мы не зарегистрировали анализ для нашего исследования картофельной диеты . Мы думаем, что это свидетельствует об определенной путанице в отношении того, для чего нужна предварительная регистрация, что такое наука и почему мы вообще выбрали картофельную диету.

Предшественником предварительной регистрации была регистрация в медицинских испытаниях, которая была введена для учета предвзятости публикации . Людей беспокоило, что если медицинское исследование нового метода лечения обнаружит, что лечение не работает, результаты останутся в памяти (и они, вероятно, были правы). Их решение состояло в том, чтобы составить реестр медицинских исследований, чтобы люди могли сказать, какие исследования были завершены в соответствии с планом, а какие были пропавшими без вести. В этом смысле наш первоначальный пост, анонсирующий картофельную диету , был регистрацией, потому что это было бы очевидно, если бы мы никогда не публиковали продолжение.

Предварительная регистрация в том виде, в каком мы ее знаем сегодня, была изобретена в ответ на кризис репликации . Примерно с 2011 года психологи начали замечать, что крупные статьи в их области не воспроизводятся, и эти неудобные наблюдения постепенно переросли в полномасштабный кризис (отсюда и «кризис репликации»).

Исследователи начали объединяться вокруг ряда идей реформы, и одним из самых популярных предложений была предварительная регистрация. В то время многие люди рассматривали предварительную регистрацию как способ спасти затонувший корабль психологической науки (и все другие корабли, которые, казалось, вот-вот дадут течь).

Призывы к предварительной регистрации можно было найти еще в 2013 году, в таких местах, как это открытое письмо в The Guardian , и на OSF , где люди уже говорили о поощрении использования предварительной регистрации с помощью эффектных значков, подобных этому:

Но, несмотря на ранний энтузиазм, предварительная регистрация не является универсальным решением. Он имеет небольшое количество вариантов использования, и эти случаи специфичны. Частью хорошего статистика является знание того, как предварительно зарегистрировать исследование, и знание того, когда применяется предварительная регистрация, а это не так широко применимо. Мы считаем, что у предварительной регистрации есть два конкретных преимущества: одно для исследовательской группы, а другое для аудитории.

Мы уже проводили предварительную регистрацию исследований, и, по нашему опыту, самым большим преимуществом для исследователей является то, что предварительная регистрация побуждает вас планировать свой анализ заранее. Когда вы проводите исследование, не задумываясь достаточно далеко, вы иногда получаете данные обратно и думаете: «О, черт, как мне это сделать, я бы хотел, чтобы исследование было организовано по-другому». Но к тому времени уже слишком поздно. Предварительная регистрация помогает решить эту проблему, потому что вам нужно заранее изложить весь свой план, что поможет вам убедиться, что вы не упустили что-то очевидное. Это очень удобно для исследовательской группы, потому что помогает им не смущаться, но для читателя это мало что значит.

Основная польза, которую аудитория получает от предварительной регистрации, заключается в том, что предварительная регистрация дает понять, какие анализы были «подтверждающими», а какие «исследовательскими». Некоторые анализы вы планируете делать все время («подтверждающие»; нет, это тоже не имеет для нас никакого смысла), а некоторые вы делаете только тогда, когда видите данные и думаете, что это за штука («исследовательская »; вы Васко да Гама).

исследовательский анализ

Это нормально само по себе, потому что это как бы помогает против взлома , который является одной из основных причин кризиса репликации. Когда вы делаете проект, вы можете анализировать данные разными способами, и некоторые из этих анализов будут выглядеть лучше, чем другие. Если вы проведете достаточное количество анализов, вы почти наверняка найдете те, которые выглядят довольно хорошо. Это логика p-hacking, а предварительная регистрация усложняет p-hack, потому что вы теоретически должны сообщить людям, какие анализы вы планировали провести с самого начала.

(Это работает только против p-взлома, который происходит в результате добросовестной ошибки, что возможно . Но ничто не мешает настоящим мошенникам собирать данные, анализировать их, выбирать анализ, который выглядит лучше всего, ЗАТЕМ «предварительно» зарегистрировать его. , и создать впечатление, что они планировали эти анализы с самого начала. И, конечно же, самые опасные мошенники могут просто сфабриковать данные.)

Но вот что они не всегда говорят вам: p-взлом представляет собой проблему только в том случае, если вы проводите исследования в узком диапазоне, где на самом деле требуется выводная статистика . Никаких p-значений, никакого p-хакинга. И хотя логическая статистика может быть удобной, по возможности следует избегать проведения исследований в этом диапазоне. Если вы продолжаете обнаруживать, что достигаете этих p-значений, что-то не так.

Статистика полезна, когда результат выглядит так, как будто он может быть результатом шума, но вы не уверены. Допустим, мы тестируем новый метод лечения болезни. У нас есть группа из 100 пациентов, получающих лечение, и контрольная группа из 100 человек, не получающих лечения. Если 52/100 человек выздоравливают, когда получают лечение, по сравнению с 42/100 выздоравливающими в контрольной группе, трудно сказать, помогло ли лечение, или разница просто шум. Вы не можете сказать это с первого взгляда, но критерий хи-квадрат может сказать вам, что p = 0,013, а это означает, что вероятность того, что мы увидим что-то подобное только из-за шума, составляет всего 1,3%. В этом случае поможет статистика.

Но было бы бессмысленно проводить статистическую проверку, если бы мы увидели, что 43 из 100 человек выздоравливают после лечения по сравнению с 42 из 100 в контрольной группе. Вы можете сказать, что это очень согласуется с шумом (p > 0,50), просто взглянув на него. И было бы столь же бессмысленно проводить статистическую проверку, если бы мы увидели, что 98 из 100 человек выздоравливают после лечения по сравнению с 42 из 100 в контрольной группе. Вы можете сказать, что это очень несовместимо с шумом (p < 0,000000000000001), просто взглянув на него. Если что-то проходит тест на межглазную травму (заключение попадает вам между глаз), статистику вытаскивать не надо.

Если вы просматриваете чужие данные, вам, возможно, придется извлечь статистику, чтобы выяснить, является ли что-то реальным открытием или оно согласуется только с шумом. Если вы работаете с большими наборами данных, собранными по несвязанным причинам, вам могут понадобиться такие методы, как множественная регрессия, чтобы попытаться распутать сложные отношения. Или, если вы специализируетесь на определенных методах, где сбор данных обходится дорого и/или отнимает много времени, например фМРТ, вы можете быть вынуждены использовать статистику из-за небольшого размера выборки.

Но для среднего экспериментатора вы можете получить представление о величине эффекта из пилотных исследований, а затем выбрать любой размер выборки, который вам нужен, чтобы иметь возможность четко обнаружить этот эффект. Большинству экспериментаторов не нужны p-значения, и точка.

Еще лучше, вы можете попытаться избежать крошечных эффектов, изучить эффекты, которые больше, чем средние, даже больше, чем большие. Вы можете изучать эффекты, которые, одним словом, огромны.

Мне нравятся мои женщины, как мне нравится мой кофе

И не похоже, что нас действительно волнует простое различие между работой и не работой. Манхэттенский проект был попыткой создать гигантскую бомбу. Если бы бомба взорвалась, но произвела только эквивалент 0,1 килотонны в тротиловом эквиваленте, она бы «сработала», но также стала бы большим разочарованием. Когда мы говорим о чем-то огромном, мы имеем в виду, что это не просто работает, а ДЕЙСТВИТЕЛЬНО работает. В день испытания Тринити собравшиеся ученые сделали ставки на конечную мощность бомбы :

Эдвард Теллер был самым оптимистичным, предсказав 45 килотонн в тротиловом эквиваленте (190 ТДж). Он носил перчатки для защиты рук и солнцезащитные очки под сварочными очками, которыми правительство снабдило всех. Теллер также был одним из немногих ученых, которые действительно наблюдали за испытанием (с защитой глаз), вместо того, чтобы выполнять приказы лечь на землю спиной. Он также принес лосьон для загара, которым поделился с остальными.

Другие были менее оптимистичны. Рэмси выбрал ноль (полная неудача), Роберт Оппенгеймер выбрал 0,3 килотонны в тротиловом эквиваленте (1,3 ТДж), Кистяковский 1,4 килотонны в тротиловом эквиваленте (5,9 ТДж), а Бете выбрал 8 килотонн в тротиловом эквиваленте (33 ТДж). Раби, прибывший последним, по умолчанию взял 18 килотонн тротила (75 ТДж), что принесло ему пул. В видеоинтервью Бете заявил, что его выбор 8 узлов был именно тем значением, которое рассчитал Сегре, и на него повлиял авторитет Сегре по сравнению с более младшим [но неназванным] членом группы Сегре, который рассчитал 20 узлов. Энрико Ферми предложил принять участие в пари среди лучших физиков и присутствовавших военных на то, воспламенится ли атмосфера, и если да, то уничтожит ли она только государство или испепелит всю планету.

Конечная мощность составила около 25 килотонн. Опять гигантский.

Изучение эффекта, который действительно огромен, делает p-hacking не проблемой. Вы либо видите это, либо нет. То же самое можно сказать и о достаточно большом размере выборки. Если у вас есть оба, fuggedabaudit. Подобные исследования не нуждаются в предварительной регистрации, потому что им не нужна выводная статистика. Если предполагаемый эффект действительно сильный, а исследование достаточно мощное, то любые выводы будут четко видны на графиках.

Вот почему мы не удосужились заранее записаться на картофельную диету. Тематические исследования, с которых мы начали, предполагали, что размер эффекта был, если использовать современную терминологию, поистине огромным. Эндрю Тейлор потерял более 100 фунтов в течение года. Крис Войт похудел на 21 фунт за 60 дней. Это много.

Если люди не теряют несколько килограммов на картофельной диете, то, по нашему мнению, диета не работает. Мы не заинтересованы в ссоре из-за пары фунтов. Нас не интересуют споры о том, равно ли p-значение 0,03, 0,07 или чему-то еще. Если картофельная диета не работает, нам она не нужна. К счастью , это действительно работает .

(Мы не сообщали о тесте значимости для картофельной диеты, потому что мы не думаем, что необходима статистика выводов, но если бы мы это сделали, релевантное значение p было бы 0,000000000000000022).

Что случилось с поиском вещей, которые… действительно хорошо работают? Ни у кого нет академических дебатов о том, работает ли солнцезащитный крем. Никто не спорит о пенициллине или вакцине против полиомиелита. Не было никаких сомнений в том, что кокаин был отличным, возбуждающим, очень замечательным местным анестетиком . Когда кто-то вводит вам кокаин в спинномозговую жидкость, вы, блядь, об этом знаете.

Мы тоскуем по времени, когда духи были смелыми, мужчины были мужчинами, женщины были мужчинами, дети были мужчинами, различные виды мотыльков были мужчинами, собаки были гусями, а ученые пытались сделать открытия, которые были чрезвычайно эффективными. Почему-то люди как будто забыли. Почему мы ищем вещи, которые едва ли работают?

Возможно, виновата статистика. В конце концов, статистика полезна только тогда, когда вы находитесь на грани того, чтобы увидеть эффект или нет. Может быть, все эти статистические тренировки побуждают людей искать буквально мельчайшие эффекты, которые можно обнаружить, поскольку статистика действительно хороша только для этого. Но это было ошибкой. Ученые до статистики были правы. Курение и рак легких, лучшие работы там , огромные размеры эффекта.

Мы знаем, что не все, что стоит изучить, будет иметь большой эффект. Некоторые важные вещи неудобны и их трудно обнаружить. Мы должны быть в поиске лекарств, которые увеличат выживаемость от рака на 0,5%, или взаимосвязей, которые выявляются только в наборах данных с 10 000 наблюдений. Мы не против этого; мы делали такую ​​работу раньше, и мы сделаем это снова, если потребуется.

Нет ничего постыдного в том, чтобы отследить небольшой эффект, когда больше не на что охотиться. Но ваши предки охотились на крупную дичь, когда это было возможно. Вы тоже должны.

Хорошая охота.

Leave a Comment

Ваш адрес email не будет опубликован.