Доказательства без магии: правила, парадоксы, решения

Aintelligence

Контентолог
Команда форума
ЯuToR Science
Подтвержденный
Cinematic
Сообщения
7.800
Реакции
10.679
Что на самом деле значит слово «доказательства» и почему вокруг него столько споров не только в философии, но и в лаборатории, суде и новостной ленте. Мы начнем с интуитивных примеров, затем пройдемся по основным теориям, посмотрим, как работают доказательства в науке, праве и медицине, и закончим простыми правилами, которые помогают не потеряться. В качестве отправной точки держим под рукой по теме Evidence, для ещё более глубокого изучения, где хорошо видны разные линии дискуссии и классические тексты, к которым они восходят.

В повседневном языке «доказательством» мы называем что угодно, что делает веру в некое утверждение разумной. Снятую камерой запись, посчитанный эксперимент, показания свидетеля, распечатку из банка, даже дрожь в голосе, если она для нас служит признаком лжи. Философия настаивает на аккуратности: одно и то же наблюдение может быть сильным подтверждением для гипотезы А и слабым для гипотезы Б, хотя фактически это один и тот же факт. Значит, разговор о доказательствах почти всегда относителен: доказательство чего и относительно каких конкурирующих гипотез. Это ключ к большинству парадоксов и споров вокруг Evidence.

Самая влиятельная картина сегодня это байесианская.
Она предлагает мыслить доказательства как изменения степеней уверенности. До встречи с фактами у нас есть распределение вероятностей по гипотезам, которое часто называют prior. Столкнувшись с данными, мы обновляемся по теореме Байеса: новая степень уверенности пропорциональна старой, умноженной на правдоподобие наблюдения при данной гипотезе. Если вероятность увидеть такие данные при гипотезе H1 больше, чем при H2, то данные подтверждают H1 относительно H2. Такой язык удобен тем, что он количественный и масштабируемый, он легко учит нас спрашивать не «правда или ложь», а «насколько это теперь правдоподобнее».
Байесианство объединяет науку, экономику, машинное обучение и риск-менеджмент в один операционный словарь и подсказывает, почему доказательство всегда двигает не только вверх, но и вниз: то, что в пользу одной версии, одновременно против ее конкурентов. Но вместе с силой приходит и боль. Откуда берутся prior, насколько они должны быть «объективными», как бороться с произволом, как учитывать структуру модели, что делать с «старым доказательством», которое было известно задолго до появления теории, но прекрасно ее подтверждает. Знаменитая проблема Old Evidence выглядит почти бытово: астрономам давно был известен аномальный перигелий Меркурия, а Эйнштейну новая теория гравитации помогла объяснить эту старую загадку. Может ли известный факт все еще служить подтверждением. Байесианцы отвечают «да», но с уточнениями: нужно работать с тем, насколько мы ожидали подобного объяснения до появления теории и каково правдоподобие такого факта внутри конкурирующих моделей. Обсуждения этой темы легко найти как в современных статьях Mind, так и в классических книгах по подтверждению, и именно они научили многих из нас попеременно смотреть то на факты, то на пространство альтернатив.

Есть и другой влиятельный лагерь, который часто называют лайклихудизмом.
Он предлагает не мучиться с priors, а смотреть только на отношение правдоподобий. Данные E являются свидетельством в пользу H1 против H2, если P(E|H1) больше P(E|H2). Вместо абсолютной степени веры нас интересует сила сравнения, которую удобно выражать через коэффициент правдоподобия. Прелесть подхода в его экономии и честности: он фиксирует именно то, что мы интуитивно делаем, сравнивая, какая гипотеза лучше объясняет увиденное. Но и у него есть ограничения. Отношение правдоподобий не говорит, насколько вообще разумно верить в каждую из гипотез и что делать с конкуренцией более чем между двумя версиями. Кроме того, мы снова упираемся в выбор пространства моделей и в то, как именно выписывать вероятность данных при сложных гипотезах вроде «есть слабый эффект плюс шум неоднороден». В реальных исследованиях и байесианцы, и сторонники правдоподобия живут рядом и часто используют общий технический инструментарий, споря уже не столько о формулах, сколько о нормах вывода.

Чуть в стороне от этих линий стоит частотный и попперианский взгляд
Он подчеркивает роль ошибок и опровержений. В этой картине p-значение это не мера доказательства, а способ контролировать долю ложных тревог. Тесты Неймана-Пирсона подсказывают, как выбирать порог отклонения нуля, чтобы держать под контролем ошибки первого и второго рода, а Карл Поппер напоминает, что теория должна делать рискованные предсказания, которые можно опровергнуть. Современные методологи добавили к этому идею «строгости» или severity: наблюдение подтверждает гипотезу тем сильнее, чем выше вероятность, что при ее ложности мы бы увидели данные, противоречащие ей, с той же процедурой. Это снимает часть магии с p-значений и заставляет смотреть на весь протокол исследования: предрегистрация, выбор остановки, чистка данных, многократные сравнения. Так мы учимся видеть, что доказательство это не только результат, но и способ его получения.

От дистиллированной методологии вернемся к парадоксам
Парадокс воронов Гемпеля заставляет признать, что ответ на вопрос «что подтверждает гипотезу» зависит от формулировки этой гипотезы. Утверждение «все вороны черные» логически эквивалентно «все нечерные вещи не-вороны», значит, наблюдение зеленого яблока как нечерной не-вороны должно хоть сколько-то подтверждать исходную гипотезу. Интуитивно это странно: почему яблоки говорят нам что-то о воронах. Ответы варьируются от математических тонкостей о мере подтверждения до напоминания, что в живой науке мы подтверждаем не логические формы, а конкретные каузальные истории. Похожий урок преподносит «жру»-парадокс Гудмана: гипотезы могут подгонять под себя прошлое и нам нужно объяснять, почему именно «черный» а не «жру» фиксирует ту природную регулярность, которая переносится в будущее. Онтология натуральных предикатов, роль механизмов и научных типов тут оказываются не менее важными, чем арифметика вероятностей.

Доказательства бывают разного вида, и у каждого свои сильные и слабые стороны.
-Перцептуальные свидетельства хороши своей непосредственностью, но уязвимы для иллюзий и предвзятости.
-Свидетельства по памяти удобны, но деградируют со временем. Показания других людей невероятно эффективны как социальная технология, но требуют оценки надежности источника.
-Статистические и экспериментальные данные дают мощный рычаг, но почти всегда зависят от скрытых допущений.
-Рандомизированное испытание выбирает случайность как инструмент борьбы с конфаундерами, однако не отменяет проблемы внешней валидности: то, что сработало здесь и сейчас, может не перенестись в другую клинику и другой год.
-Наблюдательные исследования вооружаются инструментальными переменными и причинными графами, чтобы честно отделять корреляцию от причинности.
-Истории о причинах и механизмах делают наши верования практичными, но часто содержат лакуны, где мы невольно достраиваем «мосты» из привычных шаблонов.
В каждом из этих случаев разговор о доказательствах оборачивается разговором об источниках ошибок: случайности, смещениях отбора, регрессии к среднему, обратной причинности, p-hacking и публикационной предвзятости. Чем лучше мы знаем карту этих ловушек, тем свободнее пользуемся силами Evidence.

В праве термин «доказательства» живет собственной жизнью.
Процессуальные кодексы разделяют вещественные доказательства, документы, показания, экспертизы и определяют стандарты: «вне разумного сомнения» для уголовных дел, «преобладание вероятностей» для гражданских. Юристы давно заметили, что математика вероятностей плохо ложится прямо на язык присяжных. Поэтому в последние годы набирает силу культура объяснения каналов передачи причины: как улика связана с версией событий, как альтернативные гипотезы могли бы воспроизвести те же наблюдения, какие допущения скрыты в экспертизе. Хороший прокурор мысленно прогоняет байесианскую схему, но говорит с жюри на языке сравнений, сценариев и оговорок, а хороший судья требует не цифр, а ясности, какие именно элементы истории действительно опираются на факты, а какие держатся на доверии к источнику. Здесь философия подтверждения помогает хотя бы тем, что учит говорить «относительно чего» и «с какой процедурой мы это получили».

В медицине проблема доказательств стала сердцевиной EBM.
Когда клиницист принимает решение, он сравнивает гипотезу H1 «препарат работает для такого пациента» с H2 «эффект обманчив» и H3 «вред превышает пользу». Рандомизация помогает строить правдоподобие, но все чаще врачи комбинируют статистическое evidence с причинными соображениями. Критерии Брэдфорда Хилла учат смотреть на силу связи, градиент дозы, временную предшественность и биологическую правдоподобность. Теория причинных графов показывает, когда именно наблюдательный дизайн способен имитировать рандомизацию. А мета-анализ и регистрационные базы клинических испытаний пытаются бороться с эффектом «потерянных» исследований. В каждой из этих практик философские споры о доказательствах неожиданно обретают плоть: от выбора priors для сетевого мета-анализа до интерпретации относительных рисков в беседе с пациентом, который пришел за советом, а не за абстрактной вероятностью.

Еще одна линия, важная для сегодняшнего дня, касается социальности знания.
Часть наших убеждений держится на свидетельствах других. Мы им доверяем или нет, сверяем экспертов друг с другом, учитываем репутацию и конфликты интересов, умеем воспринимать «высшего порядка» доказательства, которые касаются не самого факта, а нашей способности его оценить. Например, если вы узнаете, что эксперимент не был предзарегистрирован, это само по себе доказательство того, что выводы нужно воспринимать осторожнее, даже до чтения результатов. Если вы узнаете, что сотни лабораторий не смогли воспроизвести эффект, это новая информация о надежности области. Эта линия называется higher-order evidence и в ней философия очень близко соприкасается с практиками открытой науки.

На заднем плане всех этих практик стоит проблема недоопределенности.
Одни и те же данные можно привести в согласие с разными теориями. Классический дуэм-квайновский тезис напоминает, что проверяем мы не гипотезы поодиночке, а пучок допущений. Отсюда три следствия. Во-первых, мы никогда не избавимся от необходимости выбирать теории не только по соответствию данным, но и по простоте, плодотворности, совместимости с остальными частями науки. Во-вторых, изменения парадигм, о которых писал Кун, не отменяют роли evidence, но показывают, что данные всегда прочитываются на фоне общих ожиданий и технического языка эпохи. В-третьих, работа с доказательствами это всегда работа на краю: между логикой и психологией, между эталонной чистотой эксперимента и грязной реальностью полевых данных. Чтобы не теряться, полезно держать в голове несколько вопросов. Относительно каких альтернатив это наблюдение свидетельствует. Как получены данные и какие шаги протокола могли повлиять на вывод. Насколько результат устойчив к изменениям модели и метода. Что мы знаем о надежности источника и были ли у него стимулы ошибаться. Видим ли мы механизм или только статистическую связь и достаточно ли этого для решения. Какие есть независимые линии подтверждения, не разделяющие те же самые ошибки. В отличие от эмоциональных маркеров вроде «сенсация» и «скандал», ответы на эти вопросы тихие и вдумчивые, но именно они со временем приносят уверенность, что мы двигаемся в сторону правды.

Наконец, несколько ориентиров для самостоятельного чтения.
На странице Mind по Evidence(ссылка в начале статьи) легко отследить, как современные дебаты о старом доказательстве, силе подтверждения и объяснительном выводе опираются на классические тексты о подтверждении и индукции, и как они переговариваются с байесианцами, лайклихудистами и сторонниками строгих тестов. Для обзорных маршрутов удобно пользоваться Стэнфордской энциклопедией философии, где доступны вводные и продвинутые статьи: по , по , по , по , по , по . Эти ссылки не подменяют чтения оригиналов, но служат хорошими картами местности.

Главное, что стоит вынести из этой длинной прогулки. Доказательства это не "священный" штамп и не набор волшебных чисел, а процедура, которая делает наши убеждения более или менее разумными относительно реальных альтернатив. В разных задачах нам нужны разные представления о силе и весе подтверждения: где-то удобнее вероятность, где-то отношение правдоподобий, где-то контроль ошибок. Но во всех случаях честность к самим себе требует двух вещей. Мы должны уметь видеть, как именно построены мосты между фактами и выводами, и быть готовыми переделывать эти мосты, когда появляются новые части ландшафта. Тогда слово Evidence перестает быть лозунгом и превращается в рабочий инструмент, с которым не страшно жить в мире шумных данных и сложных решений. Спасибо, что дочитали и я всегда рада вашим комментариям, замечаниями, предложениям и дополнениям по статьям) Так же подписывайтесь на наши каналы в Телеграм.


При создании статьи использовался ИИ, как часть процесса. Материал проверен, перед публикацией редактором - человеком! Нажимай на изображение, там ты найдешь все информационные ресурсы A&N
 

Похожие темы

Методология в науке - слово, которое часто употребляют как синоним «метода», хотя речь о более глубоком уровне организации познания. Метод - это конкретная процедура (например, рандомизация испытуемых или построение причинного графа), а методика - набор пошаговых инструкций, как провести именно...
Ответы
0
Просмотры
Крионика - это практика посмертного сохранения тела или только головы человека при криогенных температурах с расчётом на то, что в отдалённом будущем появятся технологии, способные восстановить повреждения, устранить причину смерти и вернуть функции, которые делают человека тем же человеком...
Ответы
0
Просмотры
278
Панспермия занимает особое место в астробиологии, потому что она не описывает конкретную форму жизни и не предлагает новую биохимию. Это рамочная гипотеза, смещающая сам вопрос происхождения жизни из локального контекста одной планеты в космический масштаб. В отличие от абиогенеза, который...
Ответы
0
Просмотры
316
Когда в конце 1990-х астрономы измеряли расстояния до далёких сверхновых, никто всерьёз не ожидал революции. Задача была почти технической: уточнить, с какой скоростью замедляется расширение Вселенной под действием гравитации. Вместо замедления они увидели обратное - по данным двух независимых...
Ответы
0
Просмотры
445
История человеческого развития показывает: признание новой идеи часто зависело не столько от её содержания, сколько от статуса автора. Учёный с регалиями, профессор с признанным именем, или корпорация с инвестициями имели куда больше шансов быть услышанными, чем одиночка без имени. Однако всё...
Ответы
0
Просмотры
336
Назад
Сверху Снизу