Ложь, наглая ложь и причинный вывод (causal inference)

Вы думали, что после лжи и наглой лжи идёт статистика? Отнюдь. Над статистикой, изучающей ассоциации между какими-то событиями есть ещё два уровня, изучаемые причинным выводом (causal inference), оформившимся в более-менее самостоятельное направление в последние два-три десятка лет.

1. Ассоциация (association) связана с наблюдением. Типичные вопросы: что это? Как наблюдение X изменяет мою веру в Y? Да, там сразу всё байесовское, P(y|x). Примеры: Что симптом говорит мне о болезни? Что опрос говорит нам о результатах выборов?

2. Вмешательство (intervention) связано с деятельностью, влиянием на жизнь. Типичные вопросы: что, если? Что, если я сделаю X? Это уже за пределами байсовской статистики, ибо не статистика вовсе: требуется дополнительное введение причинной модели, т.е. каких-то гипотез от предметного эксперта о том, что там на что в предметной области влияет. Дальше статистика подтвердит или опровергнет эти гипотезы. То есть добавляется оператор do, P(y|do(x),z), а в остальном — те же байесовские сети. Тут уже обсуждаются возможные миры, которых ещё не было, речь идёт о проектировании будущего мира, то бишь о планировании: Если я выпью бутылку кока-колы, исчезнет ли моя головная боль? Что будет, если я брошу курить, пить и работать по ночам?

3. Контрфактуалы (couterfactuals) связаны с возможными мирами, мимо которых уже проехали — это вопросы, задаваемые в рефлексии. Это уже не столько проектирование/планирование, сколько воображение, ретроспекция, вопросы про механизмы: Почему? Это X привёл к Y? Что было бы, если бы я действовал вчера по-другому? Это уже совсем далеко от статистики, выражения там P(yx|x′,y′), и рассуждения требуют учёта вмешательства (которое в свою очередь опирается на статистику!), т.е. вычисления над причинной моделью с гипотезами о предметной области, но при этом проводятся ещё и хитрые операции вмешательства над этой моделью.

За последние тридцать лет в этих предметных областях произошла онтологизация в достаточной мере, чтобы навести формальную теорию (выразить всё математически, с доказательствами). Как пишет один из ведущих исследователей причинного вывода Judea Pearl, формализовывать нужно только то, что тебе реально важно — но тогда уж не жалеть сил и заниматься этим а хоть и пару десятков лет, как он сам.

Мутные рассуждения про контрфактуалы (те самые, которые возникают в вопросах «Почему?», связанных с попытками выяснить механизмы каких-то явлений) вытащили из левой части спектра формальности мышления далеко-далеко в правую часть. Это тяжёлая работа, но если уж её проделать, то дальше формальная машинка будет оберегать от многих и многих ошибок, а пользоваться готовыми формулами смогут при должной тренировке и студенты, и даже школьники. Использование результатов этой работы — это causal revolution, как скромно называет Judea Pearl распространение новой модели формальных размышлений (т.е. математизированной онтологии) о причинности в эпидемиологии, сельском хозяйстве и отчасти экономике и социологии.

Это подробно рассказывается в вышедшей в мае книжки Judea Pearls (ему помог написать эту книгу популяризатор науки Dana MacKenzie) «Книга Почему: новая наука причины и следствия»[1].

[1] , The Book of Why: The New Science of Cause and Effect, https://www.amazon.com/Book-Why-Science-Cause-Effect-ebook/dp/B075DCKP7V/

Сама книжка призвана вытащить в порядке этой «причинной революции» онтологию причинности, сформулированную в терминах частично эпидемиологов, частично сельскохозяйственников, частично из самых разных других дисциплин в какую-то более-менее общую для всех часть научного мышления. То есть речь идёт о «подходе»: наработанный на примерах одних дисциплин теоретический аппарат планируется применять более-менее везде. Ну, типа как системный подход — наработанное главным образом на примерах биологии системное мышление, определяемое сегодня как использование системного подхода, стало трансдисциплиной, используется во множестве других практик.

Книжка задевает и планирование эксперимента (research/experiment design), что важно не только для проверки научных гипотез, но и для проверки инженерных утверждений — это важная связь с системной инженерией, там ведь есть поддисциплина, связанная с проверочными и приёмочными испытаниями и тестами.

Глава книжки про (сильный) искусственный интеллект не самая убедительная, ибо это теоретические заявления не про когнитивные архитектуры, а про находящиеся под ними на более низком системном уровне алгоритмы обучения. И ответы на «доказательства» Pearl из стана разработчиков AI будут, но не теоретические, а инженерные — на другом системном уровне. Меня тут больше волнует как раз то, что два уровня математических наслоений над байесовской математикой это многовато, рассматриваемые модели из той же медицины пополам с социологией (эпидемиология) и сельского хозяйства (затронуто в книге маргинально, но там это всё тоже важно) выглядят более чем странными, и искусственный интеллект должен, конечно, брать всю эту формальную механику на себя. Люди с удовольствием передали бы своему (или даже чужому) персональному ассистенту возможность проводить все необходимые рассуждения в предлагаемой новой дисциплине причинного вывода (причинного рассуждения, casual inference). В центре всей дисциплины — это графовые модели причинности. Важное замечание для читателей: graphical — это графовые, а не визуальные/графические! Не думайте, что книжка рекламирует именно диаграммы. Нет, не диаграммы: речь идёт о графах, которые можно а) нарисовать как узлы и рёбра, б) задать матрицей связей, в) задать списками узлов и связей и т.д.. Начинается всё с простых моделек типа вот таких причинных соотношений между образованием, опытом работы и уровнем зарплаты:

Проблема в том, что эти модельки (гипотезы о причинности, которые потом будут проверяться расчётами) должны делать разбирающиеся в предметной области люди, а не статистики — то есть по факту говорится, что data scientists никто, если они не работают рядом с subject expert (экспертом, разбирающемся в свой предметной области). И Big Data это ни про что, если с этими данными разбирается специалист-статистик, а не специалист по той предметной области, из которой взяты эти самые данные. И программист никто, если рядом нет разбирающегося в причинно-следственных отношениях целевой предметной области.

Если у вас есть модель причинности, то вы можете делать следующее, чего не можете сделать на чистой статистике[2]:

  1. Записывать предположения о причинности в форме, которую можно тестировать, и которая затем непосредственно может быть использована для формального вывода (inference, как в «вывести формулу», тут «вывести причинность»).
  2. Исчисление вмешательств (do-calculus) и разбирательства с возможными скрытыми общими причинами (control of confounding).
  3. Формализация (буквально: алгоритмизация) работы с контрфактуалами. Это нужно для уверенных рассуждений про «причины этих результатов» по сравнению с прямым рассуждением про «результаты этих причин». Пример таких вопросов, это вопросы про необходимость и достаточность причин: вопросы типа «были ли занятия в бассейне достаточной и/или необходимой причиной для смерти Джо?».

[2] краткое изложение по черновику статьи Pearl для Communications of ACM, http://ftp.cs.ucla.edu/pub/stat_ser/r481.pdf

  1. Анализ механизмов переноса изменений от причины к результатам — по факту речь идёт о формализации объяснений и оценке объясняющей силы моделей. Типичный вопрос тут: «какая часть результата воздействия X на Y проходит через механизм Z?».
  2. Перенос знаний о результатах экспериментов в одних условиях на другие условия. Все эти «нерепрезентативные выборки» могут теперь быть модифицированы, чтобы быть репрезентативными. Это всё про устойчивость (robastness) оценок.
  3. Восстановление пропущенных данных в тех случаях, где не соблюдаются строгие условия случайности в пропусках (иначе бы и статистики хватало).
  4. Выявление причин. Хитрые трюки с наблюдениями по всяческим ассоциациям/корреляциям приводят к тому, что мы в состоянии из данных сказать, в каком направлении там причинность. Грубо говоря, мы сможем сказать, это солнце встаёт, потому как петух крикнул перед его восходом, или это петух кричит потому как солнце скоро встанет. Обычная статистика тут, вестимо, отступает: она ничего не говорит про причинность вообще, только про взаимосвязь каких-то величин.

Онтологически это, конечно, всё лежит в основании научного мышления. Judea Pearl всё время описывает допрос природы с пристрастием как основной предмет своего рассмотрения — выдвижение содержательных гипотез, подверждение данными эксперимента. Математизация понятия «причины», понятия «механизм», понятия «необходимость» и «достаточность» в связи с «причинами» — это всё необходимые составляющие научного мышления. Но это и составляющие инженерного мышления (проверка гипотез о работоспособности, или о возможных поломках), и составляющие мышления предпринимателя (оценка проверка рыночных гипотез), составляющие медицинского мышления (где врачи тоже делают предположения о причинах болезни пациентов), правоохраны (делаются предположения о виновности подозреваемых).

Человеческая интуиция базируется не на статистической логике (а хоть и байесовской), а причинной логике (которая оказывается тоже байесовской, но только в сочетании с онтологическими посылками о природе предметной области. Так что причинный вывод и научное мышление как использование научного подхода (отработанные в науке приёмы мышления, переносимые далее в другие дисциплины) мы будем включать в онтологику.

Научный подход — это набор мыслительных приёмов по созданию всё более и более точных в предсказании поведения реального мира теорий (т.е. моделей реального мира, абстрагирующих свойства его индивидов). Учёный — тот, кто создаёт теории (модели реального мира, абстрагирующие его свойства) с использованием практик науки (выдвижение гипотез, планирование эксперимента, интерпретация результатов эксперимента и т.д. — проведение эксперимента тут чистая инженерия). Интеллект даёт основания и объекты для этих практик, которые все работают с теориями и экспериментами для того, чтобы установить причины и следствия в природных и рукотворных явлениях.

Трансдисциплина «причинного вывода» (causal inference) и вводимый ей набор понятий причин, следствий, механизмов и т.д. — это важная часть «научного мышления». «Причинная революция» оказывается тем самым частью происходящей прямо сейчас научной революции: формализация доползла до самой науки как таковой, и этот поворот было бы неправильно прозевать.

Data scientists, которые «ставят гипотезы, проверяют их на больших массивах данных, извлекают эти гипотезы из больших массивов данных» как минимум должны осознать, что они те самые «учёные» (scientists!) и профессионально владеть этими различалками: что может статистика, а что она сама не может, но может тот же самый causal inference (основанный на использовании той же байесовской статистике внутри себя, но только как составной части, там ведь много чего ещё).

Системные инженеры, проводящие испытания, тоже должны понимать пределы чисто статистической обработки итогов этих испытаний. Они ж «экспериментаторы», и в этой части — те же учёные.

И операционные менеджеры, которые оценивают причины отклонений, цитируя Дёминга-Шухарта, должны тоже понимать ограничения своих статистических по факту расчётов. Они тоже исследователи, задают вопросы к природе отклонений.

Новости по поводу книги/текста появляются в блоге автора, https://t.me/ailev_blog, предложения и замечания присылать автору по адресу ailev@asmp.msk.su

Источник: книга А.Левенчука «Образование для образованных 2020».