Дэвид Хэнд

  • Dmitry Koltunovцитирует2 года назад
    Давайте обратимся к классической статье по этой проблеме, написанной Крейгом Беннеттом и его коллегами, которая гораздо интереснее, чем можно ожидать судя по названию: «Нейронные корреляции межвидового восприятия, полученные после смерти атлантического лосося: аргумент в пользу коррекции множественных сравнений»18. Статья основана на результатах МРТ-сканирования мозга мертвого лосося, которому «показали серию фотографий, изображающих людей в различных ситуациях и… попросили определить, какие эмоции они испытывают». Вероятно, вы и без экспериментальных данных уже сделали свой вывод о реакции мозга мертвого лосося на показ фотографий. Но дело в том, что результат МРТ-сканирования представляет собой примерно 130 000 элементов объемного изображения, которые по аналогии с двумерными пикселями называют вокселями. И каждый из этих вокселей имеет небольшой шанс показать электрическую активность сканируемого материала исключительно в силу случайных фоновых шумов оборудования, а вовсе не потому, что клетки мозга мертвого лосося действительно реагируют. И хотя отдельно взятый воксель имеет лишь крошечный шанс дать ложный сигнал, вероятность его появления резко возрастает с учетом большого количества самих вокселей. Суммируйте огромное число крошечных шансов, и вот уже один, а то и более вокселей показывают электрическую активность, создавая впечатление, что некоторые нейроны мозга лосося активизируются, даже если сам лосось мертв. И действительно, Беннетт и его коллеги обнаружили несколько вокселей, подающих явные сигналы. В результате они пришли к такому выводу: «Либо мы наткнулись на поразительное открытие на стыке ихтиологии и посмертных когнитивных функций, либо что-то не так с нашим статистическим подходом.
  • Dmitry Koltunovцитирует2 года назад
    Подобные выводы, безусловно, тревожат, но мы не должны ни на мгновение забывать, что наука — это процесс отсеивания. Многие критики, словно дети, придерживаются идеализированного взгляда на науку, полагая эксперимент неким разовым мероприятием, которое должно «доказать» или «опровергнуть» существование какого-либо явления. Но наука куда сложнее. И это нормально. Сама природа научных исследований указывает на то, что они проводятся на границах известного — там, где доминирует неопределенность. Поскольку исследователи пытаются выделить некий крошечный сигнал из шума, разумно ожидать, что часто этот шум будет влиять на результаты, сдвигая их в неверном направлении.
  • Dmitry Koltunovцитирует2 года назад
    Экономист Рональд Коуз вкратце описал эту ситуацию, заявив, что, если пытать данные достаточно долго, они непременно признаются. Но, как известно, признания, полученные с помощью пыток, далеко не всегда отражают истину. В нашем примере цифры были сгенерированы случайным образом и в структурах, которые мы можем в них обнаружить, нет никакого скрытого смысла.
  • Dmitry Koltunovцитирует2 года назад
    На эту тему есть анекдот. Экспериментатор A говорит экспериментатору Б, что у него большие проблемы с воспроизведением результатов, полученных Б. «Неудивительно, — отвечает тот, — ведь я тоже не смог получить их первые 100 раз, когда проводил эксперимент».
  • Dmitry Koltunovцитирует2 года назад
    Возможно, основной из таких стратегий является использование собственного опыта в той области, которую описывают данные.
  • Dmitry Koltunovцитирует2 года назад
    Более активная стратегия выяснения причин появления недостающих данных — попытаться собрать некоторые из них. Подробно мы рассмотрим этот метод в следующем разделе.
  • Dmitry Koltunovцитирует2 года назад
    Вооружившись классификацией по трем категориям (UDD/SDD/NDD), мы можем приступить к изучению практических методов работы с темными данными. В следующем разделе мы начнем знакомство с ними с самых простых — и потому не всегда эффективных — методов.
  • Dmitry Koltunovцитирует2 года назад
    Классификация по категориям NDD, SDD, UDD очень полезна, поскольку для разных механизмов возникновения недостающих данных требуются разные типы решений. Это означает, что первым делом необходимо определить, к какой категории относится конкретная проблема с отсутствием данных, — если мы ошибемся на этом этапе, наши выводы могут быть неверными. В примере с определением возраста жен мы могли бы сделать неверный вывод, если бы сочли, что вероятность отсутствия значения возраста не зависит ни от возраста самой жены, ни от возраста ее мужа. Аналогичным образом если бы мы полагали, что недостающие данные принадлежат категории SDD, но при этом ошибочно думали, что решение жены назвать свой возраст зависит исключительно от возраста ее мужа, то вновь попали бы в западню неверных выводов. Это вполне естественно, ведь любой анализ включает в себя предположения о том, как возникли данные, и если эти предположения ошибочны, то и выводы, сделанные на их основе, будут такими же. Кроме того, из этого следует, что нужно быть максимально уверенным в своих предположениях и по возможности находить способы их проверки и подтверждения. Для этого существуют различные стратегии, которые мы и рассмотрим далее.
  • Dmitry Koltunovцитирует2 года назад
    В целом можно заключить, что другие исследования на ту же тему или исследования из смежных областей способны пролить свет на причину отсутствия данных. Гарвардский статистик Сяо-Ли Мэн элегантно использовал этот подход, чтобы получить количественную оценку влияния недостающих данных на сделанные выводы3. Он разложил степень точности оценки на части, одной из которых была корреляция между отсутствием значения и величиной этого значения. Затем он показал, как в некоторых случаях эта корреляция может быть получена из других источников данных, описывающих сходные проблемы.
  • Dmitry Koltunovцитирует2 года назад
    Этот пример также показывает важность использования разных кодов для разных категорий недостающих значений. Аббревиатура «Н/Д» может скрывать под собой любые категории темных данных, и тот факт, что эти данные просто неизвестны, никак не помогает нам использовать их классификацию.
fb2epub
Перетащите файлы сюда, не более 5 за один раз