Дэвид Хэнд — читать онлайн книги автора

Книги

Дэвид Хэнд
Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных
- 826
- 327
- 7
- 45
Books

Аудиокниги

Дэвид Хэнд
Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных
- 287
- 10
Audio
Дэвид Хэнд
Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных
Audio

Цитаты

Dmitry Koltunovцитирует2 года назад

Классификация по категориям NDD, SDD, UDD очень полезна, поскольку для разных механизмов возникновения недостающих данных требуются разные типы решений. Это означает, что первым делом необходимо определить, к какой категории относится конкретная проблема с отсутствием данных, — если мы ошибемся на этом этапе, наши выводы могут быть неверными. В примере с определением возраста жен мы могли бы сделать неверный вывод, если бы сочли, что вероятность отсутствия значения возраста не зависит ни от возраста самой жены, ни от возраста ее мужа. Аналогичным образом если бы мы полагали, что недостающие данные принадлежат категории SDD, но при этом ошибочно думали, что решение жены назвать свой возраст зависит исключительно от возраста ее мужа, то вновь попали бы в западню неверных выводов. Это вполне естественно, ведь любой анализ включает в себя предположения о том, как возникли данные, и если эти предположения ошибочны, то и выводы, сделанные на их основе, будут такими же. Кроме того, из этого следует, что нужно быть максимально уверенным в своих предположениях и по возможности находить способы их проверки и подтверждения. Для этого существуют различные стратегии, которые мы и рассмотрим далее.

Нравится
Комментировать
Поделиться
Facebook
Twitter
Скопировать ссылку
Пожаловаться

Dmitry Koltunovцитирует2 года назад

Возможно, основной из таких стратегий является использование собственного опыта в той области, которую описывают данные.

Нравится
Комментировать
Поделиться
Facebook
Twitter
Скопировать ссылку
Пожаловаться

Dmitry Koltunovцитирует2 года назад

В целом можно заключить, что другие исследования на ту же тему или исследования из смежных областей способны пролить свет на причину отсутствия данных. Гарвардский статистик Сяо-Ли Мэн элегантно использовал этот подход, чтобы получить количественную оценку влияния недостающих данных на сделанные выводы3. Он разложил степень точности оценки на части, одной из которых была корреляция между отсутствием значения и величиной этого значения. Затем он показал, как в некоторых случаях эта корреляция может быть получена из других источников данных, описывающих сходные проблемы.

Нравится
Комментировать
Поделиться
Facebook
Twitter
Скопировать ссылку
Пожаловаться