bookmate game

Дэвид Хэнд

  • Dmitry Koltunovцитирует2 года назад
    Классификация по категориям NDD, SDD, UDD очень полезна, поскольку для разных механизмов возникновения недостающих данных требуются разные типы решений. Это означает, что первым делом необходимо определить, к какой категории относится конкретная проблема с отсутствием данных, — если мы ошибемся на этом этапе, наши выводы могут быть неверными. В примере с определением возраста жен мы могли бы сделать неверный вывод, если бы сочли, что вероятность отсутствия значения возраста не зависит ни от возраста самой жены, ни от возраста ее мужа. Аналогичным образом если бы мы полагали, что недостающие данные принадлежат категории SDD, но при этом ошибочно думали, что решение жены назвать свой возраст зависит исключительно от возраста ее мужа, то вновь попали бы в западню неверных выводов. Это вполне естественно, ведь любой анализ включает в себя предположения о том, как возникли данные, и если эти предположения ошибочны, то и выводы, сделанные на их основе, будут такими же. Кроме того, из этого следует, что нужно быть максимально уверенным в своих предположениях и по возможности находить способы их проверки и подтверждения. Для этого существуют различные стратегии, которые мы и рассмотрим далее.
  • Dmitry Koltunovцитирует2 года назад
    Возможно, основной из таких стратегий является использование собственного опыта в той области, которую описывают данные.
  • Dmitry Koltunovцитирует2 года назад
    В целом можно заключить, что другие исследования на ту же тему или исследования из смежных областей способны пролить свет на причину отсутствия данных. Гарвардский статистик Сяо-Ли Мэн элегантно использовал этот подход, чтобы получить количественную оценку влияния недостающих данных на сделанные выводы3. Он разложил степень точности оценки на части, одной из которых была корреляция между отсутствием значения и величиной этого значения. Затем он показал, как в некоторых случаях эта корреляция может быть получена из других источников данных, описывающих сходные проблемы.
  • Dmitry Koltunovцитирует2 года назад
    Более активная стратегия выяснения причин появления недостающих данных — попытаться собрать некоторые из них. Подробно мы рассмотрим этот метод в следующем разделе.
  • Dmitry Koltunovцитирует2 года назад
    Вооружившись классификацией по трем категориям (UDD/SDD/NDD), мы можем приступить к изучению практических методов работы с темными данными. В следующем разделе мы начнем знакомство с ними с самых простых — и потому не всегда эффективных — методов.
  • Dmitry Koltunovцитирует2 года назад
    Этот пример также показывает важность использования разных кодов для разных категорий недостающих значений. Аббревиатура «Н/Д» может скрывать под собой любые категории темных данных, и тот факт, что эти данные просто неизвестны, никак не помогает нам использовать их классификацию.
  • Dmitry Koltunovцитирует2 года назад
    Ошибки в данных предотвращаются, во-первых, благодаря пониманию того, какие именно ошибки бывают, и, во-вторых, путем создания систем, которые препятствуют их возникновению на этапе сбора данных.
  • Dmitry Koltunovцитирует2 года назад
    Итак, если мы вводим данные непосредственно в базу данных, то по мере их ввода можно осуществлять несложные проверки. Например, если речь идет о дате рождения, то для машины не составит труда проверить, является ли она допустимой
  • Dmitry Koltunovцитирует2 года назад
    Байесовская статистика играет чрезвычайно важную роль — это одна из двух (или по другой версии трех) основных школ статистического анализа
  • Dmitry Koltunovцитирует2 года назад
    Чтобы решить проблему неизвестных исходов для тех, кто не получил кредиты, в одном банке, с которым я работал, было введено такое понятие как «золотая выборка». Это была выборка людей, которые должны были получить отказ, поскольку не соответствовали критериям банка для получения кредита. Предполагалось, что они несут высокие риски неплатежей и могут обойтись банку очень дорого (отчего и были названы «золотые»), но тем не менее банк одобрял небольшую случайную выборку из их числа ради той информации, которую мог получить, предоставив кредит. Эта стратегия позволила банку усовершенствовать модель выявления тех, кто, вероятно, допустит дефолт, и принимать более верные решения, кому выдавать кредиты.
fb2epub
Перетащите файлы сюда, не более 5 за один раз