Хенрик Бринк,Джозеф Ричардс,Марк Феверолф

Машинное обучение

Сообщить о появлении
Загрузите файл EPUB или FB2 на Букмейт — и начинайте читать книгу бесплатно. Как загрузить книгу?
  • Анастасия Мещеряковацитирует2 года назад
    конечном счете, для обхода этой проблемы из набора данных была попросту удалена вся информация об оплаченных наличными поездках. Изначально поставленная задача изменилась — теперь мы прогнозировали частоту чаевых только для случаев оплаты картой. Отказываться от части информации никогда не хочется. Но предположение о недостаточной достоверности сведений при оплате наличными нашло подтверждение в данных, соответственно мы поняли, что лучше всего использовать только проверяемые сведения и немного поменять формулировку задачи. Разумеется, гарантия корректности остальных записей о чаевых тоже отсутствует, но можно по крайней мере проверить новое распределение сумм
  • Анастасия Мещеряковацитирует2 года назад
    А сколько человек из расплачивающихся наличными оставляет чаевые? Все?

    На самом деле никто! Мы быстро это поняли. При оплате наличными водитель не регистрирует чаевые должным образом, и они просто не попадают в данные. Рассмотрев ситуацию с точки зрения здравого смысла, мы обнаружили миллионы потенциальных злоупотреблений в системе нью-йоркского такси!
  • Анастасия Мещеряковацитирует2 года назад
    Эти методы называются прямым отбором (forward selection) и обратным исключением (backward elimination) соответственно.
  • Анастасия Мещеряковацитирует2 года назад
    выбор признаков и связанная с этим процессом концепция важности признака (feature importance) помогают увидеть взаимосвязи внутри модели и в использовавшихся для ее построения данных.
  • Анастасия Мещеряковацитирует2 года назад
    итерационные методы отбора, которые мы сейчас рассмотрим. Они базируются на одном из двух принципов: начать с отсутствия признаков и постепенно найти самые лучшие, которые будут добавлены в подмножество, или же начать со всех доступных признаков и последовательными итерациями исключить самые худшие. Поиск останавливается после того, как добавление или исключение новых признаков перестает влиять на уровень точности,
  • Анастасия Мещеряковацитирует2 года назад
    Предположим, мы начали работать с текстом из ста слов. При этом появится множество столбцов с распространенными, но не несущими информации словами, такими как предлоги, частицы, артикли. В теории поиска информации они называются шумовыми, или стоп-словами (stop words), и обычно удаляются из текста перед подсчетом для «мешка слов».
  • Анастасия Мещеряковацитирует2 года назад
    более сложными концепциями текстовых признаков мы познакомим вас в следующей главе, пока же упомянем всего один осложняющий фактор — «мешок слов» быстро становится большим и разреженным. Появляется множество признаков, по большей части заполненных нулями, так как вероятность появления конкретных слов в произвольном фрагменте текста стремится к нулю.
  • Анастасия Мещеряковацитирует2 года назад
    В большинстве случаев «мешок слов» строится для всего набора данных, а затем слова, появляющиеся в тексте чаще всего, превращаются в столбцы. Для остальных слов создается обобщающий столбец, позволяющий оценить полную длину текста.
  • Анастасия Мещеряковацитирует2 года назад
    Но только такие признаки, как прошедшее с момента последней регулировки станка время и объем производимой продукции, дадут истинное представление о динамических аспектах процесса производства.
  • Анастасия Мещеряковацитирует2 года назад
    Аналогично тому, как признаки datetime не могут напрямую использоваться моделью, так как не являются ни численными, ни категориальными, нельзя напрямую скормить ML-алгоритму и произвольный текст. Требуется предварительная обработка, приводящая его к одному из двух вышеуказанных типов. Для превращения текста в ML-признаки воспользуемся методом, который называется «мешок слов» (bag of words). В его основе лежит простая идея: мы считаем количество вхождений каждого слова в текст и вставляем в набор данных столбец с соответствующим числом. При этом, как обычно, мы сталкиваемся с усложняющими ситуацию факторами.
fb2epub
Перетащите файлы сюда, не более 5 за один раз