Дж. Вандер Плас

Python для сложных задач: наука о данных и машинное обучение

Сообщить о появлении
Загрузите файл EPUB или FB2 на Букмейт — и начинайте читать книгу бесплатно. Как загрузить книгу?
Книга «Python Data Science Handbook» — это подробное руководство по самым разным вычислительным и статистическим методам, без которых немыслима любая интенсивная обработка данных, научные исследования и передовые разработки. Читатели, уже имеющие опыт программирования и желающие эффективно использовать Python в сфере Data Science, найдут в этой книге ответы на всевозможные вопросы, например: 1) как мне считать этот формат данных в мой скрипт? 2) Как преобразовать, очистить эти данные и манипулировать ими? 3) Как визуализировать данные такого типа? Как при помощи этих данных разобраться в ситуации, получить ответы на вопросы, построить статистические модели или реализовать машинное обучение?
Эта книга сейчас недоступна
901 бумажная страница
Год выхода издания
18
Уже прочитали? Что скажете?
👍👎

Цитаты

  • Александр Проскуринцитирует2 года назад
    Дональда Кнута: «Лучше не держать в голове подобные “малые” вопросы производительности, скажем, 97 % времени: преждевременная оптимизация — корень всех зол»
  • Kirill Kruglikovцитирует4 года назад
    Это ценный показатель, поскольку он наглядно демонстрирует нам реакцию нашей модели на увеличение объема обучающих данных. В частности, после того момента, когда кривая обучения уже сошлась к какому-то значению (то есть когда кривые обучения и проверки уже близки друг к другу), добавление дополнительных обучающих данных не улучшит аппроксимацию существенно! Эта ситуация отражена на левом рисунке с кривой обучения для модели второй степени.

    Единственный способ улучшения оценки уже сошедшейся кривой — использовать другую (обычно более сложную) модель. Это видно на правом рисунке: перейдя к более сложной модели, мы улучшаем оценку для точки сходимости (отмеченную штриховой линией) за счет более высокой дисперсии модели (соответствующей расстоянию между оценками эффективности для обучения и проверки). Если бы нам пришлось добавить еще больше точек, кривая обучения для более сложной из этих моделей все равно в итоге бы сошлась.

    Построение графика кривой обучения для конкретных модели и набора данных облегчает принятие решения о том, как продвинуться еще дальше на пути улучшения анализа данных.
  • Kirill Kruglikovцитирует4 года назад
    Таким образом, мы видим, что поведение кривой проверки зависит не от одного, а от двух важных факторов: сложности модели и количества точек обучения. Зачастую бывает полезно исследовать поведение модели как функции от количества точек обучения. Сделать это можно путем использования постепенно увеличива­ющихся подмножеств данных для обучения модели. График оценок для обучения/проверки с учетом размера обучающей последовательности известен под названием кривой обучения (learning curve).

    Поведение кривой обучения должно быть следующим.

    • Модель заданной сложности окажется переобученной на слишком маленьком наборе данных. Это значит, что оценка эффективности для обучения будет относительно высокой, а оценка эффективности для проверки — относительно низкой.

    • Модель заданной сложности окажется недообученной на слишком большом наборе данных. Это значит, что оценка эффективности для обучения будет снижаться, а оценка эффективности для проверки — повышаться по мере роста размера набора данных.

    • Модель никогда, разве что случайно, не покажет на проверочном наборе лучший результат, чем на обучающей последовательности. Это значит, что кривые будут сближаться, но никогда не пересекутся.

    Учитывая эти особенности, можно ожидать, что кривая обучения будет выглядеть качественно схожей с изображенной на рис. 5.32.

    Заметная особенность кривой обучения — сходимость к конкретному значению оценки при росте числа обучающих выборок. В частности, если количество точек достигло значения, при котором данная конкретная модель сошлась, то добавление новых обучающих данных не поможет! Единственным способом улучшить качество модели в этом случае будет использование другой (зачастую более сложной) модели.

На полках

fb2epub
Перетащите файлы сюда, не более 5 за один раз