Модели с машинным обучением можно использовать не только для прогнозов на основе новых данных, но и для лучшего понимания соотношения между входными признаками и результирующей целью. Хорошо подобранная функция f позволяет ответить на серьезные вопросы о связи между имеющимися переменными. Например:
• какие из входных признаков сильнее всего связаны с целевой переменной?
• это позитивные или негативные связи?
Анастасия Мещеряковацитирует2 года назад
является ли f простым соотношением или это более детализированная и нелинейная функция?
Анастасия Мещеряковацитирует2 года назад
Статистическое моделирование — это поиск компромисса между точностью прогнозов и интерпретируемостью модели. Простые модели легко понимаются, но не дают точных предсказаний (особенно в случае сложных взаимосвязей).
Анастасия Мещеряковацитирует2 года назад
Но важно понимать, что привлекательность или бесполезность единичного признака ничего не говорит о его эффективности в комбинации с другим или другими признаками.
Анастасия Мещеряковацитирует2 года назад
большому счету, именно для этого и нужны алгоритмы с машинным обучением — чтобы обнаруживать сигналы в большем числе измерений, чем может представить человек.
Анастасия Мещеряковацитирует2 года назад
Первым мы рассмотрим алгоритм логистической регрессии, считающийся простейшим ML-алгоритмом для задач классификации. Задачу проще рассмотреть, представив, что у нас есть всего два признака, а набор данных делится на два класса.
Анастасия Мещеряковацитирует2 года назад
Для построения классификатора нужно найти границу, наилучшим способом разбивающую данные по целевым классам. В двух измерениях такая линия описывается двумя параметрами. Это и есть параметры модели, значение которых нужно определить.
Анастасия Мещеряковацитирует2 года назад
Затем алгоритм разбивается на следующие этапы:
• Изначально параметры выбираются случайным образом, то есть на плоскость помещается случайная линия.
• Измерьте, насколько хорошо эта линия разделяет два класса. В логистической регрессии для оценки точности измерений используется статистическое отклонение.
Анастасия Мещеряковацитирует2 года назад
Подберите новые значения параметров и измерьте разделительную способность алгоритма.
• Повторяйте, пока не перестанут наблюдаться улучшения. Эта процедура оптимизации осуществляется различными специализированными алгоритмами. Зачастую для этой цели выбирается такой несложный алгоритм, как градиентный спуск.
Анастасия Мещеряковацитирует2 года назад
почему логистическую регрессию причисляют к линейным алгоритмам, — решающая граница представляет собой прямую линию.