Машинное обучение

Giv mig besked når bogen er tilgængelig

Анастасия Мещеряковаhar citeretfor 2 år siden
конечном счете, для обхода этой проблемы из набора данных была попросту удалена вся информация об оплаченных наличными поездках. Изначально поставленная задача изменилась — теперь мы прогнозировали частоту чаевых только для случаев оплаты картой. Отказываться от части информации никогда не хочется. Но предположение о недостаточной достоверности сведений при оплате наличными нашло подтверждение в данных, соответственно мы поняли, что лучше всего использовать только проверяемые сведения и немного поменять формулировку задачи. Разумеется, гарантия корректности остальных записей о чаевых тоже отсутствует, но можно по крайней мере проверить новое распределение сумм
- Synes godt om
- Kommentar
- Del
  Facebook
  Twitter
  Kopier link
- Rapportér dette
Анастасия Мещеряковаhar citeretfor 2 år siden
А сколько человек из расплачивающихся наличными оставляет чаевые? Все?

На самом деле никто! Мы быстро это поняли. При оплате наличными водитель не регистрирует чаевые должным образом, и они просто не попадают в данные. Рассмотрев ситуацию с точки зрения здравого смысла, мы обнаружили миллионы потенциальных злоупотреблений в системе нью-йоркского такси!
- Synes godt om
- Kommentar
- Del
  Facebook
  Twitter
  Kopier link
- Rapportér dette
Анастасия Мещеряковаhar citeretfor 2 år siden
Эти методы называются прямым отбором (forward selection) и обратным исключением (backward elimination) соответственно.
- Synes godt om
- Kommentar
- Del
  Facebook
  Twitter
  Kopier link
- Rapportér dette
Анастасия Мещеряковаhar citeretfor 2 år siden
выбор признаков и связанная с этим процессом концепция важности признака (feature importance) помогают увидеть взаимосвязи внутри модели и в использовавшихся для ее построения данных.
- Synes godt om
- Kommentar
- Del
  Facebook
  Twitter
  Kopier link
- Rapportér dette
Анастасия Мещеряковаhar citeretfor 2 år siden
итерационные методы отбора, которые мы сейчас рассмотрим. Они базируются на одном из двух принципов: начать с отсутствия признаков и постепенно найти самые лучшие, которые будут добавлены в подмножество, или же начать со всех доступных признаков и последовательными итерациями исключить самые худшие. Поиск останавливается после того, как добавление или исключение новых признаков перестает влиять на уровень точности,
- Synes godt om
- Kommentar
- Del
  Facebook
  Twitter
  Kopier link
- Rapportér dette
Анастасия Мещеряковаhar citeretfor 2 år siden
Предположим, мы начали работать с текстом из ста слов. При этом появится множество столбцов с распространенными, но не несущими информации словами, такими как предлоги, частицы, артикли. В теории поиска информации они называются шумовыми, или стоп-словами (stop words), и обычно удаляются из текста перед подсчетом для «мешка слов».
- Synes godt om
- Kommentar
- Del
  Facebook
  Twitter
  Kopier link
- Rapportér dette
Анастасия Мещеряковаhar citeretfor 2 år siden
более сложными концепциями текстовых признаков мы познакомим вас в следующей главе, пока же упомянем всего один осложняющий фактор — «мешок слов» быстро становится большим и разреженным. Появляется множество признаков, по большей части заполненных нулями, так как вероятность появления конкретных слов в произвольном фрагменте текста стремится к нулю.
- Synes godt om
- Kommentar
- Del
  Facebook
  Twitter
  Kopier link
- Rapportér dette
Анастасия Мещеряковаhar citeretfor 2 år siden
В большинстве случаев «мешок слов» строится для всего набора данных, а затем слова, появляющиеся в тексте чаще всего, превращаются в столбцы. Для остальных слов создается обобщающий столбец, позволяющий оценить полную длину текста.
- Synes godt om
- Kommentar
- Del
  Facebook
  Twitter
  Kopier link
- Rapportér dette
Анастасия Мещеряковаhar citeretfor 2 år siden
Но только такие признаки, как прошедшее с момента последней регулировки станка время и объем производимой продукции, дадут истинное представление о динамических аспектах процесса производства.
- Synes godt om
- Kommentar
- Del
  Facebook
  Twitter
  Kopier link
- Rapportér dette
Анастасия Мещеряковаhar citeretfor 2 år siden
Аналогично тому, как признаки datetime не могут напрямую использоваться моделью, так как не являются ни численными, ни категориальными, нельзя напрямую скормить ML-алгоритму и произвольный текст. Требуется предварительная обработка, приводящая его к одному из двух вышеуказанных типов. Для превращения текста в ML-признаки воспользуемся методом, который называется «мешок слов» (bag of words). В его основе лежит простая идея: мы считаем количество вхождений каждого слова в текст и вставляем в набор данных столбец с соответствующим числом. При этом, как обычно, мы сталкиваемся с усложняющими ситуацию факторами.
- Synes godt om
- Kommentar
- Del
  Facebook
  Twitter
  Kopier link
- Rapportér dette