Skip to content

e5pecial/sandbox_challenge

Repository files navigation

sandbox_challenge

https://mlbootcamp.ru/round/14/sandbox/

Предсказание прогноза отклика аудитории на интернет-опрос

Метрика: ROC-AUC

Получил На лидерборде песочницы скор:

П: 0.7458305
4 / 15
Ф: 0.7447829
4 / 15

На решение потратил примерно около трех вечеров -- причем один из вечеров был уделен чисто предобработке данных.

Структура:

  • preparing -- предобработка данных (tf-idf и countvectorizer)
  • baseline -- просто логрег в качестве бейзлайна
  • lgbm_folds -- усреднение предсказания градиентного бустинга на 10 фолдах
  • features -- добавил еще численных фич к имеющимся sparse-матрицам
  • lgbm_folds_with_numeric -- градиентный бустинг на 10 фолдах по расширенному датасету с новыми фичами

Отдельно еще делал EDA, гридсерч для подбора гиперпараметров для LGBM, пробовал разные векторайзеры для sparse фич

Финальный предикт: блединг logreg*0.05 + lgbm_10_folds*0.95

Есть куда еще улучшать: Покрутить гиперпараметры, сделать еще несколько независимых разных моделей для блендинга (например, обучить еще xgboost и catboost, плюс обучить модель на данных, на которых попробовать уменьшить размерность или кластеризовать), Можно еще попробовать многоуровневый стекинг.

Также можно подумать и добавить ещё статистических фичей из исходных данных, а для категориальной фичи попробовать впилить таргет энкодинг.

About

Test task to ML Engineer at OK.ru

https://mlbootcamp.ru/round/14/sandbox/

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors