Для выполнения лабораторной необходимо скачать подготовленный файл для задачи про Титаник:
- Загрузить файл, разделить его на train и test. Для test взять 10% случайно выбранных строк таблицы.
- Обучить модели: Decision Tree, XGBoost, Logistic Regression из библиотек sklearn и xgboost. Обучить модели предсказывать столбец label по остальным столбцам таблицы.
- Наладить замер Accuracy - доли верно угаданных ответов.
- Точности всех моделей не должны быть ниже 85%
- С помощью Decision Tree выбрать 2 самых важных признака и проверить точность модели, обученной только на них.
- Реализовать случайный лес в виде класса MyRandomForest. В реализации разрешается использовать DecisionTreeClassifier из библиотеки sklearn. Класс должен иметь методы fit и predict по аналогии с остальными классами библиотеки sklearn.
- Алгоритм построения Случайного леса изложен на Википедии
- Необходимо обратить внимание что при построения леса используются не все доступные признаки для каждого узла дерева. А так же что в sklearn это регулируется параметрами DecisionTreeClassifier.
- Продемонстрировать, что точность леса выше чем точность одного решающего дерева.