В рамках конкурса нужно предсказать наличие сердечно-сосудистых заболеваний по результатам классического врачебного осмотра. Датасет сформирован из 100.000 реальных клинических анализов, и в нём используются признаки, которые можно разбить на 3 группы:
- возраст
- рост
- вес
- пол
- артериальное давление
- холестерин
- глюкоза
- курение
- употребление алкоголя
- физическая активность
Данные поделены в соотношении 70/30. Часть данных о субъективных признаках исключена из тестовой выборки. Метрика качества - логарифмическая функция потерь.
В папке data 2 файла:
- train.csv содержит тренировочные данные, включая наличие ССЗ (колонка cardio)
- test.csv содержит данные для проверки, колонка cardio в этом файле отсутствует