Ссылка на открытый гугл диск с весами для моделей : Weights_folder
- Содержимое открытого гугл диска :
- Файл trip_advisor_model содержит в себе веса, токены и.т.д для модели tripadvisor_model.py, дообученной на датасете.
- Файл upbringing_babymodel содержит в себе веса, токены и.т.д для модели Model_Learning.py, дообученной на собранных методом веб-скрайпинга данных.
- Данные с которыми мы работали распределены по файлам следующим образом :
- hotel_reviews.csv - в этом файле находится таблица данных, собранных с сайта booking.com с помошью парсинга.
- cleaned_booking_reviews.csv - предобработанный hotel_reviews.csv.
- tripadvisor_hotel_reviews.csv - датасет скаченный с kaggle.com, на нем была обучена вторая модель(обучили две одинаковые модели на двух разных датасетах)
- Метод сбора данных(мы осуществили два метода сбора данны) :
- Осушествили парсинг сайта booking.com с помощью созданного нами скрипта расположенного в файле Scrap5.py.
- Подобрали и скачали наилучший для нашей задачи датасет c kaggle.com : hotel_reviews.csv.
- Исследовательский анализ данных(мы провели исследовательский анализ данных EDA для всех собранных данных) :
- Исследовательский анализ данных для cleaned_booking_reviews.csv расположен в файле EDA.py.
- Исследовательский анализ данных для tripadvisor_hotel_reviews.csv расположен в файле EDA_for_tripadvisor.py.
- Файлы для предобработки данных :
- Код для предобработки собранных данных hotel_reviews.csv в данные cleaned_booking_reviews.csv, расположен в файле Data_preprocessing.py.
- Код для токенизации cleaned_booking_reviews.csv, расположен в файле BERT_Data_Tokenization.py.
- Файлы с моделями-классификаторами, предсказывающей рейтинг отеля по его отзывам :
- Модель обученная на датасете tripadvisor_hotel_reviews.csv, расположена в файле tripadvisor_model.py.
- Модель для дообучения tripadvisor_model.py, пока не создана, т.к. качества работы tripadvisor_model.py для тествого формата достаточно.
- Модель обученная один раз на датасете cleaned_booking_reviews.csv, расположена в файле Model_Learning.py.
- Модель для дообучения Model_Learning.py, расположена в файле Model.py.