Skip to content

NikolaSedProgger/books-library-restyle

Repository files navigation

Tululu python parser

Как установить

Python3 должен быть уже установлен. Затем используйте pip (или pip3, есть конфликт с Python2) для установки зависимостей:

pip install -r requirements.txt

Рекомендуется использовать virtualenv/venv

Как запустить?

Открываем консоль и пишем

python main.py Начальное_айди Последнее_айди

Начальное айди - id книги с которой начнётся цикл парсинга Последнее айди - id книги на которой закончится цикл парсинга

После чего начнётся цикл парсинга страниц онлайн-библиотеки tululu.org В консоле вы получите результат:

{
'post_title': 'Название поста', 
'post_author': 'Автор', 
'post_text': '', 
'post_genres': ['Жанр 1', 'Жанр 2'], 'post_comments': ['Комментарий 1', 'Коментарий 2'], 
'post_image': 'Ссылка на картинку'
}

Помимо этого вы получите текст и обложки книг в папках boooks и images

Парсинг категории книг

Открываем консоль и пишем

python parse_tululu_category.py --start_page Первая страница --end_page Последняя страница
Обязателные агрументы

Первая страница - первая страница из категории книг Последняя страница - последяя страница из категории книг

Необязателные агрументы
  • --skip_txt - Пропускает скачивание книг
  • --skip_imgs - Пропускает скачивание картинок
  • --dest_folder Папка с книгами и т.п. - В данную папку будут сохранены все книги, картинки, json файл с информацией о книгах (Изначально library files)
  • --json_path Папка с json файлом - В данную папку будет сохрянён json файл (Изначально json files)

Цель проекта

Проект создан для обучения людей базовым навыкам программирования на Python

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages