mini_readability

Учебная программа, которая парсит с новостной статьи саму статью без рекламы и навигации.

ОПИСАНИЕ АЛГОРИТМА

Извлечение необходимой информации из статьи происходит с помощью библиотеки BeautifulSoup4. Создан класс PrintFile с переменными indent = 0 (отступ) и line_len = 80 (длина строки). Данные могут быть введены в отдельном файле settings.txt

Функция get_path (возвращает путь по введенной url как показано в примере http://lenta.ru/news/2013/03/dtp/index.html => [CUR_DIR]/lenta.ru/news/2013/03/dtp/index.txt)
функция article_parser Алгоритм был протестирован на двух новостных сайтах: url1 = 'https://lenta.ru/news/2019/06/04/peredumal/' url2 = 'https://www.gazeta.ru/science/2019/06/04_a_12394465.shtml' Для большинства сайтов заголовок статьи находится в теге h1, а тело статьи в теге p, поэтому для дальнейшей работы были выбраны именно эти теги. Возвращает article элемент bs4 с найденными тегами p и h1, если ответ от запроса к URL равен 200, иначе -1.
функция print_file Происходит обработка статьи по техническому заданию и сохранение в файл.

Программа будет запрашивать URL, до тех пор пока не будет введен символ "q". Если URL задан некорректно или без http://, программа напишет "Please input correct URL". Если статьи уже не существует, программа сообщит об этом.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.idea		.idea
README.md		README.md
mini_readability.py		mini_readability.py
settings.txt		settings.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

mini_readability

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

mini_readability

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages