长夜漫漫,兄弟你听我说!我真的是在搞学习!
- os
- re
- bs4
- lxml
- requests
- re、xpath、BeautifulSoup三种方式抓取同一内容比较
re, 正则表达式匹配,注意大小写、空格、单双引号等xpath, 在 XML 文档中查找信息, 通过xpath路径BeautifulSoup, 通过解析文档为用户提供需要抓取的数据,通过selector选择器
- 例中,
use_soup加载分页,逐步请求,全部抓取(仅第一个显示的分页);use_re不加载分页,根据图片名称规律加载图片20页;use_xpath默认仅取第一页图片 - 网站有一定的防抓机制,下载图片必须要有正确的header,不然会301 or 400
- 三步走:从抓取起始页 -> 单组图浏览页 -> 分页, 渐入层,没有整理好,也没有排错机制,自己看着办吧~
| 美女图片 | 图片详情 | 图片详情分页 |
|---|---|---|
![]() |
![]() |
![]() |
最终结果
- r'': 一般用在正则表达式中,称为原始字符串,作用是将Python语法中的反斜杠转义给取消,将其设置成为一个普通的字符串。可以解决Python中的转义字符和正则表达式中的转义字符之间的冲突问题。
- re.S:作用就是将目标字符串中的换行符\n当做一个普通的zifu进行处理,让正则匹配的时候,不再受到换行符的影响,将所有行的字符串看成一个整体进行匹配。
##完成时间
- 2021-03-01



