爬虫技术整理
- 爬虫技术
- 代理ip
- http请求
- 指纹
- curl_cffi
- tls-client
- 默认的
- requests
- 无头浏览器
- Selenium
- Playwright
- Puppeteer
- Cheerio
- (drissionpage)[https://www.drissionpage.cn/]
- gui
- (pywebview)[https://pywebview.idepy.com/]
- pyqt6,Qt WebEngine
- 验证码
详解
指纹http套件
curl_cffi
优点:对各个系统的支持都比较OK。
缺点:只支持低版本的指纹,对于热门,最新版本的指纹不积极。
tls-client
优点:支持最新版本的指纹相关的操作
缺点:在window环境下对代理的设置不友好,常用的代理方式基本无效,只能通过环境变量的方式去设置。
无头浏览器
Playwright
对于浏览器的支持很OK,基本支持最新的版本
Selenium
很老的无头浏览器,
drissionpage
Selenium 和 requests的集成。
gui
pyqt6,Qt WebEngine
Qt WebEngine 基于Chromium,和chrome引擎类似,但是引擎的版本比较老,容易被快手这类应用风控。
pywebview
目前应用了下还可以,而且能打开快手对浏览器的监控。