
1 bwnjnOEI 2025 年 11 月 25 日 via iPhone 面对动态页面和抗反爬稍微复杂点的就不行了吧 简单的网站依然可以用啊 |
2 donaldturinglee 2025 年 11 月 25 日 scrapy 一直就不是单着用的吧?没过时,但是你可以学一下 playwright |
3 sgld 2025 年 11 月 25 日 试试 DrissionPage ? |
4 zonde306 2025 年 11 月 25 日 简单就 scrapy ,复杂就不用框架,直接操作浏览器 例如 camoufox patchwright |
5 azzzzzz 2025 年 11 月 26 日 未来还是直接模拟浏览器的吧 |
6 IIce 2025 年 11 月 26 日 毕业之后就没用过 scrapy 了,有自研的,也有 feapder, 还有一些就是一个 requests 脚本,可能项目不够大吧 |
7 1018ji 2025 年 11 月 26 日 浏览器还能抓啥,APP 走起 |
8 Toowhite7 2025 年 11 月 26 日 Selenium or playwright |
9 tim2017 2025 年 11 月 26 日 via iPhone 之前用过简数的代爬,收费还可以,以前免费提供大量知名网站的模版,现在都限制了。 我公司网站靠爬虫每天上百 IP ,几年没更新了。 国内互联网 V2EX 这种开放性的 web 原创数据越来越少了,都是私域平台。 |
11 llsquaer 2025 年 11 月 26 日 一个项目一个 py 还要啥 scrapy .. |
12 securityCoding 2025 年 11 月 26 日 via Android chrome cdp? |
13 gopo 2025 年 11 月 26 日 1. 逆向协议(网页优先,APP 其次) 2. 自研浏览器、模拟器(主要过指纹还有方便自定义) 3. 简单网站(静态和动态的区别)随便搞 |
14 xjiang1982154112 PRO 考虑真实性模拟,最简单的是 playwright ,甚至可以直接拿一个 mac mini ,操作真实浏览器(非无头);方便程度超出你的想象~~ 一般场景用 scrapy 够了 你说的大型,如果是指数据量巨大,那其实爬虫不是重点,手搓 python 脚本都不是问题,问题是 IP 池等各种"反-反爬"处理。 如果指的是网站类型超多(几百几千,甚至几万种),要吗人肉堆脚本,要吗用 AI (安利一下我们的东西:猫头鹰 AI:mtywatch.com ) 如果指的是"突破"难度很大,那么你重点研究的是法律风险 |