
目前在模仿一个别的网站练手,模拟数据比较困难,就想着爬点下来。(纯练手,非商业用途)
之前用的 Scrapy,挺好用的,但是自己本身已经对 js 、ts 比较熟悉了,而且不太喜欢 python 。
所以就想问问有么有什么 Javascript 的替代方案之类的?比如相关的框架之类的?支持 ts 更好
1 veike 2021 年 10 月 19 日 via Android puppeteer ? |
2 gavingeng 2021 年 10 月 19 日 微软的 playwright,团队就是原先的 puppeteer,于 2019 跳到 ms |
3 unclemcz 2021 年 10 月 19 日 crawler |
4 rust 2021 年 10 月 19 日 直接走 CDP 协议 |
5 mxT52CRuqR6o5 2021 年 10 月 19 日 (axios/got/其他 http 请求库)+cheerio puppeteer/playwright |
6 iiqiu 2021 年 10 月 19 日 puppeteer |
7 gam2046 2021 年 10 月 19 日 不知当讲不当讲,cloudflare workers 去爬其他用了 cf 的网站,直接穿透 waf 。看起来是 cf 对自己的 IP 做了白名单处理。免费日 10 万次调用也是非常的良心。 |
8 zhuzongxing 2021 年 10 月 19 日 我是用的比较土的方法,axios 加 cheerio |
9 xiangyuecn 2021 年 10 月 19 日 直接用 XMLHttpRequest 快的一逼,手撸。。,,,主要是因为别的工具也不会,写其他代码没有 js 简单 |
10 dcsuibian OP 感谢各位的回复 自己也去调研了下,目前我的观点是靠 axios 、cheerio,以后可能会用 playwright axios 用过很多次了,cheerio 处理 dom 。 puppeteer 、playwright 拓宽了我的知识面,非常有兴趣但暂时用不到(目前只抓静态页面)。以后要用的话倾向于 playwright,主要看中跨平台和微软出品( TypeScript ) node-crawler 听人说似乎停止维护了。 |