现在大型的爬虫项目用的是什么框架， scrapy 过时了吗

请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 193 days ago, the information mentioned may be changed or developed.

爬虫

框架

Scrapy

14 replies 2025-12-17 11:04:09 +08:00

bwnjnOEI

Nov 25, 2025 via iPhone

面对动态页面和抗反爬稍微复杂点的就不行了吧
简单的网站依然可以用啊

donaldturinglee

Nov 25, 2025

scrapy 一直就不是单着用的吧？没过时，但是你可以学一下 playwright

sgld

Nov 25, 2025

试试 DrissionPage ?

zonde306

Nov 25, 2025

简单就 scrapy ，复杂就不用框架，直接操作浏览器

例如
camoufox
patchwright

azzzzzz

Nov 26, 2025

未来还是直接模拟浏览器的吧

IIce

Nov 26, 2025

毕业之后就没用过 scrapy 了，有自研的，也有 feapder, 还有一些就是一个 requests 脚本，可能项目不够大吧

1018ji

Nov 26, 2025

浏览器还能抓啥，APP 走起

Toowhite7

Nov 26, 2025

Selenium or playwright

tim2017

Nov 26, 2025 via iPhone

之前用过简数的代爬，收费还可以，以前免费提供大量知名网站的模版，现在都限制了。

我公司网站靠爬虫每天上百 IP ，几年没更新了。
国内互联网 V2EX 这种开放性的 web 原创数据越来越少了，都是私域平台。

Honghe

Nov 26, 2025

@tim2017 嗯，web 成荒漠了

llsquaer

Nov 26, 2025

一个项目一个 py 还要啥 scrapy ..

securityCoding

Nov 26, 2025 via Android

chrome cdp?

gopo

Nov 26, 2025

1. 逆向协议（网页优先，APP 其次）
2. 自研浏览器、模拟器（主要过指纹还有方便自定义）
3. 简单网站（静态和动态的区别）随便搞

xjiang1982154112

PRO

Dec 17, 2025

考虑真实性模拟，最简单的是 playwright ，甚至可以直接拿一个 mac mini ，操作真实浏览器（非无头）；方便程度超出你的想象~~
一般场景用 scrapy 够了
你说的大型，如果是指数据量巨大，那其实爬虫不是重点，手搓 python 脚本都不是问题，问题是 IP 池等各种"反-反爬"处理。
如果指的是网站类型超多（几百几千，甚至几万种），要吗人肉堆脚本，要吗用 AI （安利一下我们的东西：猫头鹰 AI：mtywatch.com ）
如果指的是"突破"难度很大，那么你重点研究的是法律风险