现在大型的爬虫项目用的是什么框架, scrapy 过时了吗 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
pureGirl
V2EX    程序员

现在大型的爬虫项目用的是什么框架, scrapy 过时了吗

  •  
  •   pureGirl 2025 年 11 月 25 日 2968 次点击
    这是一个创建于 52 天前的主题,其中的信息可能已经有所发展或是发生改变。
    14 条回复    2025-12-17 11:04:09 +08:00
    bwnjnOEI
        1
    bwnjnOEI  
       2025 年 11 月 25 日 via iPhone
    面对动态页面和抗反爬稍微复杂点的就不行了吧
    简单的网站依然可以用啊
    donaldturinglee
        2
    donaldturinglee  
       2025 年 11 月 25 日
    scrapy 一直就不是单着用的吧?没过时,但是你可以学一下 playwright
    sgld
        3
    sgld  
       2025 年 11 月 25 日
    试试 DrissionPage ?
    zonde306
        4
    zonde306  
       2025 年 11 月 25 日
    简单就 scrapy ,复杂就不用框架,直接操作浏览器

    例如
    camoufox
    patchwright
    azzzzzz
        5
    azzzzzz  
       2025 年 11 月 26 日
    未来还是直接模拟浏览器的吧
    IIce
        6
    IIce  
       2025 年 11 月 26 日
    毕业之后就没用过 scrapy 了,有自研的,也有 feapder, 还有一些就是一个 requests 脚本,可能项目不够大吧
    1018ji
        7
    1018ji  
       2025 年 11 月 26 日
    浏览器还能抓啥,APP 走起
    Toowhite7
        8
    Toowhite7  
       2025 年 11 月 26 日
    Selenium or playwright
    tim2017
        9
    tim2017  
       2025 年 11 月 26 日 via iPhone
    之前用过简数的代爬,收费还可以,以前免费提供大量知名网站的模版,现在都限制了。

    我公司网站靠爬虫每天上百 IP ,几年没更新了。
    国内互联网 V2EX 这种开放性的 web 原创数据越来越少了,都是私域平台。
    Honghe
        10
    Honghe  
       2025 年 11 月 26 日
    @tim2017 嗯,web 成荒漠了
    llsquaer
        11
    llsquaer  
       2025 年 11 月 26 日
    一个项目一个 py 还要啥 scrapy ..
    securityCoding
        12
    securityCoding  
       2025 年 11 月 26 日 via Android
    chrome cdp?
    gopo
        13
    gopo  
       2025 年 11 月 26 日
    1. 逆向协议(网页优先,APP 其次)
    2. 自研浏览器、模拟器(主要过指纹还有方便自定义)
    3. 简单网站(静态和动态的区别)随便搞
    xjiang1982154112
        14
    xjiang1982154112  
    PRO
       2025 年 12 月 17 日
    考虑真实性模拟,最简单的是 playwright ,甚至可以直接拿一个 mac mini ,操作真实浏览器(非无头);方便程度超出你的想象~~
    一般场景用 scrapy 够了
    你说的大型,如果是指数据量巨大,那其实爬虫不是重点,手搓 python 脚本都不是问题,问题是 IP 池等各种"反-反爬"处理。
    如果指的是网站类型超多(几百几千,甚至几万种),要吗人肉堆脚本,要吗用 AI (安利一下我们的东西:猫头鹰 AI:mtywatch.com
    如果指的是"突破"难度很大,那么你重点研究的是法律风险
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2822 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 61ms UTC 14:00 PVG 22:00 LAX 06:00 JFK 09:00
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86