爬虫现在有啥黑科技抓取法吗 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
pureGirl
V2EX    程序员

爬虫现在有啥黑科技抓取法吗

  •  
  •   pureGirl 194 天前 5740 次点击
    这是一个创建于 194 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有没有类似 ai+rpa 批量抓取不用一个个写脚本的那种
    21 条回复    2025-06-13 17:11:38 +08:00
    ration
        1
    ration  
       194 天前   1
    Dora112233
        2
    Dora112233  
       194 天前
    crawlee+camoufox 值得学一下
    Dora112233
        3
    Dora112233  
       194 天前
    可以写通用规则 写个 json ,然后解析 json 生成代码,打包成 docker 镜像,用 k8s/k3s 运行
    googxuran
        4
    googxuran  
       194 天前
    @ration 用过这个感觉不太行啊,程序员还是 selemium 比较趁手。
    wentx
        5
    wentx  
       194 天前
    无头浏览器把整个 document 捞出来... 但是也可能被封 IP
    jerrywaffle
        6
    jerrywaffle  
       194 天前
    seleniumbase 可以单个 element 截图,隐秘模式
    macaodoll
        7
    macaodoll  
       194 天前
    简单的网站,可以直接用大模型生成,内部规范化的脚本,已经测试过了,
    macaodoll
        8
    macaodoll  
       194 天前
    另外调用浏览器的话 Java 推荐 jxbrowser(商业软件,但是就算最新的也可以破解),python 的话 DrissionPage
    chengxiao
        9
    chengxiao  
       194 天前
    爬虫的瓶颈不是账号和 ip 么?
    andyskaura
        10
    andyskaura  
       194 天前
    是不是想要类似这种东西? https://cursor.directory/mcp/puppeteer
    NoOneNoBody
        11
    NoOneNoBody  
       194 天前
    AI 的 web api 本身也是爬虫

    现在能用上 AI 的可能是,自动判别网页需要获取的部分,以及爬去后的自动分类整理
    后者严格说也不是爬虫的工作,而是后续工作,因为爬取工作是相同的,但如何分类则是不同的需求,同一批爬取结果也可能有很多不同的分类方法

    整站 dump|siterip 然后 AI 提取?
    adgfr32
        12
    adgfr32  
       194 天前 via Android
    如果你说的 AI 是指大模型的话,爬虫的瓶颈在于 ip 指纹,账号,过验证码。这三个大模型都解决不了。
    coderluan
        13
    coderluan  
       194 天前
    https://github.com/ScrapeGraphAI/Scrapegraph-ai

    刚出来的时候我试过,不太好用,现在什么状态不太清楚。
    thingingWoods
        14
    thingingWoods  
       194 天前
    众包才是爬虫的出路
    pureGirl
        15
    pureGirl  
    OP
       194 天前
    @z1829909 想用来抓那种没有门槛的网站,而且不需要挨个解析
    pureGirl
        16
    pureGirl  
    OP
       194 天前
    @thingingWoods 有推荐的接单平台吗
    KING754
        17
    KING754  
       194 天前
    这两天 selemium 抢个优惠券...各种问题.
    确实感觉 IP 代理,才是最大的问题.

    你动不动,就不能测了呀...........
    YJi
        18
    YJi  
       194 天前
    要抓什么数据? 互联网文本数据我这有接口(包括抖快微小
    WarlockMan
        19
    WarlockMan  
       193 天前
    爬虫没有黑科技,反而是反爬这边因为有钱有资本借助人工智能不断升级,datadom 反爬公司现在客户越来越多
    jqk
        20
    jqk  
       120 天前
    @YJi 老哥能不能留个联系方式 有需求
    YJi
        21
    YJi  
       120 天前
    @jqk 你加我 wx: WUpYXzA5Mjg=
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2730 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 11:25 PVG 19:25 LAX 04:25 JFK 07:25
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86