这种反爬虫策略怎么破 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
soratadori
V2EX    程序员

这种反爬虫策略怎么破

  •  
  •   soratadori 2017-05-13 08:39:32 +08:00 4681 次点击
    这是一个创建于 3073 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1. 你无法顺着页面的其他链接爬完整个站点,大部分内容被隐藏的很好。

    2. 每个目标页面的 id(网址上的 number)为 5~6 位数字,但是似乎没什么规律,随便输入一个数字,有很大概率那个页面是空的。算上空白的页面总共有 40 万页不到。即便能爬完一次,更新的时候也很麻烦。因为新的页面很有可能是插入原来的空白页面中。我估计有效内容只有 1/5 不到。

    3. 想获取没有显示出来的信息,唯一的途径就是使用网站提供的搜索功能。正常人通过搜索框输入关键词获取他需要的信息,但机器很明显不可能那么做(我知道我要拿什么信息我还来抓啊?),我也试过一些范围关键词,并没有用。

    4. 这个网站提供了高级搜索,但是你一次输出的数量有限,有可能几十条,但最多不过 500 条,然而问题在于这个限度很莫名其妙,你完全不知道他为什么只显示那么多(明明还有很多没显示)。

    5. 通过高级搜索把范围设窄,一点一点组合起来是最有效的办法,然而这里有一个大坑。2 年前我来爬这个网站的时候,那时候的高级搜索是用 get 请求的,现在变成了 post 请求。然后 get 请求搜到的东西 post 请求搜不到,反之也是如此。这就很尴尬,你永远不可能知道你到底缺少了哪些东西没抓下来。

    6. 通过搜索引擎(google 等)只能显示 200+条

    7. 这个网站对于我来说并非不可替代,也就是一些商品信息之类的东西,该不该放弃?我觉得我是没办法了。另外我也不会去把全站给爬下来,感觉很浪费对方资源,如果是什么百度新浪腾讯这种大网站,那我肯定不会手软了。

    大概下午或者晚上回复

    第 1 条附言    2017-05-14 03:39:12 +08:00
    算了
    10 条回复    2017-05-14 18:11:04 +08:00
    murmur
        1
    murmur  
       2017-05-13 08:43:38 +08:00
    说这么多废话为啥不直接贴个页面给我们看呢
    golmic
        2
    golmic  
       2017-05-13 09:04:09 +08:00
    赞同楼上,给个页面或许直接帮你解决了。太长了不想看了
    dcsite
        3
    dcsite  
       2017-05-13 09:08:59 +08:00   1
    人能正常访问,爬虫就可以~
    pubuntu
        4
    pubuntu  
       2017-05-13 09:41:39 +08:00 via iPhone
    我都不想看。 说了等于白说
    spice630
        5
    spice630  
       2017-05-13 13:05:06 +08:00
    说实话 看到文字我也不想看,就跟把代码用文字描述一遍一样。。
    karia
        6
    karia  
       2017-05-13 15:17:11 +08:00
    人能访问爬虫就可以+1
    当你把封 IP 封 UA 封 Cookie 和神兽验证码都骗过去之后会发现
    最恶心的还是页面本身就是结构混乱的#信息类网站尤其严重
    或者根本就是 JS 或者 AJAX 和服务器二次通信之后加载出来的
    dolaxi
        7
    dolaxi  
       2017-05-13 16:39:02 +08:00
    @pubuntu 就是
    jyf007
        8
    jyf007  
       2017-05-13 21:40:42 +08:00
    贴页面
    Pinwheel
        9
    Pinwheel  
       2017-05-14 13:44:14 +08:00
    看了半天我也没看懂你说的啥。。。
    raecoo
        10
    raecoo  
       2017-05-14 18:11:04 +08:00 via iPhone
    上 url
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1004 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 18:33 PVG 02:33 LAX 11:33 JFK 14:33
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86