Baiduspider 不爬我的 phpbb 站怎么办? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
marguerite
V2EX    站长

Baiduspider 不爬我的 phpbb 站怎么办?

  •  
  •   marguerite 2013-05-28 02:38:12 +08:00 via Android 6270 次点击
    这是一个创建于 4523 天前的主题,其中的信息可能已经有所发展或是发生改变。
    唔...这站就是针对国内的。所以即使 Baiduspider 爬你 30% 流量也得由它,可问题是我这儿后台显示从未来过。

    哭死了啊。

    forum.suse.org.cn

    phpbb 论坛,有标准 sitemap。

    google 每天爬的可欢了。

    我也不知道为什么我天然屏蔽了百度。robots 和 .access 都没限制过它。是不是因为我没有 www.suse.org.cn 首页的关系啊?
    20 条回复    1970-01-01 08:00:00 +08:00
    yfdyh000
        1
    yfdyh000  
       2013-05-28 02:55:54 +08:00
    marguerite
        2
    marguerite  
    OP
       2013-05-28 17:32:25 +08:00 via Android
    @yfdyh000 站长工具让我认证,可是我把认证文件放到 forum.suse.org.cn 它就说认证不成功云云
    yfdyh000
        3
    yfdyh000  
       2013-05-28 21:04:40 +08:00
    lemonda
        4
    lemonda  
       2013-05-28 21:09:25 +08:00
    和phpbb没关系吧,www.ultrakvm.com marguerite.su 都没收录,原因应该是用了https
    marguerite
        5
    marguerite  
    OP
       2013-05-29 02:47:07 +08:00 via Android
    @yfdyh000 等会儿,是一定要先有站长工具,然后才能有爬虫过来?
    marguerite
        6
    marguerite  
    OP
       2013-05-29 02:47:57 +08:00 via Android
    @lemonda 不可能,我 ssl 刚上两天,之前它干嘛去了...
    yfdyh000
        7
    yfdyh000  
       2013-05-29 03:14:03 +08:00   1
    @marguerite 不是,只是让你用工具查查原因。现在403当然认证不成功。
    marguerite
        8
    marguerite  
    OP
       2013-05-29 06:45:43 +08:00
    @yfdyh000 权限,它是 root 权限不是 nobody:nogroup...资深 Linux 开发者犯这种二也...
    lemonda
        9
    lemonda  
       2013-05-29 11:43:25 +08:00   2
    @marguerite
    由于上面写的是“后台显示从未来过” ,而站点的外链除了一个2011年以外,大部分是今年4月份左右才有的。所以想确认下问题是百度蜘蛛没来爬过还是爬过但没收录?可以从log查看,IP 类似 123.125.71.* 如果通过 http://zhanzhang.baidu.com/sitesubmit/ 提交过网址,查看提交日期后几天log即可

    如果是没来爬过,昨天百度抓取异常工具升级版上线了,刚好可用上。

    如果是爬过但没收录,可以按可能原因建立些单页来排除,下面是一些排查优先级低的因素。

    PHP原因:之前用phpbb建过站,ubuntu论坛也是用phpbb,百度也没道理因为没滥用的建站软件不收录站点。
    IP段原因:同IP段 www.ikde.org 收录正常
    marguerite
        10
    marguerite  
    OP
       2013-05-29 18:28:31 +08:00
    @yfdyh000 亲,权限已改,现在能访问 bdsitemap.txt 了,也更新文本了,但是站长工具依然报错无法认证。
    marguerite
        11
    marguerite  
    OP
       2013-05-29 18:29:01 +08:00
    @lemonda 我去瞧瞧 nginx.log
    marguerite
        12
    marguerite  
    OP
       2013-05-30 17:44:49 +08:00
    @lemonda 没提交 sitemap,因为站长工具报错,但是在百度提交入口那边提交网站。

    grep -r "Baidu" ./access.log
    220.181.108.160 - - [30/May/2013:02:12:09 -0400] "GET /viewtopic.php?t=100&p=699 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
    123.125.71.23 - - [30/May/2013:02:50:32 -0400] "GET / HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
    220.181.108.152 - - [30/May/2013:03:18:48 -0400] "GET /viewtopic.php?t=134&p=1030 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
    220.181.108.141 - - [30/May/2013:03:52:08 -0400] "GET /viewtopic.php?t=157&p=1870 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
    123.125.71.116 - - [30/May/2013:04:25:28 -0400] "GET /viewtopic.php?t=195&p=2233 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
    220.181.108.90 - - [30/May/2013:05:32:08 -0400] "GET /viewtopic.php?t=271&p=2295 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

    就来这么几次,这 Log 我看不懂哎
    lemonda
        13
    lemonda  
       2013-05-30 21:05:12 +08:00
    @marguerite 有来爬但没收录,去掉SSL后等一段时间吧。
    marguerite
        14
    marguerite  
    OP
       2013-05-30 21:51:21 +08:00 via Android
    @lemonda ssl 肯定不能去哈。我去问问我们自己的技术怎么回事
    binux
        15
    binux  
       2013-05-31 12:10:13 +08:00
    我觉得单纯是因为抓不了https。。
    zhttty
        16
    zhttty  
       2013-05-31 12:59:48 +08:00   1
    @marguerite
    你可以单独建部分标题索引静态页面出来等着爬
    marguerite
        17
    marguerite  
    OP
       2013-06-18 14:40:10 +08:00
    @lemonda 不到一分钟前forum.suse.org.cn使用文件验证验证失败,原因:暂不支持https网站验证。

    站长工具更新了。
    alphamm
        18
    alphamm  
       2013-06-19 10:16:50 +08:00 via Android
    度娘完全不鸟https。
    不过虽然号称不收录https,我全https站还是被收了个首页。
    lemonda
        19
    lemonda  
       2013-06-20 12:31:07 +08:00
    @marguerite 首页已收录
    marguerite
        20
    marguerite  
    OP
       2013-06-21 13:47:54 +08:00
    @lemonda 因为我不强制 HTTPS 了...而且站长工具完全是废柴嘛,唯一有用的 sitemap 提交好像还是邀请制的。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5942 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 02:40 PVG 10:40 LAX 19:40 JFK 22:40
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86