![]() | 1 yfdyh000 2013-05-28 02:55:54 +08:00 |
![]() | 2 marguerite OP @yfdyh000 站长工具让我认证,可是我把认证文件放到 forum.suse.org.cn 它就说认证不成功云云 |
![]() | 3 yfdyh000 2013-05-28 21:04:40 +08:00 @marguerite https://forum.suse.org.cn/bdsitemap.txt 现在是403 Forbidden |
![]() | 4 lemonda 2013-05-28 21:09:25 +08:00 和phpbb没关系吧,www.ultrakvm.com marguerite.su 都没收录,原因应该是用了https |
![]() | 5 marguerite OP @yfdyh000 等会儿,是一定要先有站长工具,然后才能有爬虫过来? |
![]() | 6 marguerite OP @lemonda 不可能,我 ssl 刚上两天,之前它干嘛去了... |
![]() | 7 yfdyh000 2013-05-29 03:14:03 +08:00 ![]() @marguerite 不是,只是让你用工具查查原因。现在403当然认证不成功。 |
![]() | 8 marguerite OP @yfdyh000 权限,它是 root 权限不是 nobody:nogroup...资深 Linux 开发者犯这种二也... |
![]() | 9 lemonda 2013-05-29 11:43:25 +08:00 ![]() @marguerite 由于上面写的是“后台显示从未来过” ,而站点的外链除了一个2011年以外,大部分是今年4月份左右才有的。所以想确认下问题是百度蜘蛛没来爬过还是爬过但没收录?可以从log查看,IP 类似 123.125.71.* 如果通过 http://zhanzhang.baidu.com/sitesubmit/ 提交过网址,查看提交日期后几天log即可 如果是没来爬过,昨天百度抓取异常工具升级版上线了,刚好可用上。 如果是爬过但没收录,可以按可能原因建立些单页来排除,下面是一些排查优先级低的因素。 PHP原因:之前用phpbb建过站,ubuntu论坛也是用phpbb,百度也没道理因为没滥用的建站软件不收录站点。 IP段原因:同IP段 www.ikde.org 收录正常 |
![]() | 10 marguerite OP @yfdyh000 亲,权限已改,现在能访问 bdsitemap.txt 了,也更新文本了,但是站长工具依然报错无法认证。 |
![]() | 11 marguerite OP @lemonda 我去瞧瞧 nginx.log |
![]() | 12 marguerite OP @lemonda 没提交 sitemap,因为站长工具报错,但是在百度提交入口那边提交网站。 grep -r "Baidu" ./access.log 220.181.108.160 - - [30/May/2013:02:12:09 -0400] "GET /viewtopic.php?t=100&p=699 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 123.125.71.23 - - [30/May/2013:02:50:32 -0400] "GET / HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 220.181.108.152 - - [30/May/2013:03:18:48 -0400] "GET /viewtopic.php?t=134&p=1030 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 220.181.108.141 - - [30/May/2013:03:52:08 -0400] "GET /viewtopic.php?t=157&p=1870 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 123.125.71.116 - - [30/May/2013:04:25:28 -0400] "GET /viewtopic.php?t=195&p=2233 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 220.181.108.90 - - [30/May/2013:05:32:08 -0400] "GET /viewtopic.php?t=271&p=2295 HTTP/1.1" 301 184 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 就来这么几次,这 Log 我看不懂哎 |
![]() | 13 lemonda 2013-05-30 21:05:12 +08:00 @marguerite 有来爬但没收录,去掉SSL后等一段时间吧。 |
![]() | 14 marguerite OP @lemonda ssl 肯定不能去哈。我去问问我们自己的技术怎么回事 |
![]() | 15 binux 2013-05-31 12:10:13 +08:00 我觉得单纯是因为抓不了https。。 |
![]() | 16 zhttty 2013-05-31 12:59:48 +08:00 ![]() @marguerite 你可以单独建部分标题索引静态页面出来等着爬 |
![]() | 17 marguerite OP |
18 alphamm 2013-06-19 10:16:50 +08:00 via Android 度娘完全不鸟https。 不过虽然号称不收录https,我全https站还是被收了个首页。 |
![]() | 19 lemonda 2013-06-20 12:31:07 +08:00 @marguerite 首页已收录 |
![]() | 20 marguerite OP @lemonda 因为我不强制 HTTPS 了...而且站长工具完全是废柴嘛,唯一有用的 sitemap 提交好像还是邀请制的。 |