
为了安全,我的一个网站的 robots.txt 设置了不允许抓取/admin/
但是自己的站点地图又不想被别人看到,因此放在了/admin/下,比如/admin/sitemap.xml
在 Google Search Console 提交了这个地址,被 Google 告知无法抓取( robots.txt 不允许抓取/admin/)……
其他的搜索引擎都可以,只有 Google 不行
大家一般是如何做隐藏站点地图 sitemap 路径的,求解答
1 bgm004 158 天前 为什么要隐藏?里面有见不得人的东西吗?是个生物都不会去看这个。 |
2 SanjinGG 158 天前 站点地图就是给 bot 看的吧,正经人谁去看你这个啊。反向思考是不是只有 google bot 遵守了 robots 规则? |
3 wogogoing PRO robots 只是告诉爬虫抓取的规则,但是爬虫是不是遵守就不得而知了。 这么看来,就 Google 的爬虫遵守了规则。 |
4 rbe 158 天前 robots.txt 中支持直接声明 sitemap 地址,可以试试直接写在上面,看看 google 会不会优先读取这个配置 |
5 manami OP |
7 duoduo1x 158 天前 手动提交,sitemap 放在一个新建的目录不行么? |
8 manami OP @duoduo1x 除了 robots.txt 指定的禁止抓取规则(搜索引擎遵不遵守是另一回事),大部分搜索引擎都会抓取收录。Google 就是例子,随便搜一些网站都能看到管理后台地址啥的 |
10 shortawn 158 天前 |
14 opengps 158 天前 站点地图不开放,那你干嘛还要有站点地图? 另外,robots.txt 是个君子协议,爬虫文明点按照你的要求去抓取,但黑客也用来知道你后台路径,所以这玩意的使用要慎重 |
15 tavimori 157 天前 如果是在 Cloudflare 上的话,可以使用访问规则使得只有 Google Bots (known bots)可以访问特定 URL 。 |
16 iv8d 157 天前 robots 只是爬虫抓取的规则用的,不遵守你又能咋 |
17 suweia PRO robots 君子协议 |