气人的 Google,蜘蛛乱抓页面 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
pinews
V2EX    Google

气人的 Google,蜘蛛乱抓页面

  pinews 2020-04-04 12:41:51 +08:00 8231 次点击
这是一个创建于 2093 天前的主题,其中的信息可能已经有所发展或是发生改变。
因为是个人网站,很多地方比较马虎,因为用这 chrome,google 就把我的测试页面抓取了,这些测试页面只在 chrome 上打开过,从来没在网上公开过。
22 条回复    2020-04-07 12:53:07 +08:00
anUglyDog
    1
anUglyDog  
   2020-04-04 12:48:05 +08:00
还算合理吧,毕竟是一家的.
Tianao
    2
Tianao  
   2020-04-04 12:49:02 +08:00   2
请正确配置 robots.txt 。
mrchi
    3
mrchi  
   2020-04-04 12:49:53 +08:00
测试页面公网能访问吗?你写 robots.txt 了没?
Tianao
    4
Tianao  
   2020-04-04 12:51:51 +08:00
另请参考 developers.谷歌.康姆 /search/reference/robots_meta_tag 。
mnssbe
    5
mnssbe  
   2020-04-04 12:52:21 +08:00 via iPhone
chrome 里有个设置会把 url 发送给 google,你可以反选
wolfan
    6
wolfan  
   2020-04-04 13:00:28 +08:00 via Android
roobts 对国产作用不大,但对国外的多少比国内的强。
dot2017
    7
dot2017  
   2020-04-04 13:32:36 +08:00
你这个测试页面上有外链出去到别的被索引过的页面吗,google bot 抓取展现是双向的
deplives
    8
deplives  
   2020-04-04 14:23:46 +08:00
是否正确配置 robots ? 如果有,再来吐槽。如果没有,请找自己的原因
dobelee
    9
dobelee  
   2020-04-04 15:13:57 +08:00 via iPhone
能公网访问就别抱怨。。
pinews
    10
pinews  
OP
   2020-04-04 20:07:16 +08:00
@mnssbe 隐私和安全性里的东西我都没有开启。
@anUglyDog 开发人员有时会测试一些敏感信息,这也能被抓取?

@dot2017 这。。。,好吧,有的。
pinews
    11
pinews  
OP
   2020-04-04 20:08:55 +08:00
@dot2017 但是 google 怎么可能知道,除非还是通过 chrome 记录的,我没开启啊
iasuna
    12
iasuna  
   2020-04-04 20:12:52 +08:00 via iPhone
@pinews 看来是没设置 robots.txt 那既然在公网上了 也没啥不能抓取的啊
daozhihun
    13
daozhihun  
   2020-04-04 20:17:37 +08:00 via Android
你没设 robots,google spider 咋知道哪些是敏感的
alan0liang
    14
alan0liang  
   2020-04-04 20:18:47 +08:00 via Android
Google 把我们 gitea 一大堆 repo 的所有语言版本都索引了
aureole999
    15
aureole999  
   2020-04-04 23:07:26 +08:00
@pinews 比如你链接的页面是属于 Google 的或者有 Google ads,analytics 之类的,那 Google 肯定能拿到 referer 啊,referer 就是你自己的页面了。
binux
    16
binux  
   2020-04-04 23:30:03 +08:00 via Android   5
把 Google 换成 360 浏览器再来看看评论
miaomiao888
    17
miaomiao888  
   2020-04-05 00:10:33 +08:00
@binux 你这种叫啥来着? 算了还是给你拉红一下
mxalbert1996
    18
mxalbert1996  
   2020-04-05 01:21:22 +08:00 via Android   1
你有敏感信息就不要放公网上,放公网上就设个访问限制,你放公网上又不设访问限制又不写 robots 被抓了还怪人家?
binux
    19
binux  
   2020-04-05 02:26:38 +08:00 via Android
ksdd521lr
    20
ksdd521lr  
   2020-04-05 02:32:54 +08:00 via Android
google 的骚操作哈哈
laqow
    21
laqow  
   2020-04-05 09:09:23 +08:00 via Android
我理解这个事实上都不用从 chrome 抓,在注册域名的时候就抓了,甚至可能你拿 8888 做 dns 时候就抓了。
pinews
    22
pinews  
OP
   2020-04-07 12:53:07 +08:00
我把我的意思明确一下,本质上不是蜘蛛抓取未公开的页面,
而是 google chrome 将我的访问记录下来,并公布在网络上了,恰好是我的自己的网站,所以正好发现了。
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     973 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 26ms UTC 23:49 PVG 07:49 LAX 15:49 JFK 18:49
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86