感觉很实诚,没用网络割接抖动之类的借口。
顺便问下监控技术哪家强。
有人吐槽从 google photos 开始不再无限存照片,就知道它磁盘资源吃紧了!
1 salmon5 2020-12-15 09:43:13 +08:00 ![]() 丢人的 Google |
![]() | 2 silvernoo 2020-12-15 09:44:07 +08:00 哈哈不丢人 |
![]() | 3 lvzhiqiang 2020-12-15 09:44:17 +08:00 ![]() 实诚! |
![]() | 4 andrewpsy 2020-12-15 09:44:40 +08:00 via Android 图显不出来,不是用的谷歌图库吧? |
![]() | 5 wgbx 2020-12-15 09:47:11 +08:00 丢人在哪里? |
![]() | 6 Tink PRO 不容易 |
![]() | 8 felixcode 2020-12-15 09:51:25 +08:00 不丢人,技术还是全球首屈一指的。 |
![]() | 9 gtchan13579 2020-12-15 09:51:29 +08:00 怪不得昨天我的谷歌账号登不上了,今天又突然好了。 |
10 43529 2020-12-15 09:53:33 +08:00 磁盘满了.....满了.... |
12 MeteorCat 2020-12-15 09:55:07 +08:00 via Android 这理由清新脱俗,导致不知道从哪里开始吐槽 |
![]() | 13 fyovo 2020-12-15 09:57:02 +08:00 磁盘满了害行... |
14 deorth 2020-12-15 10:00:54 +08:00 昨天油管帐号登不上,都不知道该看啥 |
![]() | 15 matrix67 OP |
![]() | 16 matrix67 OP 命名 => 明明 |
![]() | 17 luob 2020-12-15 10:04:17 +08:00 via iPhone ![]() 隔壁 p 站这几天删了 70%的内容,正好可以找他们借几车硬盘…… |
![]() | 18 e1nher1ar 2020-12-15 10:04:45 +08:00 看来运维都差不多…… |
19 Kupanda82 2020-12-15 10:06:55 +08:00 45min sla 今年 kpi 不达标了 |
20 saytesnake 2020-12-15 10:10:13 +08:00 k8s 的监控做得不好吧... |
![]() | 22 thjwuliubu 2020-12-15 10:16:02 +08:00 所以 薅羊毛别太狠了 最后的结果就是大家都没得玩 |
![]() | 23 opengps 2020-12-15 10:21:17 +08:00 ![]() 45min/(365*24*60)=0.0000856164,也就是说可用性 99.99143836% 谷歌级别的服务,可用性才有 4 个 9,各位提需求的老哥们,你们参考下,别动不动要求 7 个 9 |
24 wpblank 2020-12-15 10:23:47 +08:00 上上周我们这边也是一个提供服务器+数据库的服务商磁盘满了,他们提供的数据库应该是共用磁盘,最后当天服务好几家公司宕了半天 |
![]() | 25 goodryb 2020-12-15 10:27:12 +08:00 ![]() 思路清奇,挂了就是挂了,什么原因对用户来说重要么,还要贴个诚实的标签 |
![]() | 26 love 2020-12-15 10:27:24 +08:00 原来 Google 也不监控磁盘空间的 |
![]() | 27 marcong95 2020-12-15 10:28:15 +08:00 昨天刚好在那个时间点想看一下 otion 上的东西,然而登录信息过期了,用的 Google 第三方登录,就连带 notion 也登不上了。。。看来第三方登录也不太靠谱,起码要留一个密码备用。。。 |
![]() | 28 arthas2234 2020-12-15 10:30:46 +08:00 事实证明,不要把鸡蛋放在一个篮子里 |
29 whileFalse 2020-12-15 10:30:56 +08:00 @luob #17 怎么就删内容了呢? |
![]() | 30 Braisdom 2020-12-15 10:34:08 +08:00 作为程序员看了这样的问题,是不是觉得内心平衡了一点呀。 |
![]() | 31 NewIPIsComing 2020-12-15 10:34:59 +08:00 ![]() ,作核心值之外的一美德,然值的表 |
32 RudyS 2020-12-15 10:40:12 +08:00 这个理由根本就是瞎几把扯 就算是是一个没有运维的小公司,也很少会因为磁盘满导致服务挂掉的;更何况 google ! |
33 stoneabc 2020-12-15 10:41:04 +08:00 1. 短时间内某些程序突然大量写盘把磁盘占满了,监控来不及告警 2. 监控很早就告警了,SRE 当做没看到 3. SRE 看到了,通知机房运维上新磁盘,但由于疫情 机房运维人手不足没来得及上… 哪种可能性比较大。。 |
![]() | 34 cnkuner 2020-12-15 10:43:10 +08:00 via Android ![]() 不一定是实诚,可能是用硬盘满了来掩盖更大的问题。 |
35 ddefewfewf 2020-12-15 10:43:40 +08:00 @whileFalse 收款方式凉了 |
36 hq136234303 2020-12-15 10:46:59 +08:00 @luob 为啥? |
![]() | 37 qiaobeier 2020-12-15 10:50:55 +08:00 昨晚吓死我了,我那个 gmail 绑定了一大堆服务。。。这 gmail 好像没怎么靠谱啊。但是也许我应该自己买个域名,这样就算邮件服务器挂了也可以换一个。不至于那么被动。 |
![]() | 38 tikazyq 2020-12-15 10:51:23 +08:00 如果没遭遇过 磁盘 /CPU/内存 /带宽满了、上线翻车、数据库损坏、 版本冲突、网络故障,人生都不完整。 看看人家赛博朋克 2077,bug 都多出天际了,照样不影响它的受欢迎程度 |
39 whyso 2020-12-15 10:56:41 +08:00 刚清过线上磁盘,已经百分之 80 多了。。。 |
40 liangch 2020-12-15 11:03:47 +08:00 ![]() 丢人的前提是,有其它家做得更好。问题是,有么?没有,就不丢人。 |
42 weyou 2020-12-15 11:06:57 +08:00 via Android 找这个理由是为以后的收费做铺垫吧 |
43 Illusionary 2020-12-15 11:07:21 +08:00 不是因为总所周知的原因? |
![]() | 44 phpcxy 2020-12-15 11:10:58 +08:00 ![]() |
![]() | 45 NerverLibis 2020-12-15 11:13:18 +08:00 ![]() 来个中国式的理由吧: 谷歌官方表示,导致故障发生的人员为无正式编制的临时工。 对 AA BB CC DD EE FF 等 6 名实习生 /临时工 /外包员工-予以解聘。 故障发生时时,从监控视频中可看到,有一位牌号“J1397”的资深员工缓慢经过,但并未做任何反应停留。 对此,运维部门 XX 经理答复道,当是运维人员因公出差,此地服务器不属于我们管辖范围内。 被解聘实习生:“我看电视才知道自己已经解聘了,以后不想再干这份工作,我想离开美国”。 受影响客户:希望运维道歉 规范操作 |
![]() | 46 kuner0614 2020-12-15 11:17:23 +08:00 昨天 p 站也调整了内容政策,删除了未认证账号的发布视频。目前 P 站的视频总数从 1300 万部降至仅 400 万部。 另外,以后仅允许认证用户发布视频,方式是上传手持 ID 的照片。 |
![]() | 47 6IbA2bj5ip3tK49j 2020-12-15 11:21:32 +08:00 ![]() 说实话,我是不信的。 硬盘是最容易冗余,最低价的设施了。 Authentication 系统出问题,这也不是一个会产生大量数据的系统。 当然,在有些人眼里,谷歌说啥都是对,楼上都快扯到阿共的阴谋了。 |
![]() | 48 hd2ex 2020-12-15 11:23:29 +08:00 ![]() 没什么丢人的,错误不论高级还是低级,是人就会犯。诚恳面对的态度才可以造就伟大,而这正是国内环境缺少的。 |
![]() | 49 TypeError 2020-12-15 11:24:14 +08:00 ![]() spanner/f1 数据库不是全球分布式的吗 |
![]() | 51 wangkai123 2020-12-15 11:27:27 +08:00 ![]() quota 和磁盘满了还是有区别吧,别搞这种营销号标题。。 |
![]() | 52 Williams2008 2020-12-15 11:32:01 +08:00 via Android ![]() 所以说地主家也没余粮了? |
![]() | 53 matrix67 OP ![]() |
![]() | 54 feast 2020-12-15 11:39:02 +08:00 Y2B 一直 something wrong,http500 就知道是谷歌服务器出问题了,不过不登录的话是正常的,应该是用户评论数据那块满了 |
![]() | 55 mingt 2020-12-15 11:40:18 +08:00 ![]() googlephotos 不免费的原因是 AI 学习的资源已经足够了, 不再需要各位提供了而已 |
![]() | 56 weifan 2020-12-15 11:41:51 +08:00 ![]() 是我高估 Google 了... |
![]() | 57 sm0king 2020-12-15 11:44:33 +08:00 ![]() 都遇到过磁盘满的事情吧? 也没见多少因为磁盘满宕机的。 |
59 laoyur 2020-12-15 11:51:17 +08:00 ![]() 很好,那正好可以为油管删除它不喜欢的视频找到借口了,磁盘不够了 |
![]() | 61 Narcissu5 2020-12-15 11:55:20 +08:00 ![]() @goodryb 大侠有所不知,像阿里云这种每次出了问题死不承认,说是我们程序 BUG 让我们找原因,真是能把人憋屈死。另外阿里云的那么多个 9 也完全是靠死不认错换来的 |
62 superrichman 2020-12-15 11:58:35 +08:00 via iPhone @goodryb 信息透明,开放,比糊弄用户要好多了,用户可能不懂技术问题,但是服务提供者给出真实的事故说明很加分。 |
63 js8510 2020-12-15 12:01:07 +08:00 via Android ![]() Quota 不是硬盘资源吃紧 是某些 service 分配的 quota 用完了会被 downstream throttled |
65 AllRightReserve 2020-12-15 12:17:50 +08:00 ![]() 果然跟我们的百度网盘比还是有一段路要走! |
![]() | 66 mwftts 2020-12-15 12:48:49 +08:00 via Android 公司 SAP HANA DB 出错,宕机两次,阿里云可以申请赔偿,只是留给优惠券而已 |
![]() | 67 deeplydrink 2020-12-15 12:52:24 +08:00 天啊。。。。。真的啊,,, |
![]() | 68 bnrwnjyw 2020-12-15 12:52:42 +08:00 讲道理,别管问题低不低级,贴了原因就是诚实啊。总比某些服务挂了永远不说原因,它犯的就是“高级错误”? |
![]() | 69 love 2020-12-15 13:01:51 +08:00 ![]() 楼上说得好象 Google 也公布了细节似的,这说内部存储问题和说网络抖动有什么区别 |
![]() | 70 smilingsun 2020-12-15 13:14:12 +08:00 ![]() 看 SRE 书里面讲,Google SRE 写 postmortem 都不会被 blame 。 话说对外会不会有更详细的解释? |
![]() | 71 novaa 2020-12-15 13:19:24 +08:00 @NerverLibis 优秀 |
72 6ufq0VLZn0DDkL80 2020-12-15 13:20:38 +08:00 ![]() 谁说的 internal storage quota issue 一定是容量满了。。。。 |
![]() | 73 towry 2020-12-15 13:32:07 +08:00 他说是啥就是啥 |
![]() | 75 ntgeralt 2020-12-15 13:37:32 +08:00 所以,上面的读者都信是储存满了? |
![]() | 77 reus 2020-12-15 14:02:24 +08:00 storage quota 问题,不一定是磁盘满了,也可能是配额设置有问题,配少了,或者没有自动调整配额,等等。 |
![]() | 78 reus 2020-12-15 14:04:45 +08:00 ![]() @love https://status.cloud.google.com/incident/cloud-networking/19009 以前公布的一些细节。这就是区别。刚恢复没有细节也不奇怪,但不公布细节不是谷歌的风格。 |
![]() | 79 exploreexe 2020-12-15 14:04:57 +08:00 不愧是你。 还是我爱的谷歌,宕机的理由都是这么清新脱俗。:doge |
![]() | 80 reus 2020-12-15 14:07:49 +08:00 https://sre.google/sre-book/postmortem-culture/ Postmortem Culture: Learning from Failure Blameless 才是好哲学,出了一点点问题就找人背锅,只会让人倾向于掩盖问题 |
81 willsplashing 2020-12-15 14:46:53 +08:00 "internal storage quota issue" 是非常精确而且客观的描述,这都能联想到阴谋论也是醉了 |
![]() | 82 frostming 2020-12-15 14:48:34 +08:00 别这样,谷歌一挂,大家都炸了,你让有关部门的脸往哪搁 |
![]() | 83 Y29tL2gwd2Fy 2020-12-15 14:52:41 +08:00 via iPhone 张口就来磁盘满了,呵呵 |
84 whileFalse 2020-12-15 15:08:42 +08:00 @ddefewfewf #35 为啥凉了?我刚买了终身会员 |
![]() | 85 matrix67 OP @Y29tL2gwd2Fy #83 @willsplashing #81 @reus #78 @reus #77 @ntgeralt #75 补充一下,这边有详细原因解释,大家不用瞎猜了哈。 rsus 老哥最稳!!! https://status.cloud.google.com/incident/zall/20013 The root cause was an issue in our automated quota management system which reduced capacity for Google's central identity management system, causing it to return errors globally. |
![]() | 86 baiyi 2020-12-15 15:15:59 +08:00 https://status.cloud.google.com/incident/zall/20013 "The root cause was an issue in our automated quota management system which reduced capacity for Google's central identity management system, causing it to return errors globally. " 还没有更细节的内容,但这个描述能说明不是单纯的磁盘满了 |
87 Voichesapete 2020-12-15 15:25:22 +08:00 @baiyi 看了卫报的报道,就是磁盘写满的原因吧。When that storage filled up, the system should have automatically made more available; instead, it seems it didn’t, which meant the system crashed https://www.theguardian.com/technology/2020/dec/14/google-suffers-worldwide-outage-with-gmail-youtube-and-other-services-down |
![]() | 88 ggabc 2020-12-15 15:47:16 +08:00 楼层里的评论,感觉经历过集群项目的人不多啊。说不定人家谷歌的系统多复杂呢! |
![]() | 89 KagurazakaNyaa 2020-12-15 15:54:01 +08:00 这是自动磁盘配额管理出现的问题,应该是自动配额调整出现故障导致的,八成是算法问题,没有及时调整存储池配额或者是应用了错误的配额,和磁盘写满没啥关系 |
90 willsplashing 2020-12-15 15:59:45 +08:00 @Voichesapete 卫报纯属 speculation 。可以很负责的说只是 quota issue 不是 disk capacity issue |
![]() | 92 hafuhafu 2020-12-15 16:09:13 +08:00 好奇怪啊,我昨天听朋友说谷歌挂了的时候我还能看油管、并且发评论,虽然头像显示不出来。 |
93 Nadao 2020-12-15 16:39:18 +08:00 |
94 Voichesapete 2020-12-15 16:47:42 +08:00 @willsplashing 细看了谷歌的分析,确实不是磁盘写满 |
95 jjianwen68 2020-12-15 16:55:06 +08:00 @kuner0614 P 站这删除是物理删除还是只是不给用户看到,要是物理删除的话,里面有质量高的视频岂不是很遗憾 |
![]() | 96 mxydsg8858 2020-12-15 17:08:22 +08:00 @kuner0614 泪目 |
![]() | 97 ShadowWhisper 2020-12-15 18:17:33 +08:00 昨天还以为账号被删了,老是提示我邮箱不存在 |
![]() | 100 cassyfar 2020-12-15 19:23:39 +08:00 |