最近這些天,云廠家一家接一家的宕機(jī)。今天輪到CloudFlare掛掉,導(dǎo)致全球10%以上的網(wǎng)站不可訪問。
這個(gè)故障,不用等到廠家發(fā)布事后分析報(bào)告,無非就是又一個(gè)工程師在設(shè)計(jì)或者操作的時(shí)候考慮不周全,導(dǎo)致系統(tǒng)有個(gè)漏洞,突然爆發(fā)了。
脫離我們的行業(yè)慣例,用外部視角看,這是一種不可思議的現(xiàn)象: 一兩個(gè)普通的工程師的某一兩個(gè)決策,導(dǎo)致全球上百萬(wàn)的工程師要應(yīng)對(duì),上億的用戶日常生活被影響到。
如果一個(gè)醫(yī)生手抖一下,全國(guó)一半的病人要集體痛五個(gè)小時(shí),或者一個(gè)控制塔管制員溜了一下神,半個(gè)亞洲的航班都要延誤,那整個(gè)社會(huì)都會(huì)瘋掉。同樣的事情發(fā)生在云計(jì)算行業(yè),大家卻都不以為奇。這是不正常的。
今年10月28號(hào)aws us-east-1的大故障,導(dǎo)致美國(guó)一半的線上服務(wù)不可用,波及到全球用戶。2023年11月12號(hào),阿里云故障導(dǎo)致中國(guó)無數(shù)服務(wù)不可用。2023年11月27號(hào)滴滴基礎(chǔ)設(shè)施團(tuán)隊(duì)的故障,導(dǎo)致全國(guó)幾百萬(wàn)司機(jī)一夜收不到單。案例數(shù)不勝數(shù),隨著云計(jì)算的進(jìn)一步普及,這種集中化只會(huì)越來越加劇,故障的影響會(huì)越來越大。
盡管這些故障有明顯的溢出效應(yīng),但廠家只是當(dāng)做內(nèi)部的商業(yè)損失處理,從來沒有評(píng)估過其更廣泛的社會(huì)損失。他們也從來不公布調(diào)查報(bào)告,更沒有整改承諾,甚至都不提供規(guī)避方案。用戶只能被動(dòng)的承受損失,然后坐等下一次故障發(fā)生。
這種大規(guī)模的故障中,云廠商的直接損失,和客戶的間接損失可能是1:100甚至1:1000的關(guān)系。
我們以浙江政務(wù)云為例,其一年云服務(wù)開銷是5.5億,假設(shè)云服務(wù)宕機(jī)一天,廠商不過損失150萬(wàn)人民幣。(請(qǐng)注意這是一個(gè)思想實(shí)驗(yàn),作者并非在評(píng)價(jià)浙江政務(wù)云的可用性)
而這一天,浙江政務(wù)云各項(xiàng)服務(wù)不可用,需要?jiǎng)訂T幾萬(wàn)人手工處理各種公文,這個(gè)成本就已經(jīng)幾千萬(wàn)了,比云廠商的損失高出一個(gè)數(shù)量級(jí)。
再考慮第三層損失,網(wǎng)上辦事大廳停滯造成民眾無法登記婚姻,延遲辦理房屋過戶,這個(gè)損失會(huì)上億。
由于監(jiān)管缺失,云廠商不會(huì)在意第二層和第三層的損失,他們的風(fēng)險(xiǎn)計(jì)算模型只會(huì)考慮區(qū)區(qū)150萬(wàn)的損失。如果防護(hù)措施超過了50萬(wàn),對(duì)他們來說,就是一個(gè)負(fù)回報(bào)的投資,畢竟那幾千萬(wàn)和幾個(gè)億的間接損失都是客戶自行承擔(dān)的。
我的朋友馮若航一直抱怨云廠家的故障賠償是個(gè)笑話。由于云故障,你的網(wǎng)站不可用,你的客戶打爆你的客服電話,你的老板從南極打電話痛罵你,你的工程師取消休假加班加點(diǎn)應(yīng)對(duì),你一夜不睡盯著云廠狀態(tài)頁(yè)跟進(jìn)事態(tài)。最后云廠家給了兩百三十七塊八毛五的賠償金,都不夠一個(gè)工程師從回龍觀打車到中關(guān)村。這種影響和責(zé)任的不對(duì)稱,營(yíng)造出一種滑稽的效果。
上面列舉的事故,還只是工程師們的無心之過導(dǎo)致簡(jiǎn)單的財(cái)產(chǎn)損失。如果有人蓄意搞破壞呢?假設(shè)有特殊機(jī)構(gòu)得知某個(gè)云廠商托管了國(guó)計(jì)民生服務(wù),派人打入內(nèi)部竊取數(shù)據(jù),根本不做背景調(diào)查的云廠商有任何防范能力嗎?云廠商有數(shù)據(jù)庫(kù)服務(wù),密鑰管理服務(wù),證書管理服務(wù),但歸根結(jié)底,這些服務(wù)都是人在維護(hù),云廠商有足夠的管理能力防止內(nèi)部人攻擊嗎?有足夠的審計(jì)能力探測(cè)和追蹤內(nèi)部破壞嗎?根據(jù)我的經(jīng)驗(yàn),這些問題的答案都是No。
現(xiàn)在是2025年,這種市場(chǎng)原教旨的制度安排,已經(jīng)過時(shí)了。云計(jì)算,應(yīng)該和銀行,電信運(yùn)營(yíng)商和發(fā)電廠一樣,作為一種社會(huì)核心基礎(chǔ)設(shè)施受到更嚴(yán)格的監(jiān)管。歐洲的Cyber Resilience Act開了一個(gè)先例。中國(guó)監(jiān)管者也應(yīng)該跟進(jìn)。
下面是我的一些粗淺建議
1.云廠商服務(wù)應(yīng)該根據(jù)區(qū)域拆分。中國(guó)移動(dòng)湖南公司的故障不會(huì)影響到江西移動(dòng)的服務(wù),云計(jì)算行業(yè)也應(yīng)如此。
2.云廠商應(yīng)該為其故障付出更高的財(cái)務(wù)代價(jià),不應(yīng)該是簡(jiǎn)單的客戶服務(wù)費(fèi)用返還。
3.云廠商應(yīng)該有更多的舉證責(zé)任。客戶數(shù)據(jù)泄露的時(shí)候,云廠商應(yīng)該通過審計(jì)手段證明自己的清白,否則就要承擔(dān)責(zé)任。
4.云廠商應(yīng)該贊助行業(yè)標(biāo)準(zhǔn)的提升。云廠商集中程度非常高,三個(gè)大廠占據(jù)了70%的市場(chǎng)份額,幾個(gè)廠商的水準(zhǔn)就是行業(yè)的水準(zhǔn)。廠商有義務(wù)在財(cái)務(wù)利益之外,積極的促進(jìn)行業(yè)標(biāo)準(zhǔn)提升,就像中國(guó)移動(dòng)當(dāng)年積極的促進(jìn)5G落地一樣。
以上是一家之言,希望得到從業(yè)者的批評(píng)和指教。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.