IT之家 6 月 14 日消息,谷歌表示于北京時(shí)間 6 月 14 日 22 點(diǎn) 49 分到 6 月 15 日凌晨 1 點(diǎn) 49 分,發(fā)生的 Google Cloud 大規(guī)模宕機(jī)事件源于 API 管理問(wèn)題,持續(xù)超過(guò)三小時(shí),影響全球數(shù)百萬(wàn)用戶。
IT之家援引博文介紹,谷歌表示在本次大規(guī)模宕機(jī)事件中,包括 Gmail、Google Calendar、Google Docs、Google Drive 和 Google Meet 等核心工具無(wú)法正常使用。
谷歌表示,問(wèn)題的根源在于 API 管理平臺(tái)因無(wú)效數(shù)據(jù)而失效,且由于缺乏有效的測(cè)試和錯(cuò)誤處理機(jī)制,未能及時(shí)發(fā)現(xiàn)并修復(fù)問(wèn)題。
此次宕機(jī)不僅沖擊 Google 自身服務(wù),還波及眾多依賴 Google Cloud 的第三方平臺(tái),包括 Spotify、Discord、Snapchat、NPM 和 Firebase Studio 等。
Cloudflare 部分服務(wù)也因依賴 Workers KV 鍵值存儲(chǔ)系統(tǒng)而中斷。Google 解釋,問(wèn)題源于 API 管理系統(tǒng)的一次無(wú)效自動(dòng)化配額更新,導(dǎo)致外部 API 請(qǐng)求被拒絕。盡管大多數(shù)地區(qū)在兩小時(shí)內(nèi)恢復(fù),但 us-central1 區(qū)域的配額策略數(shù)據(jù)庫(kù)超載,恢復(fù)時(shí)間更長(zhǎng)。
Cloudflare 在事后分析中指出,此次宕機(jī)并非安全事件引發(fā),也未造成數(shù)據(jù)丟失。問(wèn)題出在 Workers KV 服務(wù)依賴的底層存儲(chǔ)基礎(chǔ)設(shè)施,而該基礎(chǔ)設(shè)施部分由第三方云服務(wù)商提供(未明確指名,但確認(rèn)與 Google Cloud 相關(guān))。
為避免類似事件,Cloudflare 計(jì)劃將 KV 核心存儲(chǔ)遷移至自有的 R2 對(duì)象存儲(chǔ)系統(tǒng),以減少對(duì)外部服務(wù)的依賴。
下一篇:沒(méi)有了