亞馬遜雲端資料儲存服務S3(Amazon Simple Storage Service)位於美國維吉尼亞州北部的資料中心,本周二出現大規模故障,波及Giphy、Medium、Slack、Quora等上千家使用亞馬遜雲端服務(AWS)儲存資料和提供線上服務網站,歷經4小時才搶修完成。亞馬遜今日公布事故調查報告,造成上千個網站停擺的原因,全都只因技術人員「打錯字」。
技術人員打錯字,意外關閉大量伺服器
根據亞馬遜說明,28日上午,一名技術人員正在進行例行維修,其中一個步驟便是關閉S3子系統下的少量伺服器。「不幸的是,其中一條指令輸入錯誤,導致意外關閉比預期還多的伺服器。」亞馬遜解釋。
正巧,在那些被關閉的伺服器,有些負責處理S3子系統的和資料檢索和儲存功能,被移除後相關服務皆無法執行,也導致AWS無法正常運作,需要重新啟動才能回復設定。
系統規模大且許久未重啟,導致系統重啟耗時長
不過亞馬遜表示,按照S3子系統的設計,就算發生重大故障被移除,也不至於對客戶造成影響,只要重新開啟子系統,就能簡單回復這名員工的疏失。至於這次為何耗費4小時才解決問題,亞馬遜表示,AWS已經好幾年沒真正重啟這些子系統,且S3的資料量也成長許多,電腦光是跑安全檢查和驗證底層後設資料(metadata)的完整性就花了不少時間,因此重啟系統時間比預期的還久。
亞馬遜增設安全機制、避免快速關閉大量伺服器
為了避免類似情形再發生,亞馬遜表示,它們目前使用移除容量的工具「允許太多容量可於短時間內移除」,因此,未來他們將調整,讓工具移除容量的速度變更慢,並增加安全檢查機制,防止移除超過子系統正常運作所需的最小容量。此外,它們也將把S3子系統拆成更小的單位,以縮短系統回復所需時間。
尷尬的是,在這次事件中,用來追蹤AWS運作狀況的「服務健康檢查(Service Health Dashboard)」網站也受到S3故障而停擺,導致亞馬遜只能在Twitter上更新搶修狀況。亞馬遜在報告中也保證未來S3故障、該網站將能正常運作。
「我們希望向所有受到此事件影響的客戶道歉。我們將盡所有努力在這次的事件學習,並進一步改善我們服務的可用性。」亞馬遜說。