亞馬遜AWS大當機的原因找到了:技術人員「打錯字」

2017.03.03 by
張庭瑜
Shutterstock
亞馬遜今日公布28日造成全球上千個網路故障的雲端服務事故調查報告,原因在於技術人員例行維修系統時「打錯字」的人為疏失。

亞馬遜雲端資料儲存服務S3(Amazon Simple Storage Service)位於美國維吉尼亞州北部的資料中心,本周二出現大規模故障,波及Giphy、Medium、Slack、Quora等上千家使用亞馬遜雲端服務(AWS)儲存資料和提供線上服務網站,歷經4小時才搶修完成。亞馬遜今日公布事故調查報告,造成上千個網站停擺的原因,全都只因技術人員「打錯字」。

技術人員打錯字,意外關閉大量伺服器

根據亞馬遜說明,28日上午,一名技術人員正在進行例行維修,其中一個步驟便是關閉S3子系統下的少量伺服器。「不幸的是,其中一條指令輸入錯誤,導致意外關閉比預期還多的伺服器。」亞馬遜解釋。

正巧,在那些被關閉的伺服器,有些負責處理S3子系統的和資料檢索和儲存功能,被移除後相關服務皆無法執行,也導致AWS無法正常運作,需要重新啟動才能回復設定。

系統規模大且許久未重啟,導致系統重啟耗時長

不過亞馬遜表示,按照S3子系統的設計,就算發生重大故障被移除,也不至於對客戶造成影響,只要重新開啟子系統,就能簡單回復這名員工的疏失。至於這次為何耗費4小時才解決問題,亞馬遜表示,AWS已經好幾年沒真正重啟這些子系統,且S3的資料量也成長許多,電腦光是跑安全檢查和驗證底層後設資料(metadata)的完整性就花了不少時間,因此重啟系統時間比預期的還久。

亞馬遜增設安全機制、避免快速關閉大量伺服器

為了避免類似情形再發生,亞馬遜表示,它們目前使用移除容量的工具「允許太多容量可於短時間內移除」,因此,未來他們將調整,讓工具移除容量的速度變更慢,並增加安全檢查機制,防止移除超過子系統正常運作所需的最小容量。此外,它們也將把S3子系統拆成更小的單位,以縮短系統回復所需時間。

尷尬的是,在這次事件中,用來追蹤AWS運作狀況的「服務健康檢查(Service Health Dashboard)」網站也受到S3故障而停擺,導致亞馬遜只能在Twitter上更新搶修狀況。亞馬遜在報告中也保證未來S3故障、該網站將能正常運作。

「我們希望向所有受到此事件影響的客戶道歉。我們將盡所有努力在這次的事件學習,並進一步改善我們服務的可用性。」亞馬遜說。

資料來源:AmazonTechCrunchThe VergeEngadget

延伸閱讀

每日精選科技圈重要消息

本網站內容未經允許,不得轉載。 若有文章授權需求請填寫 申請表單