亞馬遜AWS大當機的原因找到了：技術人員「打錯字」|數位時代 BusinessNext

亞馬遜雲端資料儲存服務S3（Amazon Simple Storage Service）位於美國維吉尼亞州北部的資料中心，本周二出現大規模故障，波及Giphy、Medium、Slack、Quora等上千家使用亞馬遜雲端服務（AWS）儲存資料和提供線上服務網站，歷經4小時才搶修完成。亞馬遜今日公布事故調查報告，造成上千個網站停擺的原因，全都只因技術人員「打錯字」。

技術人員打錯字，意外關閉大量伺服器

根據亞馬遜說明，28日上午，一名技術人員正在進行例行維修，其中一個步驟便是關閉S3子系統下的少量伺服器。「不幸的是，其中一條指令輸入錯誤，導致意外關閉比預期還多的伺服器。」亞馬遜解釋。

正巧，在那些被關閉的伺服器，有些負責處理S3子系統的和資料檢索和儲存功能，被移除後相關服務皆無法執行，也導致AWS無法正常運作，需要重新啟動才能回復設定。

系統規模大且許久未重啟，導致系統重啟耗時長

不過亞馬遜表示，按照S3子系統的設計，就算發生重大故障被移除，也不至於對客戶造成影響，只要重新開啟子系統，就能簡單回復這名員工的疏失。至於這次為何耗費4小時才解決問題，亞馬遜表示，AWS已經好幾年沒真正重啟這些子系統，且S3的資料量也成長許多，電腦光是跑安全檢查和驗證底層後設資料（metadata）的完整性就花了不少時間，因此重啟系統時間比預期的還久。

亞馬遜增設安全機制、避免快速關閉大量伺服器

為了避免類似情形再發生，亞馬遜表示，它們目前使用移除容量的工具「允許太多容量可於短時間內移除」，因此，未來他們將調整，讓工具移除容量的速度變更慢，並增加安全檢查機制，防止移除超過子系統正常運作所需的最小容量。此外，它們也將把S3子系統拆成更小的單位，以縮短系統回復所需時間。

尷尬的是，在這次事件中，用來追蹤AWS運作狀況的「服務健康檢查（Service Health Dashboard）」網站也受到S3故障而停擺，導致亞馬遜只能在Twitter上更新搶修狀況。亞馬遜在報告中也保證未來S3故障、該網站將能正常運作。

「我們希望向所有受到此事件影響的客戶道歉。我們將盡所有努力在這次的事件學習，並進一步改善我們服務的可用性。」亞馬遜說。

資料來源：Amazon、TechCrunch、The Verge、Engadget