(圖說:AWS Health Dashboard 螢幕截圖 at 2025-10-20 12:51 PDT。圖片來源:Ernest。)
✳️ tl;dr
- 以下內容來自 AWS 官方報告 1,由 AWS Community Hero Ernest 2 以開發者、技術管理者視角,切分段落、畫上重點,以求貼近事實,並基於事實進行推理與延伸學習。
- 期待透過研讀報告,讓雙方(AWS 原廠、以及同樣身為 AWS 客戶的我們)不論是在雲端或是地端,一起累積經驗、一起持續進步。
- 以下時間如果沒有特別描述,都是 AWS 西雅圖總部的美西太平洋夏令時間。
- 這份筆記,會先以知識圖譜開場,然後接續拆解原始官方報告內容,總共分成四個段落:Amazon DynamoDB, Amazon EC2, Network Load Balancer (NLB), Other AWS Services
- 如果時間不夠,建議可以先看第一個段落,了解本次服務中斷的 root cause 與解決方案。
- 如果有預算想要調整自身架構成為跨區域高可用,但又沒有足夠時間大幅調整架構,推薦可以看一眼 AWS 各個服務中帶有 global 字樣的服務,例如這次同為 DynamoDB 家族的「Amazon DynamoDB Global Tables」幾乎沒有受到影響。
- 我們想要提供您關於服務中斷的一些額外資訊,該事件發生於
- 北維吉尼亞 (us-east-1) 區域 3
- 2025 年 10 月 19 日和 20 日
- 事件開始於美西太平洋夏令時間 10 月 19 日 晚上 11:48 (台北時間 UTC+8, 2025-10-20 14:48)
- 並且結束於美西太平洋夏令時間 10 月 20 日 下午 2:20 (台北時間 UTC+8, 2025-10-21 05:20),
- 對客戶應用有三個不同的影響時期:
- 首先,在 10 月 19 日晚上 11:48 到 10 月 20 日凌晨 2:40 之間,Amazon DynamoDB 在北維吉尼亞 (us-east-1) 區域經歷了API 錯誤率增加的情況。
- 其次,在 10 月 20 日上午 5:30 到下午 2:09 之間,網路負載平衡器 (NLB) 在北維吉尼亞 (us-east-1) 區域的部分負載平衡器經歷了連線錯誤增加的情況。
- 這是由於 NLB 機群中的健康檢查失敗所造成,導致部分 NLB 的連線錯誤增加。
- 第三,在 10 月 20 日凌晨 2:25 到上午 10:36 之間,新的 EC2 執行個體啟動失敗,而雖然執行個體啟動從上午 10:37 開始成功,但部分新啟動的執行個體遇到連線問題,這些問題在下午 1:50 得到解決。