如果您喜歡這裡的內容,記得分享到您的Facebook和Twitter上面所有的朋友們吧!

2010年9月26日 星期日

簡單估計系統停機多久以內, 才算合理?

Facebook 九月二十四日緊急停機2.5小時. 服務陸陸續續回復到正常功能.

當時我的瀏覽器截圖. 這錯誤訊息是下載自 Facebook, 不是瀏覽器自行產生的.
Facebook 官方說明: Facebook | More Details on Today's Outage

準確一點的時間, 大約是 Sep. 24, 2010 的 3 a.m. ~ 6 a.m. 間的2.5 小時, 台灣時間 GMT+8.

Facebook  在處理本事件的時候, 包括了 "停止資料庫連線", "修復資料庫", 與"復原連線". 等三個大動作, 全部都發生在這 2.5 小時內.
Facebook | More Details on Today's Outage

The way to stop the feedback cycle was quite painful - we had to stop all traffic to this database cluster, which meant turning off the site. Once the databases had recovered and the root cause had been fixed, we slowly allowed more people back onto the site.
這事件給了我們一個重要的時間里程碑: 2.5 小時. 除非有系統 "比 Facebook 還要複雜", "使用者人數比 Facebook 還要多", 不然, "類似事件" 的服務復原時間目標, 我認為, 應該要接近 2.5 小時才算合理.

純粹 "網路設定錯誤" 的回復, 我認為可以參考最近 RIPE NCC 事件, 目標訂在 30 分鐘內才算合理.

如果自我演練後, 發現很難接進以上目標, 我的建議是, 應該趁這機會重新檢視一下 "緊急應變計畫", 和 "系統架構".

其實我是看到以下的新聞, 才覺得我更應該將我的心得寫下來跟大家分享:

PChome商店街系統昇級維護關閉5天 | 即時新聞 | iThome online

[更多跟 Facebook 事件相關新聞]

Facebook Down | Users Flood Twitter | Trending Topic | Internet Addiction - Oneindia News
Twitter / @Facebook: We've resolved the tech is ...
---
如果您喜歡這篇文章,不考慮試試Email訂閱嗎?




2 則留言:

  1. PChome商店街系統昇級維護關閉要5天?
    那這段時間商家和享購物的人該怎麼辦?

    不是很了解pchome商店街的架構,
    但存以IT的角度來看,實在是很誇張...

    回覆刪除
  2. Chenfm 點出我的重點了!

    希望大家都用 Facebook 的例子來自我勉勵, 一起向上提升!

    回覆刪除

小技巧:也可以 匿名 留言!

經典熱門文章