如果您喜歡這裡的內容,記得分享到您的Facebook和Twitter上面所有的朋友們吧!

2013年11月24日 星期日

案例分析:單點故障,全部故障。(Single Point of Failure, SPOF)

中國北京,清華大學正門口
2013年11月21日下午,發生了台灣某電信業者的網路,意外停止了服務將近一小時。大致上發生的經過,是因為單一個網路機房的停止服務,造成了該電信業者的網路不能正常服務。(新聞報導)

因為這個停止服務的網路機房,剛好是租用另外一家公司的機房出租服務,停止服務責任的歸屬,的確還需要更深入的資訊,我們才能夠釐清。可是從這個案例中,剛好讓我們觀察到一個真實的案例,正好就是「單點故障,全部故障」(Single Point of Failure, SPOF)典型情境。

Two is one, and one is none

美國海軍特種部隊(Navy SEAL)裡面,傳頌著一個指導原則:”Two is one, and one is none”.

我用口語一點方式來解釋,意思就是,平常裝備雖然準備了兩份,我們只能當它是一份,這是因為,裝備都有機會故障,只要有一份故障了,我們就只剩下一份可以用;更進一步來說,如果我們只準備一份,其實等同於無法正常工作,因為隨時都會因為裝備的故障,而讓我們完全停止工作。

如果只有一份裝備時,完全只能以靠「運氣的好或不好」,來決定能不能成功地完成工作。



我們可以從這個事件,至少學習到以下的這幾點。

避免「只有一套」

趁這個事件的提醒,我建議可以抽空檢查一下,您的生產網路,是否還存在著「只有一套」的問題? 例如以下我隨便抽問的一些問題,您是否都能夠回答呢?

  • 預設閘道器是否只有一份?
  • 防火牆是否只有一份?
  • 伺服器是否只有一份?
  • 資料的存儲,是否只有一份?
  • 連結伺服器的網路連接線,是否只有一份?
  • 連結伺服器的網路交換器,是否只有一份?
  • 機房的電力來源,是否只有一套?
  • 機房的冷氣,是否只有一套?
  • 聯外的專線,是否只有一份?
  • 聯外的電信服務業者,是否只有一家?
  • 資料中心,是否只有一個?


雖然有兩份,還是需要定期做切換演練

在軍隊服役過的朋友都知道,平常都需要不斷地做演練,緊急的情境發生的時候,才能夠快速反應。

  • 目前的網路服務團隊,多久演練一次呢?
  • 完整操作切換一次,需要花多久時間?


還是,從來都沒有演練過?


備援用的線路,頻寬必須跟主要路徑一致

如果差異太大,當切換的情境發生的時候,備援線路同樣地沒有辦法用一致的頻寬量作正常服務的時候,那這樣的設計等於跟沒有備援是一樣的結果。

如果該公司的發言人所描述的是正確的話,那剛好就是這樣情境的一個典型案例。
來源:(新聞報導)

****發言人***表示,網路異常壅塞發生在下午2點45分到3點10分之間,工程人員追查原因後發現,是因為向****租用的機房設備異常,導致**固網、行動用戶上網受到影響,網路連線異常壅塞,身為用戶將向****追究責任。 


行動(移動)網路,不能當成生產網路,頂多當成短時間內的備援路徑

「無限上網吃到飽」,能夠吃到飽的,只有數據的量,不包含網路的品質。


重要的辦公室資料,不能只靠 Internet 傳輸

如果有人還存在著這種想法,「Internet就可以傳送資料了,何必要專用線路的Intranet呢?」,大家也可以拿這一次的事件給他們參考。

連線真的出問題的時候,電信業者除了說抱歉以外,大概也只能說抱歉了。


如果您在經營公眾使用的電信業,公共關係的處理,絕對是非常重要的。


祝大家週末愉快!
如果您喜歡這篇文章,不考慮試試Email訂閱嗎?




0 意見:

張貼留言

小技巧:也可以 匿名 留言!

經典熱門文章