針對今天晚間各地銀行發生ATM(自動櫃員機)出現大當機,財金公司回應是一位IBM工程師進行維修時,「誤觸」一條線路導致 …
金管會表示,根據銀行及財金公司回報情況,跨行交易系統是在今晚17點42分出現壅塞,速度變非常慢,但並不是全部當機無法使用;後來狀況是晚間18點18分排除。
我從外部觀察者的角度,來聊一聊這個事件。
有沒有可能只因為碰掉一條網路線,就造成系統停止服務?
這是非常可能的,純粹看運氣。
我這裡假設一個情境,您碰掉的網路線,正好是伺服器的網路掛接存儲系統的唯一通道,偏偏伺服器的關鍵資料檔案就放在上面。
我這裡所提到的「網路掛接存儲系統」,就是Network Attached Storage, NAS。
這算不算是「單點故障全體故障」
當然算,這是一個典型的「單點故障全體故障」案例,Single Point of Failure, SPOF。
我也觀察到,整個事故從發現停止服務開始,在不到40分鐘之內,就恢復正常服務,我判斷系統只有暫停服務,並沒有造成緊急停機或是系統當機。非常可能,真的只因為瞬間失去網路連通性而已。我的經驗告訴我,很多系統,光是執行伺服器停機,或是開機程序,所花費的時間,都遠遠超過40分鐘。
如果無法避開「單點故障全體故障」,應該如何與它共存?
避開「單點故障全體故障」,當然是我們在規劃任何系統的首要目標。但是,在實務上不一定都是那麼容易。例如,這是一個工作中、又不太能停機的單點故障全體故障的系統,光是加入備用系統,就必須安排停止服務的時間,很可能這將是好幾個月後才能發生的事;又或者是,備援系統太貴、目前沒有場地可以安裝、等等。
我們現在能夠做的就是,將這些已知的單點故障全體故障的問題,全部正確的記錄下來,在最終可以負責任的人同意下,列入追蹤,未來找時間、預算,儘快地修正這些問題。
One more thing…
從Phra Pin-klao橋回頭看Rama VIII Bridge 泰國、曼谷市 |
我們可以趁著這次的事故,順便檢視,我們的工作系統,是否還有單點故障全體故障的問題存在。我這裡另外提醒兩點,跟網路有關的注意事項。
作業風險區,請清楚標示
只要有可能造成單點故障全體故障的關鍵地點、空間,無論是硬體、軟體、線路,都應該清楚的標示。必須要讓任何操作維護的工作人員,都很容易察覺到,在附近作業必須特別小心注意。
例如,我們可以透過掛牌、顏色、三角錐、等等,來提醒所有的工作人員。
機櫃線路作業區,請保留足夠的空間
機櫃緊密並排,並不是問題,但是,網路機櫃的前、後門,我建議至少保留60公分以上的工作空間。這是因為,我們在整理線路、電源線的時候,如果沒有足夠的空間,工作人員會看不到所要維護的連接口,或者是,拔插連接口的時候,去碰觸到其他關鍵的連接口。
我是洪李吉。這是我的網站「Cisco學習資訊分享」,我們下次見!
0 意見:
張貼留言
小技巧:也可以 匿名 留言!