如果您喜歡這裡的內容,記得分享到您的Facebook和Twitter上面所有的朋友們吧!

2013年2月21日 星期四

我的壞習慣:毀損,其實應該改成「重新啟動」

清溪川一隅,韓國首爾
我以往在課程中討論到單點故障造成全體故障(Single Point of Failure, SPOF) 的時候,經常使用到這樣的說法,例如,「如果這部(Cisco)路由器 毀損 的時候,網路必須還要保持連通性」。

後來發現,我這樣的措辭,會讓大家誤會,以為Cisco產品很不穩定,很容易「毀損」!

事實上,Cisco產品是非常穩定的。只要電源不中斷,Cisco網路設備經常可以正常運行好幾個月,不會停止服務,當然也不會「毀損」。經驗上告訴我,很久很久才會在某個陰暗的管道間發生真正的毀損事件:故障、燒毀、當機,然而,通常發生的主要原因,也是因為管道間散熱不良、雷擊、或者是灰塵過多所造成的。安裝在有環控保護的數據中心的網路產品,幾乎不太會發生毀損的事件。

(有紀錄的冠軍在這裡,Uptime 超過七年耶!WOW!)
WS-C5000 Software, Version McpSW: 3.1(2) NmpSW: 3.1(2a)
Copyright (c) 1995-1998 by Cisco Systems
NMP S/W compiled on Feb 20 1998, 18:56:57
MCP S/W compiled on Feb 20 1998, 19:05:51
System Bootstrap Version: 2.4(1)
Hardware Version: 2.1 Model: WS-C5000 Serial #: 007584271
…
Uptime is 2618 days, 9 hours, 11 minutes

原始連結

如果真的如此,那為何我們在設計網路的時候,還是需要考量到單點故障造成全體故障的問題呢?因為要造成單一設備的「停止服務」,還有一個經常發生的情景,那就是「重新啟動」。

無論是哪一個廠牌的網通產品,沒有一家可以保證軟體是完全無安全漏洞的。當駭客發明了新的攻擊或者是入侵的方法的時候,既有的軟體,通常需要做補強(Patch),來預防惡意攻擊。而且產品在作軟體補強的時候,很多型號的產品,都必須重新啟動,才能完成補強的動作。

我們回想一下,以Microsoft Windows的使用經驗來看,大約是每個月都會發生,需要作Windows Update然後「重新啟動」的情境。

Windows 7 安裝完成SP1後,需要作重新啟動的畫面。截圖自Microsoft網站

網路設備的補強發生頻率,也許沒有這麼頻繁,但是,大約也是每三個月左右就有重大的補強,需要重新啟動。

網路設備在作重新啟動的時候,經常需要超過五分鐘以上的時間。如果網路在設計上,沒有考慮到單點故障造成全體故障的情境,那麼每次只要因為重大補強需要重新啟動網路設備的時候,網路服務就會中斷五分鐘以上。

五分鐘,乍看之下不會很久。在服務中斷的情境下,相信我,這五分鐘將會比任何痛苦都還要難熬。


所以,下次在討論「單點故障造成全體故障」的時候,我會改成用「重新啟動」來強調這個設計上的問題,不再使用 「毀損」這個用詞。

如果您喜歡這篇文章,不考慮試試Email訂閱嗎?


Related Posts with Thumbnails

0 意見:

張貼留言

小技巧:也可以 匿名 留言!

經典熱門文章