如果您喜歡這裡的內容,記得分享到您的Facebook和Twitter上面所有的朋友們吧!

2010年8月30日 星期一

上星期五很多Internet BGP路由器間相鄰關係斷斷續續, 持續近半小時

當BGP路由器之間的相鄰關係(neighboring)斷掉重新啟動時, 在恢復相鄰關係前, 網路服務會受嚴重影響. Internet上的BGP路由器間如果發生這種狀況, 使用者會有好幾分鐘感覺網路斷線.

上星期五這種狀況就很嚴重地發生過一回.(August 27, 2010, from 08:41 to 09:08 UTC)

事故從台灣時間下午四點四十一分(August 27 08:41 UTC) 起開始. 當時 RIPE 正在做一項實驗, 透過 BGP 協定送出一筆路由資訊,包含一項實驗用的屬性 (Experimental Attribute). 然而, Cisco IOS XR 上的一個軟體錯誤 (bug), 會損壞該屬性資料, 而且將壞掉的屬性資料繼續向其他的鄰居送出. 不幸地, 當其他鄰居收到由 Cisco IOS XR 平台路由器所送出的這個壞掉的錯誤屬性, 按照 BGP 的安全性設計, 會自動將和 IOS XR 間的相鄰關係切斷重新啟動. 導致一連串的斷線同時發生!

(這現象有點像喜劇電影中所提到的 "隔山打牛": 被直接打到的(有 Bug 的)沒事, 反而是後面的鄰居受傷!)

因為太多 Internet BGP 路由器是 Cisco IOS XR 平台 (例如 GSR 或是 CRS 系列的大傢伙), 事件發生後馬上造成世界各地的大規模斷線, 問題一直持續到大約台灣時間下午五點八分以後(09:08 UTC) RIPE 停止送出該實驗用的屬性為止.

需要注意的是, 這個 Bug 所有的 IOS XR 軟體都有, 所以都需要盡快完成補強版升級, 即使本次的事件中沒有受到影響!

Related Links
---
如果您喜歡這篇文章,不考慮試試Email訂閱嗎?


Related Posts with Thumbnails

0 意見:

張貼留言

小技巧:也可以 匿名 留言!

經典熱門文章