2021年十月四日,Facebook跟所屬的服務,例如Instagram等,意外發生長時間停止服務。查詢 Wikipedia,我確認這一次的Facebook斷線,持續了七個小時。目前看得到的報導,都是說因為網路設定出錯,所導致。不過,根據我觀察過的案例,我認為,「網路設定出錯」,只是一個藉口。
如果這一次的事件發生,只跟「網路設定」有關,網路硬體其實只需要回朔到前一個版本的設定,即使在最差的狀況下,頂多硬體也必須重開機。花不了一個小時的時間,一定可以回到前一個可以用的狀態。
因此,斷線時間如果只有一兩個小時,有可能真的只是純網路設定問題。但是持續時間如此的長,我真的不太相信。
當發現BGP協定的設定出錯,只要斷線持續超過20分鐘,回朔到前一個版本的設定,一定是必然的決策。如果好多路由器一起回朔設定、重新啟動,那也只是頂多再加上一個小時左右的時間而已。
更何況,我不認為Facebook的網路工程師,會是如此的差勁。因為錯誤的設定,讓整個Facebook 完全跟世界斷開來。我認為設定上的錯誤,頂多只會弄壞部分的服務狀態,而不是讓整個Facebook都離線。
Cloudflare的描述我認為是可以相信,而且是客觀的準確描述。Cloudflare只是服務Facebook的外部廠商。同時,BGP的活動紀錄,是我們外部世界、相鄰網路業者,所能夠唯一觀察到的Facebook表面活動。
綜合我目前觀察到的,Cloudflare加上Facebook官方的公告,我個人提出的假想理論是:
- Facebook 遇上了未公開的、不得已的緊急狀態。
- Facebook「故意」刪除掉全部DNS伺服器所在網段的BGP路由表,讓全世界用戶端軟硬體,都無法解析到 Facebook.com。等到DNS解析紀錄完全過期之後,沒有任何用戶可以解析到Facebook.com的IP地址,等於拒絕全世界用戶端的請求。
- 接下來,Facebook 「故意」刪除掉所有的BGP路由表,讓整個Facebook對外服務的網路,徹底跟全世界斷開來。
- 經過數個小時的處理後,Facebook慢慢送出正確的BGP路由表。恢復正常服務狀態。
One more thing…
除非Facebook未來願意公開資訊,我這個「陰謀論」很難驗證。我只是要強調我的重點:如果只是單純網路設定的錯誤,斷線時間如果遠遠超過兩個小時,是很不符合經驗上所能觀察到的案例通則的。
歡迎大家留言告訴我,您的看法!
巴克禮紀念公園 台南市 |
作者已經移除這則留言。
回覆刪除