一份令人警醒的網絡重大故障報告
2018年12月6日,對于日本運營商軟銀,簡直是噩夢般的一天。
下午13點39分,軟銀東日本和西日本兩大中心機房的18臺4G核心網網元突發故障,造成全網大量用戶無法正常通信。
軟銀被這突如其來的大故障驚呆了,從CTO到工程師,上上下下忙成一團,整整花了近兩個小時才定位出故障原因,直到下午18點04分才恢復故障。
本次故障歷時4小時25分,共計造成約3060萬軟銀用戶無法正常通信,是日本通信史上一次罕見的重大通信事故。
事故發生后,軟銀高層向用戶公開道歉,并承諾以后將加強設備備份管理,嚴防事故再次發生。
由于故障發生在白天,影響范圍廣,對軟銀造成了極大的負面影響,股票大跌,5天內超過1萬戶用戶解約。
估計連日本總務省也驚呆了,直到20天后,也就是今天,才官方公布確認“收到軟銀提交的嚴重事故報告”。
以下內容來自軟銀的故障報告。
概要
發生時間:
2018年12月6日 13:39至18:04(4小時25分鐘)
影響內容:
4G LTE移動電話無法進行語音通話和數據通信。
部分LTE 固話和家庭Wi-Fi無法正常使用
由于4G網絡故障,導致3G網絡擁塞
影響范圍:
全國(約3060萬線用戶)
故障原因:
4G核心網設備(MME)軟件缺陷導致。
故障原因分析
故障具體原因為核心網網元MME(移動管理實體),即4G分組交換設備的數字證書(TSL證書)過期導致。
TLS(Transport Layer Security,傳輸層安全)是為網絡通信提供安全及數據完整性的一種安全協議。
軟銀解釋到,他們在東日本和西日本兩大中心機房合計部署了18臺分組交換設備,這些設備都是按照遠期需求配置,有足夠的負荷冗余量,目前僅使用了30%~40%的負荷。
同時,18臺設備相互備份,且均為池化部署,這意味著即使任何一臺甚至多臺設備發生故障都不會影響服務正常提供。
但是,數字證書過期這種事就不一樣了。
TSL數字證書過期,意味著系統無法識別那些連接分組交換設備的其他設備是否合法,此時,系統檢測到異常,根據軟銀現網設置,會采用重啟的方式來試圖恢復。
不過,數字證書過期這種事,即使重啟N次,也是無法恢復的,因此,就發生了不斷重啟的死循環,從而導致了這次重大故障。
此外,由于4G網絡服務中斷,導致大量用戶轉移到3G網絡,這也造成3G網絡嚴重擁塞。
請輸入評論內容...
請輸入評論/評論長度6~500個字
圖片新聞


分享













