【編者按】
在企業(yè)上云成主流趨勢的今天,上云的風險備受關(guān)注,云服務器若宕機一分鐘都會給企業(yè)的業(yè)務帶來不可估量的損失。前段時間,微軟Azure圣安東尼奧數(shù)據(jù)中心被雷擊中,引發(fā)故障,系統(tǒng)中斷超過24小時。再一次證明,跨AZ(Availability Zones:可用區(qū))高可用,建立容災備份機制,是每個企業(yè)上云所要關(guān)注的重點之一。
微軟Azure被雷擊 服務中斷超24小時據(jù)媒體報道,2018年9月4日,微軟在美國中南部地區(qū)的圣安東尼奧數(shù)據(jù)中心由于雷電天氣影響導致電壓激增,數(shù)據(jù)中心的冷卻系統(tǒng)發(fā)生故障。為保證數(shù)據(jù)和硬件完整性,數(shù)據(jù)中心的自動化措施強制關(guān)閉了系統(tǒng)電源以防止機器因過熱造成損壞。
這一事故引發(fā)了 Azure 中斷,Office 365 以及 Azure Active Directory 服務都受到影響,并且恢復相關(guān)存儲服務經(jīng)歷了很長時間。
故障從9月4日上午 9 點(北京時間 9 月 4 日 17:00)左右開始出現(xiàn)問題,到9月5日 13點左右(北京時間9月5日21:00左右),微軟大多數(shù)受影響服務的存儲可用性已經(jīng)恢復,整個故障中斷時間超過 24 小時。
雖然Azure Support 將事故稱為“網(wǎng)絡問題”,并表示中斷只會影響美國中南部的客戶,但是很多用戶表示中斷已經(jīng)影響了包括西歐、亞洲在內(nèi)的其他地區(qū)。
Azure Support 在對用戶的回復中澄清了為什么其他地區(qū)會受到影響:“在某種程度上,我們所有的數(shù)據(jù)中心都是相互聯(lián)系的。因此,如果一個數(shù)據(jù)中心出現(xiàn)故障,它將轉(zhuǎn)移到其他數(shù)據(jù)中心。此外,在歐洲的客戶可能會在受影響的數(shù)據(jù)中心托管一些資源?!?/p>
包括 Office 365 和 VSTS (Visual Studio Team Services)在內(nèi)的近 40 個 Azure 服務受到影響。
9月5日,Azure 狀態(tài)更新中表示,工程師正在優(yōu)先恢復存儲資源,以便恢復依賴于這些受影響資源的所有服務,但是恢復過程需要一段時間。到北京時間9月5 日晚 9 點左右,大多數(shù)受影響的服務已經(jīng)恢復。
到底應該怎么上云?
此次 Azure 服務中斷時間長,影響較大,又引發(fā)了大家對上云風險的討論。討論中出現(xiàn)了這樣的疑惑:區(qū)域性中斷應該不會拖垮那么多服務,地理冗余在哪里?
雖然很多細節(jié)都圍繞在具體是哪里的冷卻系統(tǒng)發(fā)生了故障,但Azure的這次服務中斷也讓大家認識到AZ(可用區(qū))的重要性。AZ能讓使用云服務的用戶在給定云計算區(qū)域內(nèi)的幾個獨立建筑周圍分散工作量,以期避免單個數(shù)據(jù)中心會帶來的問題。
上云必須要防止這些基礎設施問題,即使 99%的SLA(等級服務協(xié)議)也意味著一年 365 天大約可以有 4 天不在線。所以很多公司會提到 99.9% 和 99.99%。當以年為單位來看,小數(shù)點后面的位數(shù)也不可小覷。
公有云提供的高度冗余意味著公司需要在全國各地擁有為站點提供服務并充當備份的數(shù)據(jù)中心。公有云應當建立自己的容災備份機制,那么,作為公有云的落地實踐,行業(yè)云又該如何保證跨區(qū)高可用,為企業(yè)提供穩(wěn)定可靠的服務呢?
呼叫中心云服務如何跨可用區(qū)呼叫中心云服務,是云計算在呼叫中心行業(yè)的應用與實踐。作為呼叫中心云服務的引領者,巨人網(wǎng)絡通訊呼叫中心云服務以“雙活分區(qū)”“雙云互備”的模式來保證系統(tǒng)跨區(qū)高可用。
把系統(tǒng)同時部署在云服務商的A區(qū)和B區(qū),并且在AB區(qū)設有多個機房,任何一個機房出現(xiàn)問題,對云服務的正常運營是沒有影響的。而我們選擇云服務商的前提是,所提供的組件本身就是跨AZ高可用的。因為只有云廠商為你提供的基礎資源高可用,才能讓業(yè)務的跨AZ變得簡單。
只在一個云上做雙活分區(qū)還不夠!巨人網(wǎng)絡通訊采用兩個云廠商,以雙云互備的形式為高可用再加一層防護網(wǎng),可以為客戶在不同的云平臺開通獨立賬號,同時使用。雙云互相切換的時間控制在1分鐘以內(nèi),并保證云服務商和我們的核心機房之間是兩條專線直連,如果遇到其中任何一條被挖掘機挖掉的情況,業(yè)務可以自動切換到另一條,也就是我們常說的“物理雙鏈路、設備雙冗余”。
通過雙活分區(qū)、雙云互備的模式,即便是出現(xiàn)自然災害或人為失誤的極端情況,也能保證客戶系統(tǒng)正常使用。
(文章轉(zhuǎn)載于天潤融通)