鳳凰網科技訊 北京時間10月21日,美國當?shù)貢r間周一,亞馬遜AWS云服務發(fā)生重大故障,引發(fā)全球混亂,導致一些熱門在線服務無法使用,航班延誤,銀行癱瘓。這究竟是怎么回事呢?
罪魁禍首
亞馬遜AWS提供了工具和計算資源,使得約三分之一的互聯(lián)網得以運作。它提供存儲空間和數(shù)據(jù)庫管理,使得企業(yè)無需維護自己昂貴的基礎設施,同時還能將用戶流量導向這些平臺。
AWS的服務銷售方式可以概括為:“讓我們替你管理企業(yè)的計算需求?!?/p>
但是在周一,一個十分普通的技術環(huán)節(jié)出了大問題:域名系統(tǒng)(DNS)錯誤,這是一種常見故障。
科技行業(yè)人聽到這個情況可能會見怪不怪。這種常見錯誤也能引發(fā)巨大混亂。
“永遠都是DNS的問題!”這是業(yè)內常說的一句話。
影響的服務
當有人點擊應用或鏈接時,他們的設備基本上會發(fā)送一個請求,要求連接到該服務。DNS本應發(fā)揮地圖的作用,而AWS在周一卻迷失了方向。Snapchat、Canva和英國稅務海關總署等平臺仍然在那里,但它看不到它們的位置,無法將流量引導給它們。
故障原因
這些故障的發(fā)生原因多種多樣。通常是維護問題或服務器故障。有時則是人為失誤,比如某處的配置出錯,極端情況下也可能是網絡攻擊,盡管目前尚無證據(jù)表明此次事件源于攻擊。
亞馬遜AWS表示,故障發(fā)生在該公司位于弗吉尼亞州北部的龐大數(shù)據(jù)中心區(qū)域US-EAST-1,這是其運營歷史最久、規(guī)模最大的數(shù)據(jù)中心集群。
US-EAST-1是AWS最繁忙的數(shù)據(jù)中心之一,許多全球性的應用程序和網站都托管于此。問題的核心在于 “DynamoDB API的DNS解析”,這意味著系統(tǒng)無法正確找到名為 DynamoDB的關鍵數(shù)據(jù)庫服務的網絡地址。解析失敗會導致依賴該數(shù)據(jù)庫的應用程序無法訪問數(shù)據(jù),從而引發(fā)連鎖反應,造成服務中斷或出現(xiàn)嚴重錯誤。這也解釋了為何即使底層服務器可能仍在正常運行,用戶卻無法訪問相關服務。
DNS
當DNS解析中斷時,無論網站或服務的后端基礎設施多么強大,用戶的瀏覽器都無法定位到所需內容。這使得DNS成為網絡架構中一個至關重要但極其敏感的環(huán)節(jié)。任何對DNS的干擾都可能導致大規(guī)模網絡癱瘓,影響范圍從單個網站到整個地區(qū)的互聯(lián)網服務。亞馬遜目前正在全力修復這一根本問題,但部分服務在問題解決后仍可能存在“重大錯誤”,需要時間恢復正常。
這也是過去五年中,亞馬遜US-EAST-1數(shù)據(jù)中心區(qū)域至少第三次引發(fā)大規(guī)?;ヂ?lián)網癱瘓。亞馬遜并未解釋為何該數(shù)據(jù)中心屢次出問題。
依賴一家公司
眾多專家一致指出,周一的事件恰如其分地說明了將業(yè)務完全依賴單一服務提供商的風險。AWS作為行業(yè)巨頭,承載著數(shù)百萬企業(yè)的運營命脈。專家們的觀點固然正確,但問題在于,能達到AWS同等規(guī)模的服務商實在寥寥無幾。
專家和學者表示,這一問題凸顯了日常數(shù)字服務的高度互聯(lián)性,以及它們對少數(shù)全球云服務提供商的依賴。一次小小的故障就可能對商業(yè)運營和日常生活造成巨大沖擊。
“這次中斷再次凸顯了我們對相對脆弱的基礎設施的依賴?!睔W洲網絡安全公司ESET全球網絡安全顧問杰克·摩爾(Jake Moore)表示。
在英國,根據(jù)宕機追蹤公司Downdetector英國網站的數(shù)據(jù),勞埃德銀行、蘇格蘭銀行,以及電信服務提供商沃達豐和英國電信均受到影響,英國稅務海關總署的網站也未能幸免。
“這個問題的主要原因在于,所有這些大公司都依賴著同一家服務提供商。”薩里大學計算機科學系研究主任尼?!に_斯特里(Nishanth Sastry)表示。
擁有Downdetector的Ookla公司表示,此次事件導致超過400萬用戶報告了服務問題。
保險經紀公司McGill and Partners的美國網絡業(yè)務負責人瑞安·格里芬(Ryan Griffin)表示:“對大型企業(yè)而言,數(shù)小時的云服務中斷就意味著數(shù)百萬美元的生產力和收入損失?!?/p>
然而,華爾街對此反應平淡,亞馬遜股價不降反升,上漲1.6%至216.48美元。(作者/簫雨)
上一篇:英媒評亞馬遜云服務故障:99.9%可靠性仍不夠,單一依賴風險高
下一篇:沒有了