云網(wǎng)絡(luò)時代 網(wǎng)絡(luò)故障管理何去何從
- 來源:中國信息化周報 smarty:if $article.tag?>
- 關(guān)鍵字:網(wǎng)絡(luò)故障管理,云計算,SDN技術(shù),數(shù)據(jù)中心 smarty:/if?>
- 發(fā)布時間:2016-07-26 11:26
檢測、發(fā)現(xiàn)和糾正網(wǎng)絡(luò)故障從來都不是件容易的事情。過去的時代是由客戶端服務(wù)器“統(tǒng)治”,應(yīng)用運行在指定的服務(wù)器上,用戶通過以太網(wǎng)、WAN鏈路或其他服務(wù)連接,彼時的網(wǎng)絡(luò)故障管理已經(jīng)比較麻煩了,而現(xiàn)在大型數(shù)據(jù)中心和云網(wǎng)絡(luò)讓網(wǎng)絡(luò)故障管理更具挑戰(zhàn)性。
雖然技術(shù)在變化,但最終的結(jié)果才是最重要的。這里的問題是:用戶是否接受所需的服務(wù)質(zhì)量?答案取決于應(yīng)用和網(wǎng)絡(luò)性能?,F(xiàn)在的應(yīng)用通常在公有云、私有云或混合云上運行,應(yīng)用則作為負(fù)載在服務(wù)器之間遷移。服務(wù)器和數(shù)據(jù)存儲之間的吞吐量取決于其他應(yīng)用放在共享鏈路的負(fù)載。而網(wǎng)絡(luò)性能取決于連接用戶到應(yīng)用的網(wǎng)絡(luò)的類型和容量。本地用戶通過以太網(wǎng)或無線網(wǎng)絡(luò)連接,遠(yuǎn)程用戶則通過各種WAN技術(shù)連接,包括公共互聯(lián)網(wǎng)或蜂窩網(wǎng)絡(luò)等。每種連接都需要專門的方法來維持所需的性能。任何這些位置(應(yīng)用或網(wǎng)絡(luò))的故障都可能降低客戶的滿意度。
云故障檢測
很多拓?fù)浣Y(jié)構(gòu)和設(shè)計(其中包括虛擬化服務(wù)器、多個虛擬局域網(wǎng)和覆蓋網(wǎng)絡(luò))讓云故障檢測和網(wǎng)絡(luò)故障管理變得更加復(fù)雜。一個租戶的應(yīng)用出現(xiàn)性能問題可能與影響另一個租戶的問題并沒有什么實際關(guān)聯(lián),但它們可能來自于同一來源。每個租戶的應(yīng)用可能在相同超載或配置錯誤的服務(wù)器上執(zhí)行,又或者兩個租戶的覆蓋網(wǎng)絡(luò)通過相同超載或故障路由來鏈接。
海量的服務(wù)器、網(wǎng)絡(luò)組件和鏈接是故障的一大來源?,F(xiàn)代硬件極為可靠,但對于數(shù)千獨立的設(shè)備來說,依舊會有硬件故障發(fā)生。
配置錯誤是另一個問題來源,該問題可由網(wǎng)絡(luò)故障管理進(jìn)行跟蹤。服務(wù)器和網(wǎng)絡(luò)設(shè)備不斷添加、升級或更新。大型的云計算通常包括來自不同供應(yīng)商的組件,甚至來自同一供應(yīng)商的相同組件也可能運行著不同的軟件版本。在這種環(huán)境中,任何變更都可能導(dǎo)致錯誤的出現(xiàn),同時,對一個組件的改變還可能影響到其他組件。
簡單的檢測和報告錯誤已經(jīng)不足以說明問題,每個錯誤都可能導(dǎo)致幾十份錯誤報告。鏈路故障會在鏈路兩端的交換機(jī)生成硬件故障指示,并且每次鏈路故障和恢復(fù)時都會發(fā)出新報告。2層和3層網(wǎng)絡(luò)協(xié)議路由會改變,在備用路由流量水平接近最大數(shù)值時鏈路流量監(jiān)控也會變化。同時,應(yīng)用性能監(jiān)控器會從通過該鏈路路由流量的每個應(yīng)用報告問題。
故障相關(guān)性及其在網(wǎng)絡(luò)中的作用
沒有哪個網(wǎng)絡(luò)管理員能夠整理完單一故障生成的海量報告,并快速發(fā)現(xiàn)其根本原因。對此,故障相關(guān)性軟件很重要,這是每個主流系統(tǒng)供應(yīng)商網(wǎng)絡(luò)管理產(chǎn)品的重要組成部分。
故障相關(guān)性產(chǎn)品利用各種機(jī)制來發(fā)現(xiàn)問題,其中包括SNMP trap、TL1消息、應(yīng)用日志和SYSLOG條目。SNMP和特定產(chǎn)品輪詢監(jiān)控器運行在服務(wù)器、交換機(jī)和鏈路。相關(guān)性工具還可監(jiān)控設(shè)備問題、電源電壓和磁盤可用空間來預(yù)測未來的問題。
網(wǎng)絡(luò)故障管理軟件必須提供對網(wǎng)絡(luò)準(zhǔn)確的且最新的視圖。該軟件必須保持持續(xù)更新(無論是通過手動或者通過網(wǎng)絡(luò)映射),以追蹤添加的、移除的或更新的組件。它必須維護(hù)每種組件的內(nèi)部型號,介紹其配置和功能,并包含網(wǎng)絡(luò)運營政策的描述。當(dāng)添加應(yīng)用時,還必須更新服務(wù)水平協(xié)議(SLA)等信息。
此外,故障相關(guān)性軟件必須與云編排軟件交互,追蹤正在運行的應(yīng)用、它們在哪些服務(wù)器上運行,以及與每個租戶相關(guān)的覆蓋網(wǎng)絡(luò)。網(wǎng)絡(luò)故障管理軟件還必須不斷根據(jù)SLAN監(jiān)控應(yīng)用性能水平。
當(dāng)出現(xiàn)問題時,相關(guān)性軟件會獲取所有接收到的故障指示,并利用有關(guān)的網(wǎng)絡(luò)拓?fù)湟约霸诠收铣霈F(xiàn)前數(shù)據(jù)如何移動的信息來確定根本原因,并為網(wǎng)絡(luò)管理人員提供簡要的報告。
SDN網(wǎng)絡(luò)
云計算與SDN技術(shù)管理的數(shù)據(jù)中心面臨著與依靠傳統(tǒng)技術(shù)的數(shù)據(jù)中心相同的潛在問題。它們都需要故障相關(guān)性軟件,但SDN架構(gòu)需要將相關(guān)性軟件內(nèi)置到網(wǎng)絡(luò)控制器或與其緊密連接。
這種差異的原因是Spanning Tree和Open Shortest Path First等傳統(tǒng)協(xié)議在網(wǎng)絡(luò)設(shè)備內(nèi)部部署。它們在鏈路或端口問題阻止流量時根據(jù)需要重新計算路由流量。通過SDN,所有路由都由控制器來確定,故障相關(guān)性軟件必須告知控制器問題的類型,以便它能夠確定備用路由。
OpenFlow兼容的白盒交換機(jī)支持各種供應(yīng)商的操作系統(tǒng),每個都有自己的檢測和故障報告方法。Big Switch和Pica8的操作系統(tǒng)都支持SNMP,但Big Switch的控制器和交換機(jī)操作系統(tǒng)利用OpenFlow消息來與設(shè)備進(jìn)行通信。相關(guān)性軟件通過接口與控制器通信,從設(shè)備處接收消息,并輪詢其狀態(tài)。
無線網(wǎng)絡(luò)和廣域網(wǎng)
Wi-Fi依靠一組專門的工具來診斷問題。Wi-Fi連接可受到很多問題的影響,例如信號干擾、墻壁或阻止信號的固態(tài)物體,以及安全漏洞。現(xiàn)在有各種故障排除產(chǎn)品,包括免費軟件和專業(yè)的軟件產(chǎn)品。還需要專門的硬件產(chǎn)品來診斷某些類型的問題。
在網(wǎng)絡(luò)服務(wù)提供商擁有和管理的WAN連接的情況下,關(guān)鍵參數(shù)是吞吐量和往返時間,這方面也有免費和專業(yè)產(chǎn)品可供選擇。
滿足最終用戶性能要求需要應(yīng)用性能的各方面都正常運行。在出現(xiàn)問題時,網(wǎng)絡(luò)故障管理和故障檢測產(chǎn)品必須能夠查明原因,使它們可快速被修復(fù)以及恢復(fù)正常運作。
相關(guān)鏈接
2016年上半年云計算事件回顧
■六月事件回顧:
6月京東迎來6·18狂歡節(jié),其中最為矚目的是“京東3C消費趨勢”的嶄新概念。通過匯集整理過往企業(yè)采購商品信息,篩選出那些性價比高、受客戶歡迎的產(chǎn)品進(jìn)入產(chǎn)品池,結(jié)合“智采”、“慧采”、“云采”三大采購平臺,從而進(jìn)一步幫助企業(yè)用戶提高采購效率。
■五月事件回顧:
5月中國大數(shù)據(jù)產(chǎn)業(yè)峰會暨中國電子商務(wù)創(chuàng)新發(fā)展峰會吸引眾人的目光。
■四月事件回顧:
4月對于互聯(lián)網(wǎng)圈和娛樂圈都是一個重要的日子?!段沂歉枋帧吩谄哌M(jìn)六幫幫唱環(huán)節(jié),阿里云人工智能程序小Ai準(zhǔn)確預(yù)測出容祖兒被淘汰。在六進(jìn)三兩兩演唱PK環(huán)節(jié),阿里云人工智能程序小Ai完全準(zhǔn)確地預(yù)測出了獲勝者張信哲、黃致列、李玟。在最終歌王爭霸環(huán)節(jié),小Ai以42%的勝率一舉命中總決賽歌王李玟,在三輪比賽中完全預(yù)測準(zhǔn)確。阿里云借此推出人工智能小Ai,賺足眼球。
■三月事件回顧:
3月,樂視云宣布完成A輪融資,樂視云問鼎全球云計算產(chǎn)業(yè)中首輪融資金額及估值最大的公司。樂視控股集團(tuán)創(chuàng)始人、董事長、CEO賈躍亭也表示,云生態(tài)是樂視生態(tài)未來三年的戰(zhàn)略重點之一,是樂視生態(tài)孵化的第四個獨角獸。
■二月事件回顧:
2月,微軟宣布正式對外開放Azure Container服務(wù),引起行業(yè)人士紛紛駐足,尤其是專業(yè)提供容器服務(wù)的提供商,容器服務(wù)已經(jīng)成為云服務(wù)市場一枚極具意義的戰(zhàn)略性棋子,這也注定容器云市場在未來將迎來一場惡戰(zhàn)。
■一月事件回顧:
1月,阿里云云棲大會在上海召開,繼去年10月杭州云棲大會之后,云棲大會已經(jīng)創(chuàng)下了品牌。受到來自世界各地IT人士的矚目,阿里也在云棲大會上對互聯(lián)網(wǎng)、計算與數(shù)據(jù)的理解與未來趨勢進(jìn)行預(yù)判,并且強(qiáng)調(diào)當(dāng)下與未來,數(shù)據(jù)正在或?qū)⒁獮檎麄€社會進(jìn)步帶來巨大價值,引起業(yè)界共鳴。
■David Jacob
