大數(shù)據(jù)創(chuàng)新普惠 釋放數(shù)據(jù)價值
- 來源:軟件和集成電路 smarty:if $article.tag?>
- 關(guān)鍵字:數(shù)據(jù),互通融合,大數(shù)據(jù) smarty:/if?>
- 發(fā)布時間:2020-10-28 19:03
隨著5G等新技術(shù)發(fā)展,數(shù)據(jù)規(guī)模、來源、業(yè)務(wù)場景快速變化,華為云通過存算分離,提供極致算力和多元框架,駕馭海量數(shù)據(jù),打造融合、開放的云化數(shù)據(jù)運營平臺,釋放數(shù)據(jù)之美。
—華為云AI解決方案營銷總監(jiān)李卓
在過去的30年里,我們已經(jīng)從PC時代邁向了智能數(shù)據(jù)時代,智能數(shù)據(jù)時代的特點可以用四個字表達(dá):“大”“雜”“快”“合”。
“大”指的是數(shù)據(jù)量之大。在過去幾十年的時間里,數(shù)據(jù)基本上是以一年十倍、十年千倍的速度在增長,從30年前的GB級到現(xiàn)在的ZB級,未來數(shù)據(jù)量必定還會達(dá)到更高的數(shù)量級。
“雜”指的是數(shù)據(jù)種類之雜。從過去的結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù),再到流數(shù)據(jù),數(shù)據(jù)類型越來越多樣,我們需要開發(fā)出更多的組件來進(jìn)行不同類型數(shù)據(jù)的融合分析。
“快”指的是數(shù)據(jù)處理速度之快。我們原來的處理模式方式往往是“T+N”或者“T+1”,而現(xiàn)在通過工業(yè)互聯(lián)網(wǎng)、IoT技術(shù),我們可以實現(xiàn)實時場景下的數(shù)據(jù)分析處理。
“合”指的是數(shù)據(jù)的互通融合。過去,數(shù)據(jù)處理方式往往是孤島式的存儲、孤島式的分析,然后再整合起來,由人做綜合判斷。未來,人在數(shù)據(jù)處理過程中起到的作用會越來越少,數(shù)據(jù)的融合互通是必然趨勢。
華為云為大數(shù)據(jù)應(yīng)用提供了非常豐富的全場景底座、極致算力和多元框架。針對數(shù)據(jù)存儲環(huán)節(jié),華為云采用了混合存儲的存儲格式,建立了存算分離的架構(gòu),同時,我們充分利用鯤鵬AIM架構(gòu),實現(xiàn)了底層算力的提升。多元計算主要包括兩個核心器件,一個是一站式的大數(shù)據(jù)平臺;另一個是互通互聯(lián)的線上和線下的數(shù)據(jù)倉儲,借此我們嘗試了數(shù)據(jù)湖倉一體,實現(xiàn)了融合的數(shù)據(jù)分析。
在AI大發(fā)展的趨勢下,我們嘗試將大數(shù)據(jù)與AI深度融合。我們引進(jìn)了自動調(diào)倉的技術(shù),在進(jìn)行流數(shù)據(jù)處理的時候,用機(jī)器學(xué)習(xí)的方式提升效率。就我們目前的測試結(jié)果來看,用機(jī)器學(xué)習(xí)的方式調(diào)倉的效果跟專家調(diào)倉的效果基本上持平,效率可提升3~5倍。
下面,我將從數(shù)據(jù)存儲、大數(shù)據(jù)、數(shù)倉和數(shù)據(jù)運營四個角度來進(jìn)一步介紹數(shù)據(jù)治理方案。
對于海量數(shù)據(jù)存儲來說性能的核心要求是快,因此我們利用閃存技術(shù)來提升存儲速度。關(guān)于數(shù)據(jù)存儲的成本,我們采用軟硬結(jié)合的方式來實現(xiàn)降本增效。硬件上,我們采用高密度的專用硬件;軟件上,我們重點優(yōu)化了重刪壓縮和糾刪碼技術(shù),并通過自動規(guī)劃的方式減少前期投入。在數(shù)據(jù)存儲的可靠性方面,我們利用AI技術(shù)進(jìn)行自動故障分析和趨勢分析,實現(xiàn)主動防御。
我們再來看一下大數(shù)據(jù)。大數(shù)據(jù)特點有三個。第一是大集群;第二是多樣性,不僅數(shù)據(jù)類型多樣,數(shù)據(jù)分布、數(shù)據(jù)計算的模式也會越來越多樣,例如批處理、流處理、實時檢索、交互分析等;第三是高速,在金融風(fēng)控、工業(yè)互聯(lián)網(wǎng)、遙感、氣象預(yù)報等場景中,對數(shù)據(jù)進(jìn)行實時動態(tài)分析至關(guān)重要。
大數(shù)據(jù)集群的需求主要包含三個方面。第一個是存儲,存儲必須是高效存儲,如果不是高效存儲,大量數(shù)據(jù)會被淹沒;第二個是多數(shù)據(jù)融合,把割裂的數(shù)據(jù)融合到一個數(shù)據(jù)倉庫或數(shù)據(jù)湖中;第三個是跨部門、跨業(yè)務(wù)的數(shù)據(jù)融合分析、業(yè)務(wù)創(chuàng)新,智能化的數(shù)據(jù)分析和業(yè)務(wù)創(chuàng)新是未來的發(fā)展趨勢。
針對上述的需求,華為云給出了以下解決方案。華為自研Superior超級調(diào)度器,將調(diào)度效率提升20+倍;跨機(jī)房部署,實現(xiàn)業(yè)務(wù)自動感知;軟件版本滾動升級,業(yè)務(wù)中斷時間由10小時降低到0小時。
我們下面談一談前面提到過的湖倉一體模式,我們通過HetuEngine進(jìn)行交互式查詢,并與批處理融合,實現(xiàn)了數(shù)據(jù)“0”搬遷。另外,我們還通過YARN進(jìn)行統(tǒng)一調(diào)度,支持多租戶、多部門業(yè)務(wù)任務(wù)并行處理。
要駕馭快速增長的海量數(shù)據(jù),傳統(tǒng)數(shù)據(jù)倉庫面臨四大挑戰(zhàn)。第一個是擴(kuò)展性上的挑戰(zhàn),傳統(tǒng)數(shù)倉是PB級的倉儲容量,未來能不能實現(xiàn)ZB級的突破是一項很大的挑戰(zhàn),為此,華為正嘗試實現(xiàn)按需一鍵式擴(kuò)展;第二個是實時性上的挑戰(zhàn),數(shù)倉對實時性要求很高,要求即時查詢、秒級分析、百DB數(shù)據(jù)按天實時入庫;第三個是可用性上的挑戰(zhàn),我們希望做到硬件故障、升級擴(kuò)容時業(yè)務(wù)可用不中斷;第四個是易用性上的挑戰(zhàn),我們希望針對集群狀態(tài)、性能、監(jiān)控等,能夠做到實時的、自動的運維。
最后,我們來看一下數(shù)據(jù)運營。目前,企業(yè)數(shù)據(jù)管理和應(yīng)用面臨三大鴻溝:數(shù)據(jù)孤島、數(shù)據(jù)沉睡和數(shù)據(jù)安全。為了跨越這些鴻溝,我們需要建立融合、開放的云化數(shù)據(jù)運營平臺。華為的數(shù)據(jù)運營平臺的整體框架可以分為左右兩側(cè),左側(cè)是華為提供的高階數(shù)據(jù)服務(wù),右側(cè)是合作伙伴提供的數(shù)據(jù)治理平臺,這是一個非常開放的架構(gòu)。
我們希望通過數(shù)據(jù)治理構(gòu)建全域數(shù)據(jù)的統(tǒng)一數(shù)據(jù)目錄、資產(chǎn)地圖,進(jìn)而做到數(shù)據(jù)血緣管理、上下游數(shù)據(jù)深度關(guān)聯(lián),把云服務(wù)的底層技術(shù)打通。目前華為云的智能數(shù)據(jù)湖FusionInsight服務(wù)了60多個國家、3000多個客戶,并在政府、金融、電信運營、互聯(lián)網(wǎng)等領(lǐng)域大放異彩。FusionInsight在全球累計交付30萬+節(jié)點,最大單集群商用案例1萬+,數(shù)據(jù)量超500PB。我們期望華為的大數(shù)據(jù)平臺能夠成為千行百業(yè)的底座,更好地服務(wù)大數(shù)據(jù)行業(yè)。
?。ǜ鶕?jù)演講內(nèi)容整理,未經(jīng)本人審核)
