大數(shù)據(jù)流式計(jì)算應(yīng)用的種種
- 來(lái)源:中國(guó)信息化周報(bào) smarty:if $article.tag?>
- 關(guān)鍵字:大數(shù)據(jù),金融,物聯(lián)網(wǎng) smarty:/if?>
- 發(fā)布時(shí)間:2015-10-09 16:56
目前,大數(shù)據(jù)計(jì)算主要有批量計(jì)算和流式計(jì)算兩種形態(tài),業(yè)界關(guān)于大數(shù)據(jù)批量計(jì)算系統(tǒng)的研究和討論相對(duì)充分,而流式計(jì)算還處在積極探索的過(guò)程中。大數(shù)據(jù)流式計(jì)算目前主要用于對(duì)動(dòng)態(tài)產(chǎn)生的數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算并及時(shí)反饋結(jié)果,但往往不要求結(jié)果絕對(duì)精確的應(yīng)用場(chǎng)景,在數(shù)據(jù)的有效時(shí)間內(nèi)獲取其價(jià)值,是大數(shù)據(jù)流式計(jì)算系統(tǒng)的首要設(shè)計(jì)目標(biāo)。因此,流式計(jì)算通常是當(dāng)數(shù)據(jù)到來(lái)后立即對(duì)其進(jìn)行計(jì)算,而不再采取緩存等待后續(xù)全部數(shù)據(jù)到來(lái)后的方式再進(jìn)行計(jì)算。
金融類流式計(jì)算
大數(shù)據(jù)流式計(jì)算會(huì)根據(jù)數(shù)據(jù)產(chǎn)生的規(guī)模與方式的不同分別應(yīng)用于金融、互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)中。眾所周知,在金融銀行領(lǐng)域的日常運(yùn)營(yíng)中,通常會(huì)產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)的時(shí)效性往往較短,因此,金融銀行領(lǐng)域是大數(shù)據(jù)流式計(jì)算最典型的應(yīng)用場(chǎng)景之一,也是大數(shù)據(jù)流式計(jì)算最早的應(yīng)用領(lǐng)域。在金融銀行系統(tǒng)內(nèi)部,每時(shí)每刻都有大量的、往往是結(jié)構(gòu)化的數(shù)據(jù)在各個(gè)系統(tǒng)間流動(dòng),并需要實(shí)時(shí)計(jì)算;同時(shí),金融銀行系統(tǒng)與其他系統(tǒng)也有頻繁的數(shù)據(jù)溝通,這些數(shù)據(jù)不僅有結(jié)構(gòu)化數(shù)據(jù),也有半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。通過(guò)對(duì)這些大數(shù)據(jù)的流式計(jì)算,發(fā)現(xiàn)隱含于其中的內(nèi)在特征,可以幫助金融銀行系統(tǒng)進(jìn)行實(shí)時(shí)決策。
在金融銀行的實(shí)時(shí)監(jiān)控場(chǎng)景中,大數(shù)據(jù)流式計(jì)算往往體現(xiàn)出自身的優(yōu)勢(shì)。例如:在風(fēng)險(xiǎn)管理方面,包括信用卡詐騙、保險(xiǎn)詐騙、證券交易詐騙、程序交易等,需要實(shí)時(shí)跟蹤發(fā)現(xiàn);營(yíng)銷管理方面,根據(jù)客戶信用卡消費(fèi)記錄,掌握客戶的消費(fèi)習(xí)慣和偏好,預(yù)測(cè)客戶未來(lái)的消費(fèi)需求,并為其推薦個(gè)性化的金融產(chǎn)品和服務(wù)。
互聯(lián)網(wǎng)類流式計(jì)算
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,用戶可以實(shí)時(shí)提供和分享各類數(shù)據(jù)。據(jù)統(tǒng)計(jì),目前互聯(lián)網(wǎng)中75%的數(shù)據(jù)來(lái)源于個(gè)人,主要以圖片、音頻、視頻數(shù)據(jù)形式存在,迫切需要進(jìn)行實(shí)時(shí)分析和計(jì)算的工作。
在互聯(lián)網(wǎng)領(lǐng)域中,大數(shù)據(jù)流式計(jì)算的典型應(yīng)用場(chǎng)景主要包括以下方面:搜索引擎提供商們往往會(huì)在反饋給客戶的搜索頁(yè)面中加入點(diǎn)擊付費(fèi)的廣告信息,插入什么廣告、在什么位置插入這些廣告才能得到最佳效果,往往需要根據(jù)客戶的查詢偏好、瀏覽歷史、地理位置等綜合語(yǔ)義進(jìn)行決定,而這種計(jì)算對(duì)于搜索服務(wù)器而言往往是大量的。一方面,每時(shí)每刻都會(huì)有大量客戶進(jìn)行搜索請(qǐng)求;另一方面,數(shù)據(jù)計(jì)算的時(shí)效性極低,需要保證極短的響應(yīng)時(shí)間。同理,我們構(gòu)建社交網(wǎng)站,一樣需要實(shí)時(shí)分析用戶的狀態(tài)信息,及時(shí)提供最新的用戶分享信息到相關(guān)的群體,準(zhǔn)確地推薦朋友、推薦主題、提升用戶體驗(yàn),并能及時(shí)發(fā)現(xiàn)和屏蔽各種欺騙行為,至此大數(shù)據(jù)流式計(jì)算的方法就會(huì)幫助我們達(dá)成這種目標(biāo)定位。
物聯(lián)網(wǎng)類流式計(jì)算
相對(duì)于金融和互聯(lián)網(wǎng)領(lǐng)域,在物聯(lián)網(wǎng)的應(yīng)用環(huán)境中,各個(gè)傳感器會(huì)不定時(shí)產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)通常包含時(shí)間、位置、環(huán)境和行為等內(nèi)容,具有明顯的顆粒性。由于傳感器的多元化、差異化以及環(huán)境的多樣化,這些數(shù)據(jù)呈現(xiàn)出鮮明的異構(gòu)性、多樣性、非結(jié)構(gòu)化、有噪聲、高增長(zhǎng)率等特征,所產(chǎn)生的數(shù)據(jù)量之密集、實(shí)時(shí)性之強(qiáng)、價(jià)值密度之低是前所未有的,更需要進(jìn)行實(shí)時(shí)和高效的計(jì)算。
在物聯(lián)網(wǎng)領(lǐng)域中,大數(shù)據(jù)流式計(jì)算的典型應(yīng)用場(chǎng)景主要有智能交通和環(huán)境監(jiān)測(cè)。通過(guò)傳感器實(shí)時(shí)感知車輛、道路的狀態(tài),并分析和預(yù)測(cè)一定范圍、一段時(shí)間內(nèi)的道路流量情況,以便有效地進(jìn)行分流、調(diào)度和指揮;環(huán)境監(jiān)控則通過(guò)傳感器和移動(dòng)終端,對(duì)一個(gè)地區(qū)的環(huán)境綜合指標(biāo)進(jìn)行實(shí)時(shí)監(jiān)控、遠(yuǎn)程查看、智能聯(lián)動(dòng)、遠(yuǎn)程控制,系統(tǒng)地解決綜合環(huán)境問(wèn)題。這些對(duì)計(jì)算系統(tǒng)的實(shí)時(shí)性、吞吐量、可靠性等方面都提出了很高要求。
從數(shù)據(jù)的產(chǎn)生方式看,金融領(lǐng)域的數(shù)據(jù)往往在系統(tǒng)中被動(dòng)產(chǎn)生,互聯(lián)網(wǎng)領(lǐng)域的數(shù)據(jù)往往是人為主動(dòng)產(chǎn)生,物聯(lián)網(wǎng)領(lǐng)域的數(shù)據(jù)往往是由傳感器等設(shè)備自動(dòng)產(chǎn)生。從數(shù)據(jù)的規(guī)???,金融領(lǐng)域的數(shù)據(jù)與互聯(lián)網(wǎng)、物聯(lián)網(wǎng)領(lǐng)域的數(shù)據(jù)相比較少,物聯(lián)網(wǎng)領(lǐng)域的數(shù)據(jù)規(guī)模最大。從技術(shù)成熟度看,金融銀行領(lǐng)域的流式大數(shù)據(jù)應(yīng)用最為成熟,從早期的復(fù)雜事件處理初始就呈現(xiàn)了大數(shù)據(jù)流式計(jì)算的思想,互聯(lián)網(wǎng)領(lǐng)域的發(fā)展將大數(shù)據(jù)流式計(jì)算真正推向歷史舞臺(tái),物聯(lián)網(wǎng)領(lǐng)域的發(fā)展為大數(shù)據(jù)流式計(jì)算提供了重要的歷史機(jī)遇。
清華大學(xué) 孫大為
