大數(shù)據(jù)存儲(chǔ)多少不重要 分析應(yīng)用更關(guān)鍵
- 來(lái)源:中國(guó)信息化周報(bào) smarty:if $article.tag?>
- 關(guān)鍵字:大數(shù)據(jù),數(shù)據(jù)分析 smarty:/if?>
- 發(fā)布時(shí)間:2016-05-23 11:43
“把大量數(shù)據(jù)通過(guò)低成本的方式存儲(chǔ)起來(lái)并不是最重要的,你有多少大數(shù)據(jù)也不是最重要的,最重要的是分析數(shù)據(jù),使其發(fā)揮出最大價(jià)值。”5月6日,在北京國(guó)貿(mào)大酒店舉辦的“2016 Teradata大數(shù)據(jù)峰會(huì)”上,Teradata天睿公司首席技術(shù)官寶立明(Stephen Brobst)如是說(shuō)。
本屆峰會(huì)邀請(qǐng)德國(guó)沃達(dá)豐、沙特電信STC、富國(guó)銀行、中國(guó)建設(shè)銀行、中國(guó)光大銀行、浦發(fā)銀行、中信銀行、英國(guó)TSB銀行,以及eBay等全球不同行業(yè)企業(yè)到會(huì)并分享了以數(shù)據(jù)驅(qū)動(dòng)企業(yè)發(fā)展的經(jīng)驗(yàn)。
數(shù)據(jù)的收集、策管與分析
寶立明認(rèn)為,企業(yè)探索大數(shù)據(jù)主要分為收集(Capture)、策管(Curation)和分析(Analysis)三部分。數(shù)據(jù)收集主要是將內(nèi)外部數(shù)據(jù)采集存儲(chǔ)至平臺(tái),供數(shù)據(jù)工程師或者數(shù)據(jù)科學(xué)家來(lái)存取使用;數(shù)據(jù)策管,也就是數(shù)據(jù)治理,主要是采用不同的策略方法對(duì)不同格式、不同來(lái)源的數(shù)據(jù)進(jìn)行處理,建立可描述的數(shù)據(jù)存儲(chǔ)模式和治理結(jié)構(gòu),進(jìn)行周期性管理,這是現(xiàn)在企業(yè)的痛點(diǎn)和難點(diǎn)所在;但實(shí)際上,對(duì)企業(yè)最有價(jià)值的是數(shù)據(jù)分析,只有找出數(shù)據(jù)之間的關(guān)聯(lián)性或者可分析預(yù)測(cè)的模式才是最重要的。
Teradata天睿公司大中華區(qū)首席執(zhí)行官辛兒倫(Aaron Hsin)在會(huì)上介紹,企業(yè)數(shù)據(jù)分析流程是IT、數(shù)據(jù)部門(mén)與公司內(nèi)外部的最終用戶共同定義一個(gè)認(rèn)可的價(jià)值場(chǎng)景,并進(jìn)行數(shù)據(jù)采集、獲取、整合、建立模型、查詢以及分析應(yīng)用的過(guò)程。在這個(gè)過(guò)程中,常常會(huì)遇到不同數(shù)據(jù)來(lái)源的數(shù)據(jù)結(jié)構(gòu)度不同,不同應(yīng)用場(chǎng)景對(duì)數(shù)據(jù)的精確度要求不同,數(shù)據(jù)分析應(yīng)用所要求的反應(yīng)敏捷度不同,以及數(shù)據(jù)在不同來(lái)源之間的關(guān)系性不強(qiáng)或者不確定,數(shù)據(jù)本身的易用性不同,數(shù)據(jù)對(duì)每個(gè)場(chǎng)景的價(jià)值和含金量也不同等問(wèn)題。為有效滿足這些需求,就像本屆峰會(huì)提出的主題“數(shù)據(jù)倉(cāng)庫(kù)、開(kāi)源融合、極致演繹”一樣,企業(yè)需要融合各種技術(shù)來(lái)發(fā)現(xiàn)數(shù)據(jù)的價(jià)值。
辛兒倫表示,當(dāng)今數(shù)據(jù)分析專業(yè)領(lǐng)域,已經(jīng)無(wú)法通過(guò)采用單一平臺(tái),或是單一技術(shù)就能有效滿足大數(shù)據(jù)分析需求,需要構(gòu)建下一代大數(shù)據(jù)分析生態(tài)系統(tǒng)。如何有效應(yīng)對(duì)數(shù)據(jù)之間的差異,建立數(shù)據(jù)管理體系及架構(gòu),整合統(tǒng)一管理數(shù)據(jù),提升使用者滿意度,是所有企業(yè)都要面臨的問(wèn)題。而Teradata提供的方法就是采用統(tǒng)一數(shù)據(jù)架構(gòu)(Unified Data Architecture)。
記者在以前的采訪報(bào)道中曾經(jīng)寫(xiě)過(guò),UDA是將多種技術(shù)整合到一個(gè)緊密結(jié)合的、透明開(kāi)放的架構(gòu)中,等于給數(shù)據(jù)分析人員一把“瑞士軍刀”,用不同樣式的工具讓用戶發(fā)現(xiàn)大數(shù)據(jù)中潛藏的價(jià)值。而近來(lái)Teradata積極擁抱開(kāi)源技術(shù),讓這把“瑞士軍刀”的刀片越來(lái)越豐富了。
開(kāi)源 融合
作為CTO,麻省理工博士畢業(yè)的寶立明是業(yè)界公認(rèn)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的一流專家,他于1999年就加入Teradata,此前曾任教波士頓大學(xué)和麻省理工學(xué)院,也曾成功創(chuàng)辦三家數(shù)據(jù)庫(kù)相關(guān)企業(yè),同時(shí)他也是個(gè)不折不扣的開(kāi)源擁護(hù)者。在會(huì)上,他介紹了目前數(shù)據(jù)分析領(lǐng)域的最新技術(shù)和做法,包括延遲綁定(Late Binding)、QueryGrid、Presto、Kafka、JSON等。
延遲綁定技術(shù)是一種數(shù)據(jù)處理模式,這種技術(shù)不會(huì)在獲取數(shù)據(jù)時(shí)就定義數(shù)據(jù)結(jié)構(gòu),而是要在使用數(shù)據(jù),也就是在查詢、讀取時(shí)才建立數(shù)據(jù)結(jié)構(gòu),做加載、清洗和轉(zhuǎn)換,如此一來(lái),可以為企業(yè)降低數(shù)據(jù)成本并保持?jǐn)?shù)據(jù)應(yīng)用的靈活性。
寶立明介紹,QueryGrid是一種互操作技術(shù),可以實(shí)現(xiàn)Teradata與其他數(shù)據(jù)庫(kù)產(chǎn)品的互通操作。據(jù)記者了解,幾年前,Teradata和Hortonworks合作開(kāi)發(fā)了Teradata SQL-H和Teradata Aster SQL-H連接器,用于在Hadoop平臺(tái)上的Hadoop分布式文件系統(tǒng)(HDFS)與Teradata或Teradata Aster系統(tǒng)之間移動(dòng)數(shù)據(jù)?,F(xiàn)在這些連接器被合并到更廣泛的QueryGrid連接器套件中。這種效率不僅能夠消除瓶頸,而且還改變了分析的工作流程。使用QueryGrid,業(yè)務(wù)分析人員每分鐘可以提出更多問(wèn)題并獲得更多答案,從而實(shí)現(xiàn)更深入的探索,更好地研究業(yè)務(wù)問(wèn)題。其實(shí),在2014年Teradata已經(jīng)推出QueryGrid,功能已經(jīng)越來(lái)越完備,目前已經(jīng)能實(shí)現(xiàn)對(duì)ORCALE、SAS、MONGDB等數(shù)據(jù)庫(kù)的無(wú)縫查詢。
“我們也與Facebook聯(lián)合開(kāi)發(fā)了Presto。”寶立明介紹。Presto是一個(gè)開(kāi)源的分布式SQL查詢引擎,適用于交互式分析查詢,適合解決像Facebook這樣規(guī)模的商業(yè)數(shù)據(jù)倉(cāng)庫(kù)的交互式分析和處理速度的問(wèn)題。Presto支持在線數(shù)據(jù)查詢,包括Hive、Cassandra、關(guān)系數(shù)據(jù)庫(kù)以及專有數(shù)據(jù)存儲(chǔ)。Teradata為Presto提供經(jīng)驗(yàn)豐富的可靠支持,有20多位經(jīng)驗(yàn)豐富的開(kāi)發(fā)人員專職向開(kāi)源Presto代碼庫(kù)提供技術(shù)支持,而其兩年前收購(gòu)的大數(shù)據(jù)技術(shù)服務(wù)公司ThinkBig也可以幫助企業(yè)客戶靈活部署Presto,利用所掌握的全面知識(shí)和經(jīng)驗(yàn)來(lái)幫助用戶。
寶立明還提到,Teradata也在與LinkedIn共同開(kāi)發(fā)基于Kafka的應(yīng)用。Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)。
另外,對(duì)于JSON這樣一種處理Javascript和Web服務(wù)器端的之間數(shù)據(jù)交換的輕量級(jí)數(shù)據(jù)交換格式,Teradata也在做技術(shù)跟進(jìn)與應(yīng)用。
“1968年以前,跳高運(yùn)動(dòng)員都是用剪刀腳動(dòng)作,20世紀(jì)80年代以后運(yùn)動(dòng)員才采用背躍式,用了12年,背躍式真正超越剪刀腳成為跳高界的主流技術(shù)。”寶立明以跳高技術(shù)的演變作類比介紹,“大數(shù)據(jù)技術(shù)、新的數(shù)據(jù)分析技術(shù)不會(huì)馬上完全取代傳統(tǒng)數(shù)據(jù)技術(shù),但如果不跟進(jìn)新技術(shù),未來(lái)就會(huì)有被淘汰的風(fēng)險(xiǎn)。”
用戶觀點(diǎn)
萬(wàn)物皆可分析指的是每一個(gè)設(shè)備都能夠捕獲數(shù)據(jù),我們需要利用這些數(shù)據(jù)產(chǎn)生業(yè)務(wù)價(jià)值。沃達(dá)豐新西蘭公司有800萬(wàn)臺(tái)設(shè)備,我們需要實(shí)現(xiàn)快速的網(wǎng)絡(luò)覆蓋和客戶體驗(yàn),保證VIP客戶獲得最好的網(wǎng)絡(luò)使用體驗(yàn)。數(shù)據(jù)分析對(duì)我們而言,變得非常重要。
——沃達(dá)豐新西蘭公司分析及數(shù)據(jù)戰(zhàn)略經(jīng)理 David Bloch
沙特電信有很多監(jiān)測(cè)數(shù)據(jù),比如客戶在網(wǎng)上的搜索偏好是什么,一天收集類似數(shù)據(jù)60億條。我們需要基于這些數(shù)據(jù),對(duì)客戶進(jìn)行全生命周期的管理,提升客戶體驗(yàn),提供更好的服務(wù),預(yù)測(cè)他們可能購(gòu)買哪項(xiàng)產(chǎn)品或者服務(wù)。另外,當(dāng)客戶態(tài)度變了、行為變了的時(shí)候,公司要覺(jué)察到并跟進(jìn)服務(wù),防止客戶流失。
——沙特電信客戶生命周期管理總經(jīng)理 Luca Decarli
數(shù)據(jù)分析與IT是什么關(guān)系?打個(gè)比方,數(shù)據(jù)人員是建筑師,他們理解終端客戶的需求,解決的問(wèn)題是設(shè)計(jì)房子該怎么建會(huì)更漂亮,通過(guò)數(shù)據(jù)建模反復(fù)嘗試;而IT人員則是施工隊(duì),去落地?cái)?shù)據(jù)人員的想法,把房子建好。
——富國(guó)銀行企業(yè)模型風(fēng)險(xiǎn)部副總裁 劉維政
數(shù)據(jù)已經(jīng)成為銀行的“血液”。數(shù)據(jù)對(duì)銀行來(lái)講是一個(gè)契機(jī),是把這些長(zhǎng)期積累的數(shù)據(jù)資產(chǎn)變現(xiàn),使其發(fā)揮價(jià)值的時(shí)候了。無(wú)論從管理方式,還是生產(chǎn)方式,包括決策制定、組織架構(gòu)調(diào)整、風(fēng)險(xiǎn)管控、精準(zhǔn)營(yíng)銷、客戶管理等都可以通過(guò)數(shù)據(jù)進(jìn)行變革。
——中信銀行總行零售銀行部客戶服務(wù)管理處處長(zhǎng)助理 袁東寧
■本報(bào)記者 霍娜
