大數(shù)據(jù)商業(yè)智能的十大戒律
- 來源:中國信息化周報(bào) smarty:if $article.tag?>
- 關(guān)鍵字:大數(shù)據(jù) smarty:/if?>
- 發(fā)布時(shí)間:2017-02-08 11:17
如今,各路企業(yè)和組織都不再使用上一代架構(gòu)來存儲(chǔ)大數(shù)據(jù)。既然如此,為什么在此基礎(chǔ)上還要使用上一代商業(yè)智能(BI)工具來進(jìn)行大數(shù)據(jù)分析呢?BI系統(tǒng)對(duì)于企業(yè)發(fā)現(xiàn)市場(chǎng)新機(jī)會(huì)、創(chuàng)造競(jìng)爭(zhēng)新優(yōu)勢(shì)的作用顯而易見,但企業(yè)在真正實(shí)施BI過程中,并不是一帆風(fēng)順。為企業(yè)選擇BI工具時(shí),“十誡”原則或許會(huì)帶來不少啟示。
第一誡:不要試圖轉(zhuǎn)移大數(shù)據(jù)
首先,轉(zhuǎn)移大數(shù)據(jù)代價(jià)高昂,畢竟大數(shù)據(jù)很“大”,如果打包轉(zhuǎn)移負(fù)擔(dān)太重;也不能將數(shù)據(jù)提取出來,做成數(shù)據(jù)集市和數(shù)據(jù)立方,因?yàn)?ldquo;提取”就意味著轉(zhuǎn)移,會(huì)在維護(hù)、網(wǎng)絡(luò)性能附加處理器方面造成紛亂龐雜的問題,出現(xiàn)兩個(gè)邏輯上相同的備份,所以讓BI深入更底層運(yùn)行數(shù)據(jù)就是大數(shù)據(jù)萌發(fā)的最初動(dòng)力。
第二誡:不要違反企業(yè)安全政策
眾所周知,安全并非可有可無,不幸的是數(shù)據(jù)泄露事件頻繁發(fā)生,這表明實(shí)現(xiàn)安全并非易事。要選擇能夠利用現(xiàn)有安全模型的BI工具,依靠Ranger、Sentry、Knox等綜合性安全系統(tǒng),大數(shù)據(jù)可以使實(shí)現(xiàn)數(shù)據(jù)安全變得更加容易。如今就連Mongo數(shù)據(jù)庫都有了令人驚嘆的安全架構(gòu),所有那些模型都允許插入權(quán)限,將用戶信息一路傳播到應(yīng)用層,實(shí)施可視化的授權(quán)和提供與該授權(quán)相關(guān)的數(shù)據(jù)志。
第三誡:不要按照用戶數(shù)以及數(shù)據(jù)量付費(fèi)
大數(shù)據(jù)的一個(gè)主要好處在于如果做得成功,它就能實(shí)現(xiàn)極高的性價(jià)比。把5PB數(shù)據(jù)存儲(chǔ)到Oracle可能會(huì)傾家蕩產(chǎn),但存儲(chǔ)到大數(shù)據(jù)系統(tǒng)則不會(huì)。盡管如此,在付錢購買之前,還是應(yīng)該警惕某些價(jià)格陷阱。
有些BI應(yīng)用會(huì)按照數(shù)據(jù)量或者索引數(shù)據(jù)量向用戶收費(fèi)。數(shù)據(jù)量和大數(shù)據(jù)使用量出現(xiàn)指數(shù)式增長(zhǎng)是再平常不過的事情,客戶曾目睹其訪問量在短短幾個(gè)月時(shí)間里從數(shù)百億次猛增到數(shù)千億次,用戶數(shù)擴(kuò)大50倍,這是大數(shù)據(jù)系統(tǒng)的另一個(gè)好處:漸進(jìn)式可擴(kuò)展性,所以為防止被低價(jià)迷惑,去購買一種會(huì)對(duì)企業(yè)增長(zhǎng)征收“高稅”的BI工具很重要。
第四誡:要大膽借鑒別人的可視圖
無論是PDF文檔、PNG圖片還是電子郵件的附件,到處都在傳播靜態(tài)圖表。但對(duì)于大數(shù)據(jù)和BI,靜態(tài)圖表還遠(yuǎn)遠(yuǎn)不夠,擁有的一切無非都是些漂亮的圖片而已,重要的是應(yīng)該讓任何人都能夠隨心所欲地與你的數(shù)據(jù)進(jìn)行交互,把可視化看作是駕馭數(shù)據(jù)的交互式路線圖。
為什么要閉門造車?將交互式可視化手段公之于眾只是第一步??纯碐ithub的模式就知道,與其說“這是我的最終發(fā)布產(chǎn)品”,不如說“這是一幅可視圖,復(fù)制下來,分解它,就是從中得到哪些見解,看看它還能用于其他哪些領(lǐng)域”。這會(huì)是其他人從另一方的見解中學(xué)到的有用的東西。
第五誡:要分析天然形態(tài)的數(shù)據(jù)
大數(shù)據(jù)是“非結(jié)構(gòu)化”的,這樣的說法我們已經(jīng)聽過太多,其實(shí)不然,財(cái)務(wù)和傳感器會(huì)產(chǎn)生大量的鍵值對(duì)。JSON(可能是當(dāng)下最流行的數(shù)據(jù)格式)可以是半結(jié)構(gòu)化、多結(jié)構(gòu)化等,Mongo數(shù)據(jù)庫對(duì)這種數(shù)據(jù)格式下了重注。JSON具有好處理和可規(guī)?;膬?yōu)點(diǎn),但如果把它轉(zhuǎn)換成表格,表達(dá)力就會(huì)丟失。很多大數(shù)據(jù)仍然被制成表格,通常擁有數(shù)千欄。不得不為所有的值尋找關(guān)系:“在那種情況下……從這里選擇這個(gè)”。扁平化會(huì)毀掉原始結(jié)構(gòu)中所表達(dá)的重要關(guān)系,所以應(yīng)該遠(yuǎn)離那些對(duì)你說“請(qǐng)把數(shù)據(jù)轉(zhuǎn)換成表格,因?yàn)槲覀円恢倍歼@么干”的BI解決方案。
第六誡:不要無限期地等待結(jié)果
2017年,預(yù)計(jì)數(shù)據(jù)處理速度將會(huì)變得更快。一個(gè)典型方法是聯(lián)機(jī)分析處理(OLAP)立方,本質(zhì)上就是把數(shù)據(jù)轉(zhuǎn)移到預(yù)計(jì)算緩存,從而加快處理速度。問題在于必須提取以及轉(zhuǎn)移數(shù)據(jù),以便建造數(shù)據(jù)立方,然后才能加快其速度。
現(xiàn)在這種方法能夠在一定的數(shù)據(jù)規(guī)模下良好運(yùn)轉(zhuǎn),但如果臨時(shí)表格過于龐大,筆記本電腦在試圖將表格本地化的時(shí)候就會(huì)崩潰;當(dāng)提取新數(shù)據(jù)重建緩存時(shí),新數(shù)據(jù)的分析就會(huì)中途停下來。此外還要注意樣本問題,可能會(huì)得到一個(gè)看起來不錯(cuò)、效果很好的可視圖,但最后卻發(fā)現(xiàn)全不對(duì)路,而問題就出在缺少大局觀,所以選擇那些能便捷地不斷調(diào)整數(shù)據(jù)的BI工具很關(guān)鍵。
第七誡:不要制作報(bào)告,而是要打造應(yīng)用
在很長(zhǎng)一段時(shí)間里,“獲得數(shù)據(jù)”意味著獲得報(bào)告。在大數(shù)據(jù)時(shí)代,BI用戶希望從多個(gè)來源獲得異步數(shù)據(jù),這樣就不需要刷新任何東西,用戶希望和可視元素進(jìn)行交互,得到他們正在尋找的答案,而不是對(duì)已經(jīng)提供給他們的結(jié)果進(jìn)行交叉過濾。Rails等框架使打造Web應(yīng)用變得更加簡(jiǎn)單。為什么不對(duì)BI應(yīng)用做同樣的事情呢?沒理由不對(duì)這些應(yīng)用、應(yīng)用程序接口(API)、模板、可重用性等等采取類似的做法,現(xiàn)在是時(shí)候通過現(xiàn)代Web應(yīng)用開發(fā)透鏡來看待BI。
第八誡:要利用智能工具
在提供基于數(shù)據(jù)的可視圖方面,BI工具已經(jīng)證明了自己的能力。現(xiàn)在則輪到在模型和緩存的自動(dòng)維護(hù)上下功夫,這樣一來終端用戶就省心不少。在龐大的數(shù)據(jù)規(guī)模下,自動(dòng)維護(hù)幾乎是不可或缺的,可以從用戶和數(shù)據(jù)與可視圖的交互中獲得大量信息,現(xiàn)代工具應(yīng)該使用這些信息來對(duì)數(shù)據(jù)網(wǎng)絡(luò)效應(yīng)加以利用。
另外,要選擇那些內(nèi)置全面搜索能力的工具,因?yàn)橹霸娺^有些客戶擁有成千上萬的可視圖,所以需要一種迅速查找的方法,改變?cè)诰W(wǎng)絡(luò)的長(zhǎng)年熏陶下已經(jīng)習(xí)慣了搜索,而不是翻找菜單的習(xí)慣。
第九誡:要超越基本范疇
如今的大數(shù)據(jù)系統(tǒng)因?yàn)轭A(yù)測(cè)分析能力而著稱,相關(guān)性、預(yù)測(cè)和其他功能使企業(yè)用戶比以往任何時(shí)候都能更便捷地進(jìn)行高級(jí)分析。不需要編程經(jīng)驗(yàn)就能處理大數(shù)據(jù)的可視化技術(shù)讓分析師如有神助,超越了基本分析的范疇。為了實(shí)現(xiàn)其真正的潛力,大數(shù)據(jù)不應(yīng)該依賴于每個(gè)人都變成R預(yù)言程序員,人類非常善于處理可視化信息,必須更加努力地將可視化信息呈現(xiàn)在人們眼前。
第十誡:不要只是站在數(shù)據(jù)邊,等著數(shù)據(jù)科學(xué)家來干活兒
不管是把大數(shù)據(jù)當(dāng)成數(shù)據(jù)湖還是企業(yè)數(shù)據(jù)中心,Hadoop已經(jīng)改變了數(shù)據(jù)的處理速度和存儲(chǔ)成本。人們每天都在創(chuàng)造更多的數(shù)據(jù),但在真正利用大數(shù)據(jù)為企業(yè)用戶服務(wù)方面常常存在一種“只寫系統(tǒng)”——創(chuàng)造數(shù)據(jù)的人很多,但利用數(shù)據(jù)的人卻很少。其實(shí),用Hadoop中的數(shù)據(jù)可以為企業(yè)用戶解答數(shù)不清的問題,BI講究的是打造數(shù)據(jù)可視化應(yīng)用,為日常決策提供支持。企業(yè)中的每個(gè)人都希望做出數(shù)據(jù)驅(qū)動(dòng)的決策,把大數(shù)據(jù)能夠解答的所有問題局限于需要數(shù)據(jù)科學(xué)家來處理的問題,這是奇恥大辱。
相關(guān)鏈接
企業(yè)BI系統(tǒng)的選擇策略
分析需求,確定目標(biāo)
企業(yè)在準(zhǔn)備應(yīng)用BI系統(tǒng)前,需要理智地進(jìn)行立項(xiàng)分析:企業(yè)是不是到了該應(yīng)用BI系統(tǒng)的階段?BI系統(tǒng)是否能夠解決?BI系統(tǒng)的投資回報(bào)率或投資效益的分析?在財(cái)力上企業(yè)能不能支持BI的實(shí)施?然后將分析的結(jié)果寫成需求分析和投資效益分析正式書面報(bào)告,從而做出是否應(yīng)用BI項(xiàng)目的正確決策。
建立項(xiàng)目管理體系和運(yùn)作機(jī)制
企業(yè)在BI應(yīng)用過程中必須從系統(tǒng)工程和科學(xué)管理的角度出發(fā),建立健全工程項(xiàng)目管理體系和運(yùn)作機(jī)制,確保BI項(xiàng)目的成功實(shí)施。主要內(nèi)容包括:制訂明確、量化的BI應(yīng)用目標(biāo),進(jìn)行BI等現(xiàn)代管理知識(shí)的培訓(xùn)教育,引入企業(yè)管理咨詢,進(jìn)行BI項(xiàng)目需求分析,開展企業(yè)管理創(chuàng)新,實(shí)行業(yè)務(wù)流程重組,實(shí)行BI項(xiàng)目監(jiān)理制和項(xiàng)目評(píng)價(jià)制等。
完善企業(yè)信息的基礎(chǔ)工作
BI本身是企業(yè)在信息化具備一定基礎(chǔ)的條件上出現(xiàn)的一種管理方法。如果企業(yè)的數(shù)據(jù)庫等基礎(chǔ)工作沒有到位,BI方面的投資再大,其結(jié)果只能是徒勞無功。只有做好一些信息的基礎(chǔ)工作,才能使BI有基本的運(yùn)行平臺(tái),也使BI導(dǎo)入后的正常運(yùn)作奠定了基礎(chǔ)。
Shant Hovsepian
