企業(yè)該不該用數(shù)據(jù)湖
- 來源:中國信息化周報(bào) smarty:if $article.tag?>
- 關(guān)鍵字: smarty:/if?>
- 發(fā)布時間:2017-03-22 16:39
最近,數(shù)據(jù)湖已經(jīng)開始在IT行業(yè)涌現(xiàn)。數(shù)據(jù)湖是與附加數(shù)據(jù)管理系統(tǒng)相結(jié)合的數(shù)據(jù)存儲,而附加數(shù)據(jù)管理系統(tǒng)提供關(guān)于數(shù)據(jù)的分析,作為數(shù)據(jù)清理過程的一部分,通常是從其他分析環(huán)境剝離的能力。例如,數(shù)據(jù)倉庫的提取、轉(zhuǎn)換和加載預(yù)處理消除了告知系統(tǒng)何時到達(dá)或插入“操作數(shù)據(jù)存儲”的日志。
在當(dāng)今的行業(yè)中,數(shù)據(jù)湖似乎至少有兩個定義:一個來自存儲公司,數(shù)據(jù)湖是允許元數(shù)據(jù)存儲的磁盤存儲基礎(chǔ)設(shè)施;另一個主要是側(cè)重營銷驅(qū)動,是混合通常不混合的多個數(shù)據(jù)存儲的一個湖。相關(guān)資料顯示,其實(shí)并沒有銷售全面數(shù)據(jù)湖的供應(yīng)商,而是人們使用Hadoop和本地工具訪問數(shù)據(jù)來將它們拼湊在一起。
企業(yè)在實(shí)施大規(guī)模數(shù)據(jù)湖前,應(yīng)該從小規(guī)模著手,并將該技術(shù)作為對現(xiàn)有分析系統(tǒng)的擴(kuò)展。
更多時候,數(shù)據(jù)湖是探索性的。數(shù)據(jù)湖實(shí)施應(yīng)該允許以特別的和探索的方式擴(kuò)展現(xiàn)有的分析,當(dāng)前分析系統(tǒng)不會及時獲取高度數(shù)據(jù)的核心(例如客戶事務(wù)日志),來通過增長的數(shù)據(jù)湖判斷數(shù)據(jù)類型。大多數(shù)現(xiàn)有的分析不足以真實(shí)了解應(yīng)用程序的行為,數(shù)據(jù)倉庫和Hadoop等數(shù)據(jù)管理方案失去了重要的數(shù)據(jù)支撐。
大數(shù)據(jù)分析系統(tǒng)提供商Pentaho公司首席技術(shù)官James Dixon在博客上例舉了這樣一個例子:數(shù)據(jù)倉庫等系統(tǒng)并不捕獲客戶購買過程中的每一步,而是事務(wù)日志。這樣購買過程的設(shè)計(jì)對于典型的數(shù)據(jù)架構(gòu)師似乎是直接的,但在每個步驟中可能有數(shù)分鐘甚至數(shù)小時的滯后。通過發(fā)現(xiàn)流程中的滯后,用戶可以開始與客戶面對的數(shù)據(jù)湖實(shí)現(xiàn)購買等相關(guān)交易。分析對企業(yè)的整體工作具有探索性和重要性,因?yàn)橐坏┯脩粲袡C(jī)會更系統(tǒng)全面地分析客戶日志時間,還不清楚會有什么樣的發(fā)現(xiàn)。
數(shù)據(jù)集市、數(shù)據(jù)湖和數(shù)據(jù)倉庫之間有什么區(qū)別?數(shù)據(jù)集市是數(shù)據(jù)倉庫的變體。數(shù)據(jù)倉庫存儲來自整體較舊的數(shù)據(jù),用于報(bào)告和分析。多個數(shù)據(jù)集市大致相當(dāng)于數(shù)據(jù)倉庫,通常在自身的IT環(huán)境中為子公司服務(wù)。用戶可以由多個數(shù)據(jù)集市進(jìn)入數(shù)據(jù)倉庫,或者只是松散耦合的數(shù)據(jù)集市。集成是實(shí)現(xiàn)數(shù)據(jù)湖的關(guān)鍵,將數(shù)據(jù)湖與其他企業(yè)數(shù)據(jù)架構(gòu)(包括數(shù)據(jù)治理和主要數(shù)據(jù)管理)完全集成也很重要。了解哪些數(shù)據(jù)類型對數(shù)據(jù)倉庫或數(shù)據(jù)集市重要,以及原始數(shù)據(jù)是否正確和一致,才可以實(shí)施數(shù)據(jù)治理實(shí)踐,避免分析有缺陷的數(shù)據(jù)。
數(shù)據(jù)湖的長期發(fā)展。數(shù)據(jù)湖有潛力毋庸置疑,但除非人們能夠更好地了解自己可以長期提供什么,否則這很可能只是一個時尚的陷阱,除非所展現(xiàn)的利益比迄今為止具體顯示的更廣泛。
Dixon在并入時序和間距時的數(shù)據(jù)倉庫問題的例子,只是當(dāng)今分析繼續(xù)依賴簡單統(tǒng)計(jì)數(shù)據(jù),而不考慮什么是“壞”數(shù)據(jù)并可以告訴人們的一個實(shí)例。由于數(shù)據(jù)湖實(shí)施可以發(fā)掘分析中的關(guān)鍵“陷阱”,因此它值得任何企業(yè)進(jìn)行探索。然而從長遠(yuǎn)來看,這需要實(shí)驗(yàn)和仔細(xì)平衡數(shù)據(jù)湖和整體信息架構(gòu)。
