如果您的數(shù)據(jù)湖變成了數(shù)據(jù)沼澤,那么是時(shí)候采取措施了
- 來(lái)源:計(jì)算機(jī)世界 smarty:if $article.tag?>
- 關(guān)鍵字:數(shù)據(jù),德勤,解決方案 smarty:/if?>
- 發(fā)布時(shí)間:2017-02-23 14:16
與德勤的分析實(shí)踐領(lǐng)導(dǎo)討論常見(jiàn)的分析問(wèn)題和新的解決方案
作為Deloitte分析實(shí)踐的領(lǐng)導(dǎo),Paul Roma指導(dǎo)公司所有業(yè)務(wù)的分析產(chǎn)品,所以他了解公司要應(yīng)對(duì)的一系列問(wèn)題?!毒W(wǎng)絡(luò)世界》總編輯John Dix最近和Roma討論了公司面臨的分析問(wèn)題(提示:上面提到的沼澤),幫助提取更多價(jià)值的工具(認(rèn)知分析和機(jī)器學(xué)習(xí)),還有不斷發(fā)展的執(zhí)行管理角色(標(biāo)題并不重要,重要的是問(wèn)題歸誰(shuí))等很多問(wèn)題。
客戶通常希望您解決什么問(wèn)題?他們想要解決一個(gè)具體的問(wèn)題,還是更大的問(wèn)題,關(guān)鍵的分析問(wèn)題?
一般而言,我們的工作是要得到具體的業(yè)務(wù)成果??蛻艨赡芟M岣咚麄兊南M(fèi)者凈推廣得分(NPS,Net Promotion Scores),這是對(duì)消費(fèi)者與某一公司及其產(chǎn)品的關(guān)系進(jìn)行評(píng)分的行業(yè)標(biāo)準(zhǔn)。它之所以稱為凈推廣,因?yàn)樗菃l(fā)式的,把幾個(gè)因素綜合在一起,并建立一種方式來(lái)判斷您自己。再比如,醫(yī)療機(jī)構(gòu)可能來(lái)找我們,幫助他們改進(jìn)某些醫(yī)療保健協(xié)議的結(jié)果,所以我們通常談?wù)摰氖菢I(yè)務(wù)成果。
通過(guò)訪談,您發(fā)現(xiàn)公司有他們需要的分析工具,或者他們也在尋找新技術(shù)輸入嗎?
較大的客戶會(huì)擁有分析工具。我們到訪的公司中沒(méi)有一家是什么都沒(méi)有的。問(wèn)題更多地集中在使用上,而不是數(shù)據(jù)短缺,因?yàn)樗麄冇写罅康臄?shù)據(jù)?,F(xiàn)在,經(jīng)過(guò)多年的積累,一般都會(huì)有匯總起來(lái)的數(shù)據(jù)倉(cāng)庫(kù)或者數(shù)據(jù)湖。但是,我已經(jīng)看到數(shù)百萬(wàn)美元花在了數(shù)據(jù)湖上,實(shí)際成為我所謂的數(shù)據(jù)沼澤。他們花了所有的錢把一切都放在一起,而不對(duì)其做任何事情。現(xiàn)在的主要問(wèn)題是怎樣使用數(shù)據(jù)獲得更好的結(jié)果。
考慮到有這么多的數(shù)據(jù)和許多挖掘數(shù)據(jù)的各種工具,您打算怎樣幫助客戶向前推進(jìn)呢?
我提供三種方法來(lái)思考它。首先,如果您是基于結(jié)果,那么您會(huì)面對(duì)某些問(wèn)題來(lái)解決問(wèn)題。如果我想改進(jìn)消費(fèi)者關(guān)系,或者如果我想改進(jìn)醫(yī)療保健的結(jié)果,那您至少是基于您想做什么。在分析數(shù)據(jù)時(shí),經(jīng)驗(yàn)會(huì)引導(dǎo)您創(chuàng)建某些域,并采取非結(jié)構(gòu)化數(shù)據(jù)湖,開(kāi)始應(yīng)用結(jié)構(gòu)化邊界。
一旦做好了,您就可以開(kāi)始使用更高級(jí)的工具,例如認(rèn)知分析工具,在數(shù)據(jù)湖上應(yīng)用結(jié)構(gòu),使用自然語(yǔ)言處理和機(jī)器學(xué)習(xí),從數(shù)據(jù)中得出推測(cè)。
先進(jìn)的技術(shù)已經(jīng)不僅僅是提交報(bào)告,然后查看圖表,了解其含義。現(xiàn)在,機(jī)器學(xué)習(xí)實(shí)際上可以創(chuàng)建因果分析,告訴您哪些變量的前提是什么,或者哪些數(shù)據(jù)域?qū)μ囟ńY(jié)果最有影響。例如,在醫(yī)療保健中,機(jī)器能夠說(shuō)明為什么某一規(guī)程的重新住院率較高。因果分析導(dǎo)致這類分析。
先進(jìn)的技術(shù)可能最能幫助我們?nèi)ダ斫馑袛?shù)據(jù)。沒(méi)有先進(jìn)的技術(shù),就沒(méi)有辦法深入分析。沒(méi)有工具來(lái)深入分析數(shù)據(jù),只是運(yùn)行報(bào)告會(huì)產(chǎn)生無(wú)盡的紙張,坦率地說(shuō),您永遠(yuǎn)不可能讓任何人理解。
我們?cè)诤芏鄻I(yè)務(wù)中采用了定制的算法——無(wú)論是在醫(yī)療保健、供應(yīng)鏈還是客戶營(yíng)銷上,還采用了機(jī)器學(xué)習(xí)算法和監(jiān)督學(xué)習(xí)周期工具,我們可以針對(duì)他們的數(shù)據(jù)運(yùn)行這些工具,得出推測(cè),您可以憑借經(jīng)驗(yàn)來(lái)研究這些推測(cè)。
有趣。這些算法適用于縱向市場(chǎng),建立這些算法有沒(méi)有一個(gè)共同的基礎(chǔ)?
我們有水平和縱向市場(chǎng)??v向市場(chǎng)調(diào)整到制造業(yè)中的供應(yīng)鏈或者消費(fèi)品中的供應(yīng)鏈,以及生命科學(xué)領(lǐng)域的治療方案等市場(chǎng),而水平市場(chǎng)始終不變。(后者的一個(gè)例子)是我們獲得專利的稀疏矩陣完成算法。如果某一特定問(wèn)題的數(shù)據(jù)湖并不足以滿足您需要的所有變量,它運(yùn)行預(yù)測(cè)算法來(lái)填充它,并創(chuàng)建關(guān)于趨勢(shì)的假設(shè)。我們按照與大型醫(yī)療保健公司的糖尿病協(xié)議來(lái)運(yùn)行它,準(zhǔn)確性達(dá)到93%,我們可以推測(cè)出誰(shuí)不符合他們的糖尿病協(xié)議,而且并不需要與其相關(guān)的任何合規(guī)數(shù)據(jù)。
這意味著您可以推測(cè)出誰(shuí)沒(méi)有做自己應(yīng)該做的事情?
是的。例如,有人沒(méi)有稱重,有人沒(méi)有做運(yùn)動(dòng)。它不能準(zhǔn)確預(yù)測(cè)他們沒(méi)有做什么,因?yàn)槲覀儎倓傞_(kāi)始,但它可以預(yù)測(cè)誰(shuí)不合規(guī)。我們希望將其準(zhǔn)確度提高到90以上,然后我們將能夠?qū)彶檎麄€(gè)醫(yī)院系統(tǒng),因?yàn)樵谶@一點(diǎn)上變得可以預(yù)測(cè)。在出現(xiàn)合規(guī)問(wèn)題之前,您可以看到趨勢(shì)得分。這個(gè)人有可能不合規(guī),然后您可以讓護(hù)士給他打電話,問(wèn)他,您吃胰島素的時(shí)候遇到麻煩了嗎?您沒(méi)有做運(yùn)動(dòng)是有什么原因嗎?您沒(méi)有去看醫(yī)生,是因?yàn)槟塑囉龅絾?wèn)題了嗎?您可以開(kāi)始尋找治療方案中的具體問(wèn)題,以嘗試提供幫助。
這是您合同結(jié)束后留下的嗎?
過(guò)去四年里,德勤已經(jīng)成為產(chǎn)品和軟件提供商。這是我以前努力的結(jié)果,為我們的公司開(kāi)發(fā)出產(chǎn)品和解決方案,所以我對(duì)此非常熟悉。我們現(xiàn)在提供軟件即服務(wù)產(chǎn)品,如果您愿意,我們會(huì)留下安裝解決方案。我們都能做到。這不過(guò)只是涉及到我們要解決哪個(gè)問(wèn)題——哪個(gè)是最有意義的,哪個(gè)是最經(jīng)濟(jì)的。
這類分析的促因來(lái)自于企業(yè)內(nèi)部?
我認(rèn)為最強(qiáng)的促因來(lái)自于業(yè)務(wù)部門,而不是董事會(huì)。我們?yōu)楣芾砣藛T提供了很多工具,但通常您從業(yè)務(wù)主管開(kāi)始,成功后,業(yè)務(wù)主管將其呈現(xiàn)給CEO和董事會(huì),它變得更受歡迎,通常再應(yīng)用到下一個(gè)業(yè)務(wù)部門。
我和一家金融公司的首席數(shù)據(jù)官談過(guò)話,他告訴我,當(dāng)他們開(kāi)始一些大數(shù)據(jù)工作時(shí),他們必須對(duì)關(guān)鍵客戶數(shù)據(jù)的一系列差異進(jìn)行協(xié)調(diào)。這對(duì)于很多企業(yè)而言是不是很典型?
是的。老實(shí)說(shuō),管理好數(shù)據(jù)似乎永遠(yuǎn)有問(wèn)題。用于管理數(shù)據(jù)的工具變得越來(lái)越好,但是數(shù)據(jù)產(chǎn)生的速度太快,超過(guò)了工具的能力所及。這是一個(gè)非常典型的問(wèn)題,是一個(gè)關(guān)鍵的方向性問(wèn)題。它幾乎成為每個(gè)問(wèn)題的核心。
對(duì)于首席數(shù)據(jù)官——首先出現(xiàn)在金融領(lǐng)域的職務(wù),但似乎更多的行業(yè)也出現(xiàn)了這一職務(wù)。隨著對(duì)分析的重視程度的提高,您會(huì)看到有新角色出現(xiàn)嗎?
絕對(duì)有。在某些企業(yè)中,首席營(yíng)銷官就是首席數(shù)據(jù)官。在其他企業(yè)中,首席數(shù)字官是擁有數(shù)據(jù)的人。我們首先要理解的第一件事是,誰(shuí)擁有它,在哪一級(jí)別擁有的,什么級(jí)別的管理層真正的擁有數(shù)據(jù)。我們不需要鼓勵(lì)每家企業(yè)都有CDO。我們鼓勵(lì)的是數(shù)據(jù)適當(dāng)?shù)乃袡?quán)和管理權(quán),這樣可以優(yōu)先處理數(shù)據(jù)。
大多數(shù)客戶解決這種所有權(quán)問(wèn)題了嗎?
一半一半。我要說(shuō)的是,有一半的情況是,公司正處在這一過(guò)程中,他們會(huì)有一個(gè)路線圖,其中會(huì)說(shuō)明要通過(guò)哪些方式來(lái)提高數(shù)據(jù)安全性,通過(guò)哪些方式來(lái)改進(jìn)先進(jìn)的分析方法,他們會(huì)討論如何讓客戶更好的掌握數(shù)據(jù)。
另一半在各方面還沒(méi)有路線圖,在這些情況下,我們通常建議把很多這類計(jì)劃放到一起,從供應(yīng)鏈到營(yíng)銷、制造、金融等等,都可以努力得出更好的業(yè)務(wù)結(jié)果。把計(jì)劃放在一起,組織起來(lái)使用會(huì)更劃算。
談點(diǎn)別的,這些新的物聯(lián)網(wǎng)投入有沒(méi)有帶來(lái)其他的大數(shù)據(jù)問(wèn)題,沒(méi)有嗎?您看到了什么?
我們現(xiàn)在有相當(dāng)大的物聯(lián)網(wǎng)實(shí)際應(yīng)用,需求迅速攀升。從它是一個(gè)數(shù)據(jù)問(wèn)題來(lái)說(shuō),我們參與其中是因?yàn)槟承┏晒呗源嬖趩?wèn)題,因?yàn)槲锫?lián)網(wǎng)項(xiàng)目通常比較昂貴而且耗時(shí),很少有進(jìn)展很快的項(xiàng)目。在過(guò)去的3到5年里,我們看到公司不斷投入,并沒(méi)有得到他們想要的回報(bào)?,F(xiàn)而在的技術(shù)便宜得多,更好用。從我們的角度來(lái)看,我們認(rèn)為它現(xiàn)在已經(jīng)準(zhǔn)備就緒了,取決于使用情況,我們看到了需求,有的正在實(shí)施,實(shí)現(xiàn)了投資回報(bào)。
還有沒(méi)有任何其他重要的事情,我在這里沒(méi)有想到的,但卻急于解決的?
我們沒(méi)有談到的一個(gè)趨勢(shì)是認(rèn)知。您如何構(gòu)建直觀的系統(tǒng),我可以采用它,開(kāi)始像我們一樣思考,開(kāi)始理解口語(yǔ),開(kāi)始理解圖像和圖片?
谷歌預(yù)測(cè),在未來(lái)三年內(nèi),超過(guò)50%的搜索是以音頻、圖片和視頻的形式出現(xiàn)的。讓我說(shuō)的話,他們錯(cuò)了一年。讓我說(shuō)應(yīng)該是四年。這種變化仍然非常大,將滲透到業(yè)務(wù),滲透到我們的流程,滲透到應(yīng)用程序中。
我們的企業(yè)系統(tǒng)解釋口語(yǔ)和非結(jié)構(gòu)化數(shù)據(jù)的能力以及以這些方式與我們互動(dòng)的能力正在快速發(fā)展。我們有很多這方面的項(xiàng)目。它是很多行業(yè)中巨大的投資領(lǐng)域。
具體而言?
第一是醫(yī)療保健,其次是金融服務(wù)。但所有行業(yè)都會(huì)有投入,包括酒店和休閑業(yè),這是因?yàn)橄M(fèi)者的參與。由于客戶的參與,酒店業(yè)一直是消費(fèi)品的巨大用戶。我會(huì)說(shuō),您參與的程度越高,這些技術(shù)對(duì)您的幫助越大。
醫(yī)療保健領(lǐng)域有什么例子?
一個(gè)很好的例子,我們采用了其中的幾個(gè),使用認(rèn)知技術(shù)建立一個(gè)實(shí)際案例,獲取電子病歷、藥房處方記錄、家族病史和健康風(fēng)險(xiǎn)評(píng)估,并在入戶之前為醫(yī)生編輯好這些內(nèi)容,突出顯示它們,“您需要看看這部分血液差異(這基本上是一次血液測(cè)試),因?yàn)長(zhǎng)DL超出范圍,大細(xì)胞是有問(wèn)題的”,開(kāi)始實(shí)際分析并提供建議。
然后醫(yī)生可以反問(wèn):“你能給我推薦藥物嗎?”它會(huì)給出建議——“我會(huì)推薦這種藥物,但不會(huì)使用這個(gè),因?yàn)榧彝ゲ∈酚蠿類型過(guò)敏反應(yīng),因此這種藥物禁止使用。”
機(jī)器可以在實(shí)時(shí)對(duì)話中給您提出這些建議。機(jī)器建立了一個(gè)認(rèn)知鏈,允許您進(jìn)行各種對(duì)話,它學(xué)會(huì)如何跟隨醫(yī)生,推斷他們會(huì)問(wèn)什么問(wèn)題。第一次使用它時(shí),它并不會(huì)去查看所有藥房處方,提出建議。但是當(dāng)醫(yī)生每次都問(wèn)時(shí),它會(huì)將其添加到告訴醫(yī)生的第一件事情中,隨后它會(huì)做到這一點(diǎn)。沒(méi)有任何人編寫軟件,系統(tǒng)開(kāi)始變得更聰明。您訓(xùn)練它而不是開(kāi)發(fā)它。坦率地說(shuō),這一趨勢(shì)顛覆了我們的參與方式,也顛覆了我們的開(kāi)發(fā)方式,以及我們考慮系統(tǒng)及其應(yīng)用的方式。
作者/John Dix 編譯/charles
(作者John Dix最早是在IDC從事網(wǎng)絡(luò)和分布式處理開(kāi)發(fā),1986年幫助創(chuàng)刊《網(wǎng)絡(luò)世界》,隨后就職于《計(jì)算機(jī)世界》。)
