大數(shù)據(jù):顛覆的力量(一)
- 來源:中國信息化周報(bào) smarty:if $article.tag?>
- 關(guān)鍵字:大數(shù)據(jù),服務(wù),設(shè)備 smarty:/if?>
- 發(fā)布時(shí)間:2019-08-04 19:51
大數(shù)據(jù)本身在概念和應(yīng)用上已經(jīng)與我們越來越密切了。今天在開始大數(shù)據(jù)這個(gè)話題前,先從兩個(gè)國際事件說起。一個(gè)是糾結(jié)了很長時(shí)間的英國首相要辭職了,另一個(gè)是美國不斷“退群”。實(shí)際上這兩個(gè)事件都是和英國脫歐和美國大選有關(guān)。這三四年來,大家已經(jīng)看到這些事件在他們國家?guī)淼纳鐣毫?、對世界格局的沖擊,以及國際秩序、多邊關(guān)系的挑戰(zhàn)。非常巧的是這兩個(gè)事件的背后都有一家公司的影子,就是英國劍橋分析公司,簡稱CA。這家公司用數(shù)據(jù)做選民分析,做助選服務(wù)。這家公司的服務(wù)主要做的是心理畫像,它根據(jù)收集到的大量數(shù)據(jù),包括千萬級的Facebook數(shù)據(jù),采用國際心理學(xué)界比較有名的Ocean心理模型來刻畫選民的人格特征,它能刻畫一個(gè)人喜歡什么、擔(dān)憂什么、對什么感興趣、宗教的取向以及價(jià)值的態(tài)度。用這家公司CEO的話來講,“我們可以預(yù)測每個(gè)美國成年人的人格特征”。其實(shí)這家公司并不是那么出名,還有更加出名的公司也在選舉中提供各種服務(wù),但是其他公司的服務(wù)基本都基于人口統(tǒng)計(jì)學(xué)的信息,也就是性別、膚色、宗教、收入、年齡、教育等信息,但是這家公司從另外的視角,即從心理的視角刻畫一個(gè)人的心理歷程或者叫做數(shù)字腳印。另一方面,他們可以獲得更加細(xì)粒度的數(shù)據(jù),使得心理層面、人格層面的刻畫成為可能。這就是我們所說的大數(shù)據(jù)的影響。
大數(shù)據(jù)時(shí)代的兩個(gè)階段
我們現(xiàn)在處在一個(gè)數(shù)據(jù)的海洋當(dāng)中。2019年的春運(yùn)是世界上最大的人口遷徙,有30億人次的流動。2018年“雙十一”有2135億的銷售額度?,F(xiàn)在,每天會產(chǎn)生450億的微信條目。手機(jī)的網(wǎng)民已經(jīng)達(dá)到8.17億。總體來說,我們國家的GDP數(shù)字經(jīng)濟(jì)占比已經(jīng)達(dá)到了34.8% ,超過了1/3,這方面實(shí)際能夠體現(xiàn)出我們這個(gè)社會已經(jīng)開始越來越數(shù)字化了。
說起大數(shù)據(jù)、大數(shù)據(jù)時(shí)代,主要的時(shí)代背景是什么?現(xiàn)實(shí)世界有多大程度上可以被數(shù)據(jù)表示?用一個(gè)形象的話來講,我們的社會像素正在急劇提升。這個(gè)“像素”來自到處可見的感測設(shè)備——探頭、智能手機(jī)、可穿戴設(shè)備、車載設(shè)備,林林總總。這些使我們這個(gè)社會的數(shù)字化程度越來越高,數(shù)據(jù)的粒度因此也越來越細(xì)。也就是說,數(shù)字化生活的兩個(gè)要素之一:像素,數(shù)據(jù)的粒度已經(jīng)具備。像素夠高的時(shí)候我們要干什么?形象地說是“成像”,就像手機(jī)、相機(jī),像素越高成像的質(zhì)量可能越好,因此,成像是我們數(shù)字化生活中另外一個(gè)重要的要素,像素和成像對應(yīng)起來,就把數(shù)據(jù)和算法聯(lián)系起來了,這就是我們所說的大數(shù)據(jù)時(shí)代。
大數(shù)據(jù)時(shí)代可以分成兩個(gè)階段,我們用商務(wù)的形態(tài)來說明這個(gè)問題。第一階段是數(shù)據(jù)商務(wù)階段。不斷地把現(xiàn)實(shí)生活中的要素,人財(cái)物,都進(jìn)一步數(shù)據(jù)化,同時(shí)根據(jù)這些數(shù)據(jù)化的人財(cái)物進(jìn)行算法的應(yīng)用。第二階段是算法商務(wù)階段。當(dāng)像素足夠高,重點(diǎn)就變成了成像,變成算法應(yīng)用了。數(shù)據(jù)商務(wù)階段和算法商務(wù)階段都圍繞著數(shù)據(jù)和算法進(jìn)行,但是重點(diǎn)有所不同。數(shù)據(jù)商務(wù)階段就像做菜一樣,數(shù)據(jù)化的過程就是不斷準(zhǔn)備材料的過程,不停地增加和豐富材料,然后根據(jù)已有的材料提供不同的菜品。但是算法商務(wù)階段是材料已經(jīng)足夠豐富了,這個(gè)時(shí)候要比的就是手藝了,你是不是能夠做得更好、更多。這就是我們所說的算法進(jìn)階及應(yīng)用創(chuàng)新,如“智能+”,我們可以用更加高尖的智能技術(shù),包括人工智能的很多技術(shù)在現(xiàn)有的大規(guī)模數(shù)據(jù)下進(jìn)行應(yīng)用。
大數(shù)據(jù)的數(shù)據(jù)特征
那么什么是大數(shù)據(jù)?可以從4 個(gè)維度來理解,即 4V:volume(規(guī)模)、variety(多樣)、value(價(jià)值)、velocity(速度)。大家對這四個(gè)維度沒有什么大的爭議,但是對它們的含義的理解還是有相當(dāng)不同的認(rèn)識的。
第一規(guī)模,我們稱之為超規(guī)模。大數(shù)據(jù)規(guī)模會很大,但是沒有絕對的量綱,沒有說一定要達(dá)到多少G、多少P、多少Z才是大數(shù)據(jù),這個(gè)不一定,因?yàn)榇髷?shù)據(jù)的大規(guī)模和問題、領(lǐng)域有關(guān)。只要這個(gè)大的規(guī)模超出了這個(gè)領(lǐng)域和問題的傳統(tǒng)邊界,那就是大規(guī)模里的超規(guī)模。第二多樣,即富媒體的意思?,F(xiàn)在80%-90%的數(shù)據(jù)都是文本、語音、圖像、視頻,不再是特別傳統(tǒng)的二維的整齊的結(jié)構(gòu)化的數(shù)據(jù)了。第三價(jià)值。我們處在數(shù)據(jù)的海洋中,但是跟我個(gè)人有關(guān),跟我企業(yè)有關(guān)的那種有價(jià)值的信息相對少了,因?yàn)閿?shù)據(jù)量的分母太大了,即密度在降低,這個(gè)后面直接的隱喻就是要深度挖掘才能發(fā)現(xiàn)我們希望的價(jià)值。第四速度。數(shù)據(jù)就像開著的水龍頭一樣,源源不斷地出來,而不是我們上傳下載圖片要等很久。因此,大數(shù)據(jù)里的數(shù)據(jù)是一個(gè)流數(shù)據(jù)的概念。
大數(shù)據(jù)的問題特征
什么樣的問題才是大數(shù)據(jù)問題?這要看它的問題特征。第一個(gè)特征,是粒度縮放。粒度縮放是指我們碰到的問題的要素一定是數(shù)據(jù)化的,即這個(gè)要素不管是宏觀的還是微觀的,一定可以通過數(shù)據(jù)表示。同時(shí),可以像地圖一樣,可以在特別大的范圍和特別小的范圍之間縮放,能夠在宏觀、微觀之間進(jìn)行映射。
第二個(gè)特征,是大數(shù)據(jù)外部性導(dǎo)致的特征,稱之為跨界關(guān)聯(lián)??紤]問題的時(shí)候要看視角,問題邊界在哪兒,如果考慮問題的時(shí)候這個(gè)邊界到了傳統(tǒng)邊界之外,就是跨界了,而且你把這個(gè)外部的要素和內(nèi)部要素聯(lián)系起來了。比如管理學(xué)中,傳統(tǒng)企業(yè)管理最常見的就是怎么把業(yè)務(wù)流程做好,優(yōu)化流程,提高質(zhì)量,同時(shí)改進(jìn)人力資源環(huán)節(jié)、財(cái)務(wù)環(huán)節(jié),制定企業(yè)戰(zhàn)略,基本是站在企業(yè)內(nèi)部看不同的部門,站在里面稍微往左看一看是供應(yīng)商,稍微往右看一看是客戶。企業(yè)花了很多努力,突然有一天一個(gè)人在網(wǎng)上拍了一板磚,說這個(gè)企業(yè)產(chǎn)品有問題、服務(wù)不好,還沒有容得辯解,成百上千萬跟貼,瞬間就把企業(yè)的產(chǎn)品、形象、品牌定格成了某一個(gè)形象、某一個(gè)狀態(tài),然后企業(yè)可能還很委屈,因?yàn)橛X得這些人既不是我的客戶,也不是我的員工,他們好像就是原本跟企業(yè)沒有聯(lián)系的社會大眾,但是他們的口碑卻對產(chǎn)品、質(zhì)量、品牌、形象產(chǎn)生影響。因此,當(dāng)管理決策的視角不僅是考慮內(nèi)部,而且要考慮外部和企業(yè)相關(guān)的因素時(shí),這個(gè)問題就開始變成大數(shù)據(jù)問題了。你要跨出你的傳統(tǒng)邊界。第三個(gè)特征,全局視圖。大數(shù)據(jù)實(shí)際是希望了解全貌的,它最后是要看畫像,因?yàn)榍懊嫖业拿恳粋€(gè)點(diǎn)、每一個(gè)環(huán)節(jié)的數(shù)據(jù)叫做粒度縮放,同時(shí)和我相關(guān)的要素我又關(guān)聯(lián)了,但是我最后要干什么?要了解全貌,要有個(gè)人畫像、企業(yè)畫像、政府畫像、社會畫像等,所以這個(gè)畫像本身又是全景式的,從范圍來講是全景式的,從內(nèi)涵來講,既關(guān)聯(lián)又因果。
舉兩個(gè)簡單的例子。一個(gè)例子是旅游。比如某個(gè)景點(diǎn),經(jīng)常在一些時(shí)間和假期人滿為患,因此可能出現(xiàn)游客不滿意投訴的現(xiàn)象。如果我們僅從景點(diǎn)這個(gè)邊界出發(fā)來提供優(yōu)化的方案,解決質(zhì)量的問題就很困難。實(shí)際上如果要解決景點(diǎn)的問題,一定要走到景點(diǎn)之外,當(dāng)我們考慮了景點(diǎn)內(nèi)外要素時(shí),就有了跨界關(guān)聯(lián)的屬性,作為整個(gè)的旅游我們來看景點(diǎn)內(nèi)外時(shí),我們有這樣一個(gè)全局的視圖,我們面對的就是一個(gè)大數(shù)據(jù)問題了。
另外一個(gè)例子是共享單車。現(xiàn)在每輛共享單車都有自己的感應(yīng)器和定位裝置,也就是說感測的數(shù)據(jù)粒度到了車和部件。這時(shí)候就不單是一個(gè)單車了,可能我走到什么地方,共享單車的App就告訴我附近有什么商圈、酒店、餐館,當(dāng)視角從單車走到了其他行業(yè)、要素時(shí),就開始跨界關(guān)聯(lián)了。共享單車的平臺應(yīng)該清楚什么地方需要車,什么地方不需要車,怎么樣調(diào)動,這就是全局視圖。當(dāng)共享單車具備粒度縮放、跨界關(guān)聯(lián)和全局視圖時(shí),共享單車的運(yùn)營、優(yōu)化,就是一個(gè)大數(shù)據(jù)問題。
這些年社會上比較流行一個(gè)論斷,說“大數(shù)據(jù)只講關(guān)聯(lián)不講因果”。這個(gè)論斷雖然有一定道理,但是總體來講是誤導(dǎo)的。特別是在重要決策的時(shí)候,如果涉及到的后果可能會有嚴(yán)重的人、財(cái)、物的損失,誰敢做決策?所以在大數(shù)據(jù)環(huán)境下做管理決策,既要看關(guān)聯(lián)也要看因果。
?。ǜ鶕?jù)清華大學(xué)經(jīng)濟(jì)管理學(xué)院EMC講席教授陳國青演講整理而成,未經(jīng)確認(rèn))
