亚洲,欧美,中文字幕,小婕子伦流澡到高潮视频,无码成人aaaaa毛片,性少妇japanesexxxx,山外人精品影院

大數(shù)據(jù)“近因偏差”刪除遺忘更重要

  • 來源:中國信息化周報
  • 關(guān)鍵字:大數(shù)據(jù),摩爾定律,近因偏差
  • 發(fā)布時間:2016-08-04 10:05

  全世界90%的數(shù)據(jù)都是最近幾年生成的,人們對這個結(jié)論可能已經(jīng)耳熟能詳。盡管能找到的這個說法的最早出處是在2013年5月,但是這種趨勢卻始終未曾發(fā)生變化。事實上,過去30年間,每隔兩年,全球總數(shù)據(jù)量就會增長大約10倍——這讓計算機行業(yè)的摩爾定律相形見絀。

  信息量大到不可思議問題頻發(fā)

  信息爆炸所帶來的問題之一在于即便和不久之前相比,當前的信息量規(guī)模都會大到不可思議的程度。假如有一本信息影集代表了你從嬰兒到成年的前18年人生,并且照片數(shù)量的增長速度和全球數(shù)據(jù)量保持一致,如果頭兩年只有兩張照片,那么從6歲到8歲的兩年間就會有兩千張照片,從10歲到12歲有20萬張,從16歲到18歲則有驚人的2億張,這意味著在16-18歲期間每秒鐘就會拍3張照片。當回頭去以更長遠的眼光來看待事物時,就會發(fā)現(xiàn)會有太多太多近期的事件,而較早的數(shù)據(jù)和事件是那么的稀少,當然,全球數(shù)據(jù)不能這樣簡單類比。全球數(shù)據(jù)增長的主要原因在于更多的人口產(chǎn)生了更多信息源,以及更大量的和更復雜、詳細的信息結(jié)構(gòu)。

  然而,如果試圖回顧或分析與上文所述影集類似的歷史記錄,就會發(fā)現(xiàn)一個相同點,越遙遠的歷史所留下的信息和記錄就會越稀少。怎么會發(fā)生這種事情呢?這就是目前大數(shù)據(jù)采集分析中存在的一項弊端。無論在哪一個時間點開始回顧歷史,都會遇到同一個麻煩:近期數(shù)據(jù)的數(shù)量遠遠超過遠期歷史數(shù)據(jù),由此,這個分析系統(tǒng)會過度重視短期趨勢而忽略長期趨勢,從而受到短視的困擾。

  為了理解這個問題的重要性,需要考慮社會科學中有關(guān)“近因偏差”(recency bias,又稱近因效應(yīng))的研究發(fā)現(xiàn)。近因偏差是指:人們在判斷事物發(fā)展趨勢時,會認為未來事件將會和近期體驗高度類似。這可以說是某種“可利用性法則”(availability heuristic)——不恰當?shù)匾宰钊菀渍J知的信息來作為思考的基礎(chǔ),這還是一種普遍的心理學特征。舉例來說,如果在居住的地方,過去幾年的夏季氣溫都很低,那么就可能認為夏季氣候正在變得更冷——或者說當?shù)氐臍夂蛘谧兝洹5?,不?yīng)該只根據(jù)少量數(shù)據(jù)分析長期趨勢,需要有一個長遠視角,才能認識真正有意義的氣候趨勢。短時期內(nèi),最好不進行任何猜測。不過,我們中間又有誰能真正做到這點呢?短期分析不僅不扎實、毫無益處,還會產(chǎn)生誤導。

  首先保存哪種數(shù)據(jù)很重要

  現(xiàn)實生活中大部分復雜事物的現(xiàn)象正是如此:股票市場、經(jīng)濟發(fā)展、企業(yè)的成功與失敗、戰(zhàn)爭與和平、國家關(guān)系、帝國的崛起和衰落等。短期分析不僅不扎實、毫無益處,還會產(chǎn)生誤導?;仡^看看,就在2008年全球金融危機襲來的時候,還有那么多經(jīng)濟學家信誓旦旦地宣稱這一事件不會發(fā)生。認為根據(jù)那種短期時間尺度的數(shù)據(jù)就能做出扎實的預測,這種想法本身就有很大的問題。我們還應(yīng)當記住,在決定哪些數(shù)據(jù)該保存還是刪除的時候,新穎性往往會成為主要的考慮因素。舊的淘汰,新的進來,在這個搜索算法本質(zhì)上偏向于新鮮事物的數(shù)字世界中,這是一個明顯的趨勢。從最高法院的裁決,到所有社交媒體服務(wù)平臺,我們到處都可以看到已經(jīng)失效的網(wǎng)址。我們身邊的幾乎所有技術(shù)都偏向于當前信息,人也一樣:大多數(shù)人已經(jīng)習慣了用四到五年的時間就把原本光鮮亮麗的設(shè)備們都丟掉。

  該怎么辦?這個問題已經(jīng)不僅僅在于如何更好保存舊數(shù)據(jù)的范疇——盡管這并不是個壞主意,更重要的是,這個問題關(guān)系到確定哪些東西值得優(yōu)先保存,以及如何在知識的名義下,選擇哪些信息最有意義?;蛟S我們需要的是我所稱之為的“智能性遺忘”:應(yīng)該讓我們的工具更多地放棄最近的信息,從而在長遠視角上保持更高水平的連續(xù)性。這有點像是以數(shù)學方法重新整理一本影集。什么時候200萬張照片的價值比2000張照片更低?什么時候較大的樣本量覆蓋范圍反而較???哪些問題的重要性較低?哪個細節(jié)水平能提供有用的質(zhì)疑證據(jù),而不是過分虛假的信心?

  許多數(shù)據(jù)集是無法縮減的,只有在完整的情況下才最寶貴,例如基因序列、人口統(tǒng)計學數(shù)據(jù)、地理和物理學的原始觀測數(shù)據(jù)等。數(shù)據(jù)的科學性越弱,數(shù)據(jù)規(guī)模與數(shù)據(jù)的質(zhì)量就越可能呈現(xiàn)負相關(guān),此時時間本身就成為更加重要的過濾工具。我們?nèi)绻蛔屑氝x擇過去保存下來的有價值、有意義的事物,它們就會被迅速膨脹的信息洪流悄無聲息地吞沒掉,能否考察長期歷史遺留下來的數(shù)據(jù)取決于考察者是否有足夠的時間和注意力。今天的企業(yè)、個人和政府機構(gòu)都能夠獲得比以往大許多數(shù)量級的數(shù)據(jù),但是決策者卻沒有足夠時間和注意力來應(yīng)對這些數(shù)據(jù)。

  今天的決策者們有越來越高效的工具幫助他們就所持有的數(shù)據(jù)提出問題,在一個數(shù)據(jù)量越來越大的時代,如何選擇主動放棄哪些事情,與選擇做什么事情一樣重要。

 ?。ㄎ恼罗D(zhuǎn)自199IT互聯(lián)網(wǎng)數(shù)據(jù)中心)

  ■佚名

關(guān)注讀覽天下微信, 100萬篇深度好文, 等你來看……