亚洲,欧美,中文字幕,小婕子伦流澡到高潮视频,无码成人aaaaa毛片,性少妇japanesexxxx,山外人精品影院

多媒體大數(shù)據(jù)分析與搜索

  • 來源:中國信息化周報
  • 關(guān)鍵字:多媒體,大數(shù)據(jù),跨攝像頭
  • 發(fā)布時間:2015-12-31 11:23

  現(xiàn)代社會中,大數(shù)據(jù)來源豐富,使得交通、醫(yī)療衛(wèi)生、教育、安全等都發(fā)生了變化,而在智慧城體系中,監(jiān)控視頻是體量最大的大數(shù)據(jù)?;诖?,我主要分享媒體大數(shù)據(jù)的三個挑戰(zhàn)問題。第一,存不下,24小時產(chǎn)生的數(shù)據(jù)量積累得很大。第二,看不清,用眼睛看,橫看豎看,還是看不清楚,可能有時候都要猜來猜去,還需要很有經(jīng)驗的人才能看出來大概。為什么?存的時候做了壓縮,壓縮時不知將來作何用,為了節(jié)省存儲量,壓得太狠了,再把它解開時基本看不清。第三,找不到。現(xiàn)在攝像頭到處都是,攝像頭拍到了,但是不是想要找的?不知道,即使看清楚了,一跨攝像頭也就找不到了。所以攝像機(jī)網(wǎng)絡(luò)跨攝像頭搜索問題也是個難題。

  超高效視頻編碼 解決壓縮問題

  第一個挑戰(zhàn),我們想辦法找到最高效的編碼來應(yīng)對這個挑戰(zhàn)。視頻流是圖像序列,在每個單獨的圖像里是有冗余的,通常叫“空間冗余”。相鄰的像素或圖像塊會有一些相關(guān)性,這些相關(guān)性即是“冗余”,這種冗余可以通過濾波器的算法進(jìn)行估算。如果參數(shù)對了,就可以用它去做預(yù)測,繼而找到一些更簡潔的表達(dá)方式,不需要那么多比特就可以壓縮了,這就是空間冗余。其次是“時間冗余”,即一個圖像序列,第一幀和第二幀有很多是連續(xù)的,背景幾乎是一樣的,它有很多東西是重復(fù)的,這個重復(fù)的就是冗余,我們管它叫“時間冗余”。第三種是“感知冗余”,行業(yè)里的人把它叫“編碼冗余”。比如26個字母要怎么表達(dá)?給出8個bit或7bit,每個字母給的bit是一樣的,學(xué)計算機(jī)的人都知道這種分法是不科學(xué)的,應(yīng)該怎么分?按照它的信息熵來分,圖像也是一樣,每個像素表達(dá)的亮度、顏色在每類里分布不均勻,最好把出現(xiàn)概率高的那些單體給它比較短的碼,把出現(xiàn)概率低的給長碼,統(tǒng)計上面就會比較合理,對此我們稱之為“熵編碼”。如果這三種用好了,就有辦法把圖像或視頻完美地壓縮下去。

  現(xiàn)在圖像壓縮實際達(dá)到的現(xiàn)狀和理論有很大差別,但同時空間也很大。到現(xiàn)在為止,編碼技術(shù)離理論上限大概還有百分之八九十的空間可以改進(jìn),因為在數(shù)學(xué)上我們很容易證明理論上限,若干個上限中可以取最低的上限,就很容易計算出有多大空間可以繼續(xù)改進(jìn)。這就是為什么視頻編碼領(lǐng)域這些年還在不停地發(fā)展,并且,每十年編碼效率就會提高1倍。

  在這樣每十年翻一番的情況下,算法變得更復(fù)雜了,計算的復(fù)雜度換取了編碼的效率。當(dāng)然,這里有很多新的算法,以前因為硬件比較貴,不能讓編碼的器件成本太高,所以有些算法還行,只要算法太復(fù)雜就基本不用?,F(xiàn)在不在乎這個,因為集成電路發(fā)展以后,算法愈來愈多,編碼放進(jìn)去后視頻效果會越來越好。針對監(jiān)控視頻我們會有更好的方法,使它的效率更高。

  從編碼的角度,去空間冗余、去時間冗余和去編碼冗余這三種技術(shù)可以把視頻流里的冗余去掉,這三種技術(shù)包含了許多算法,有變換、濾波、運動補(bǔ)償、熵編碼等。去空間冗余最主要的工具是變化,把時域變到頻域上再進(jìn)行處理,對于空間的冗余主要是采用預(yù)測編碼的方式去除,對于感知主要是通過熵編碼去除。

  面向?qū)ο髾z測、跟蹤與識別解決模式識別問題

  第二個挑戰(zhàn),對象檢測、跟蹤識別挑戰(zhàn)。模式識別率再高、人臉識別再準(zhǔn),識別的準(zhǔn)和不準(zhǔn)取決于算法的好壞,還取決于在編碼那端能不能提供支持。以往這兩個系統(tǒng)像軌道一樣完全平行,我們希望編碼和識別能合作,把中間那堵墻翻過去或者拆掉。怎么拆掉?編碼時要考慮怎么辦?,F(xiàn)在我們提出個支持是ROI(Region of Internet),就是編碼時識別出來哪個區(qū)域可能是識別要用的區(qū)域,把這個區(qū)域定義成感興趣區(qū)域,對于感興趣區(qū)域要描繪出來,現(xiàn)在語法里對感興趣區(qū)域有專門的描述,除了這個區(qū)域以外還包括其他的,比如GPS信息、攝像機(jī)參數(shù)信息。有了這個以后,在后面編碼時,會針對編碼參數(shù)進(jìn)行調(diào)整,ROI區(qū)域壓得輕一點,這樣關(guān)鍵的信息丟失的會少一點。

  有了這樣的知識,可以用它架構(gòu)友好的智能監(jiān)控識別體系。現(xiàn)在即使有個算法很好,比如266,它編碼的效率和AVS2是一樣的,我說那也不行,為什么?因為你壓完以后還有解,解的時候才知道哪個地方是可識別的?,F(xiàn)在壓的時候就知道哪個東西有用,哪個東西沒有用,有用的可以壓得輕一點,這樣構(gòu)建分析架構(gòu),底層是完全的視頻流,視頻流上面可以構(gòu)架一個區(qū)域描述,不是有ROI么,這個“R”就是Region,根據(jù)區(qū)域描述,若干的區(qū)域構(gòu)成個對象,它們的關(guān)聯(lián)就可以構(gòu)成事件,只要處理能力足夠強(qiáng),我就把這個東西表述出來了,這對識別非常有用。

  以大規(guī)模視覺搜索 解決跨攝像頭搜索問題

  第三個挑戰(zhàn),跨攝像頭怎么辦?我們可以對跨攝像頭的數(shù)據(jù)進(jìn)行矯正,然后再進(jìn)行一些后續(xù)的工作。這方面有很多工作已經(jīng)開始做了,比如我們試驗室學(xué)生搭了一個系統(tǒng),你在北大校園的一個地方走,其他幾個框是別的幾個攝像頭,從一個攝像頭跨到另外一個攝像頭的時候,現(xiàn)在有一個專門技術(shù)是再認(rèn)證,一個人在一個攝像頭里出現(xiàn)過,當(dāng)他出現(xiàn)在第二個攝像頭的時候,就可以被識別出來。因為有時候可能不是正臉,靠人臉識別已經(jīng)不管用了,就要靠顏色、身體、步態(tài)、外形等綜合識別。

  要做好這個系統(tǒng)有一個重要的技術(shù)是能做到大規(guī)模的搜索。大規(guī)模的搜索這一塊我們組有個很好的工作叫CDVS,它可以用很少的特征去搜索你要的東西,比如我用手機(jī)拍一張照片或者拍一個景色,拍完以后傳送到服務(wù)器,搜索后會告訴你拍的是哪里。這個過程它需要你的特征選得非常好、非常準(zhǔn),然后有代表性,這樣才能搜索得比較準(zhǔn)。

  可以用一組特征,這組特征我們把它命名叫“CDVS”,CD是一個緊縮的描述詞,就是面向視覺搜索的緊縮描述詞,這也是在國際標(biāo)準(zhǔn)化框架下面做的。前一段時間有個多媒體描述標(biāo)準(zhǔn)是MEPG7。

  這里面的關(guān)鍵技術(shù),一個是選擇特征點,然后是選擇特征,把這些特征進(jìn)行聚合、壓縮、進(jìn)行點壓縮,最后變得非常小。舉例來說有多小,比如你照了個照片,這個照片有三、四兆大的尺寸,我們從中提出來大概500個bit,連1k都不到,就可以進(jìn)行搜索了,最高可以到16k,16k檢索的效率就更高,我們判斷特征好不好是用召回率來判斷,我們都希望召回率達(dá)到90%,低于90%就認(rèn)為這個特征沒有選好。什么叫召回率90%?我用完整的照片到庫里搜出來的東西,和我用521個去搜,是不是有90%都在我搜的100個里面,如果是的話那你這個特征是可以的,這是一個準(zhǔn)則。

  后臺的技術(shù)會涉及到數(shù)據(jù)壓縮、計算機(jī)視覺特征提取以及機(jī)器學(xué)習(xí)和視覺挖掘。和特征、視覺有關(guān)的主要是局部描述,模式識別里有個非常好的描述詞叫“SIFT特征”,它可以保持平移不變、旋轉(zhuǎn)不變、伸縮尺度不變等。但是這個特征也有問題,一個是專利問題,另一個是耗費存儲比較大,耗費計算時間比較大。

 ?。ū疚母鶕?jù)高文在“2015中國大數(shù)據(jù)技術(shù)大會”上的演講整理而成,未經(jīng)本人確認(rèn)。)

  高文

關(guān)注讀覽天下微信, 100萬篇深度好文, 等你來看……