與智能視頻監(jiān)控有關(guān)的技術(shù)挑戰(zhàn)
- 來源:中國信息化周報(bào) smarty:if $article.tag?>
- 關(guān)鍵字:編碼,視頻 smarty:/if?>
- 發(fā)布時(shí)間:2014-09-25 14:38
在大數(shù)據(jù)里,監(jiān)控視頻的數(shù)據(jù)占比較高,2010年差不多占到50%左右,到2015年可能會接近70%。當(dāng)然,隨著大數(shù)據(jù)越來越多,整個(gè)監(jiān)控視頻的比例會慢慢減少,但是即使減少,在2020年也能達(dá)到40%以上,所以這個(gè)數(shù)據(jù)處理的問題很重要。視頻監(jiān)控是一座城市安全的重要保障,在平安城市、數(shù)字城市建設(shè)中起著至關(guān)重要的作用。主要的挑戰(zhàn)可概括為三個(gè):存不下、找不到、看不清。這三個(gè)挑戰(zhàn)具體涉及到的是三個(gè)技術(shù)問題,第一個(gè)存不下的問題,事實(shí)上是編碼壓縮的問題。第二個(gè)找不到實(shí)際上是搜索的問題,當(dāng)然搜索的話,有的專家經(jīng)過星期六在論壇上湯曉鷗教授的報(bào)告之后,大家就會清楚,我們是多攝像機(jī)網(wǎng)絡(luò),要想比較有效的搜索,光看一個(gè)攝像機(jī)的內(nèi)容是不夠的,攝像機(jī)和攝像機(jī)之間必須要聯(lián)合起來一起看,所以這個(gè)就是在多攝像機(jī)網(wǎng)絡(luò)里面的搜索問題。第三個(gè)挑戰(zhàn)是所謂的看不清,現(xiàn)在的監(jiān)控視頻攝象頭的質(zhì)量是不行的,所以導(dǎo)致現(xiàn)在即使拍到了這張照片,但是人可能是看不清的。
編碼壓縮的問題
第一個(gè)存不下的問題,事實(shí)上是編碼壓縮的問題。視頻編碼的進(jìn)展還是比較快的,但是技術(shù)的進(jìn)步和數(shù)據(jù)增長的速度比起來,根本沒有辦法吻合,因?yàn)榧夹g(shù)是每十年翻一倍,但是我們知道大數(shù)據(jù),尤其是和監(jiān)控有關(guān)的大數(shù)據(jù),增長起來非常的快,所以靠傳統(tǒng)技術(shù)的進(jìn)步來解決數(shù)據(jù)本身增長量顯然是不夠的。具體說來,這個(gè)技術(shù)要解決是視頻數(shù)據(jù)的編碼效率問題,如果你有辦法把這個(gè)視頻數(shù)據(jù)很好的壓縮了,那么傳輸、存儲也可能不是大問題了。這個(gè)方面實(shí)際上我們是希望找到一個(gè)特別是對于監(jiān)控視頻比較有效的壓縮方法。
在視頻編碼里面,有三個(gè)技術(shù)是比較關(guān)鍵的,第一個(gè)技術(shù)是變換技術(shù),就是把實(shí)濾的信號放在頻率上處理,使得用一些數(shù)據(jù)工具能很好的進(jìn)行編碼壓縮。第二個(gè)是預(yù)測技術(shù),靠的是在同一幀和不同幀里找到相同的東西。第三個(gè)是商業(yè)編碼,每一個(gè)東西都有信息商,如果用商業(yè)編碼來表達(dá)就會更加有效率。所有的視頻編碼實(shí)際上是這三個(gè)技術(shù)的組合,這個(gè)技術(shù)實(shí)際上是有一個(gè)理論上限,我們現(xiàn)在可達(dá)到的成果離理論上限還有非常大的空間。
面向監(jiān)控視頻,應(yīng)該要用更好的技術(shù),我們把它叫做Lone—termVirtual,是長時(shí)的、虛擬幀的參考技術(shù)。所謂長時(shí),就是因?yàn)閳鼍翱梢蚤L時(shí)間的使用,所謂的幀其實(shí)不是一個(gè)真的幀,是算出來的,通過模型的方法來產(chǎn)生,用這樣的方法效率就比較高。這種想法是不管拍自然景物,還是會議視頻,實(shí)際上有很多東西是不變的,只有少部分是變的,如果把少部分變的東西檢測出來,不變的東西可以一直在使用,這樣就可以提高編碼效率。這里最關(guān)鍵的問題是區(qū)分背景和前景,背景用長時(shí)間不用的東西表達(dá),前景我用精細(xì)的編碼表達(dá)。為了把背景找到,我們就提出了一個(gè)技術(shù)———基幀產(chǎn)生技術(shù)。有了這項(xiàng)技術(shù)就可以很容易把一個(gè)圖像序列的前景、背景分離出來了。知道了前景和背景,有了這樣的結(jié)構(gòu),接下來就是怎么編的問題了,這樣比原來做的視頻編碼要簡單得多。
此外,還有一項(xiàng)技術(shù)不僅僅和監(jiān)控視頻有關(guān),與互聯(lián)網(wǎng)視頻也有關(guān),我們把它叫做Free—term編碼結(jié)構(gòu),這個(gè)完全是面向大數(shù)據(jù)的。
互聯(lián)網(wǎng)上有非常多的視頻和圖像,從這些東西中可以提取出一個(gè)很好的縮影,可以利用這個(gè)縮影進(jìn)行檢索,也就是說有了這個(gè)大數(shù)據(jù)了,可以通過一些稀疏的表達(dá)來構(gòu)造一個(gè)東西,然后利用這個(gè)東西來編輯編碼,使編譯效率更高。
有效搜索的問題
搜索的問題在這里面有這樣的幾個(gè)問題:對象能不能檢測得到?檢測的對象能不能跟得上?不同攝像機(jī)為了跟上,怎么切換?前兩個(gè)問題是一般模式必須要解決的問題,里面有很多必須要解決的技術(shù)。
到目前為止基本上是攝象頭接收信息,把接收到的信息送回來,已經(jīng)做了編碼壓縮,要在根上解開,然后再做分析。先有編碼,然后是解碼,然后再做檢測。如果用前面說的這種想法,因?yàn)橐婚_始我們有5分鐘的前景和背景,你的對象一定是前景上,所以只在前景上找就可以了,這樣檢測的效率就非常高。
另外是跟蹤,多攝像機(jī)的網(wǎng)絡(luò)跟蹤,攝像機(jī)和攝像機(jī)之間,它的位置、朝向、時(shí)間切換點(diǎn)等等,把這些參數(shù)很好的結(jié)合在一起,這個(gè)問題也可以推進(jìn),但是到目前為止,這個(gè)問題做得并不好,大家可以做的也就是十幾個(gè)到幾十個(gè)攝像機(jī)的跟蹤,一個(gè)城市做幾千個(gè),幾萬個(gè),幾十萬個(gè),目前根本做不到。
我們希望原來把編碼和分析像一個(gè)火車的兩條軌道完全平衡,使得所做的技術(shù)融合在一起,集中在一個(gè)編碼的框架下。如果有了這個(gè)東西,實(shí)際上在攝象頭那一端抓回來的東西,前景直接可以進(jìn)入到對象的描述和表達(dá),可以基于前景來描述出相關(guān)的內(nèi)容,比如說有哪些區(qū)域在前景上,然后把若干的圖像和若干個(gè)攝象頭的東西融合在一起,最后可以分析出來他的行為是什么,這樣就可以直接進(jìn)入到視頻監(jiān)控的環(huán)節(jié),這個(gè)是很理想的狀態(tài)。有了這個(gè),視頻監(jiān)控才能夠真正的融合到智慧城市里。
為了做這件事,技術(shù)上需要有一個(gè)完整的描述,簡單地說就是我們現(xiàn)在要制訂一個(gè)很好的語法,語法里面有很多的描述詞,通過描述詞和語法的組合,可以把很多的行為、很多的事件都描述出來,包括車是正常行進(jìn)還是非正常行進(jìn),或者是一堆人是正常的行為,還是非正常的行為,通過這個(gè)描述都可以做得到?;谶@樣的一個(gè)前景的技術(shù),在有了前景之后,利用前景的描述,很容易就把很多對象流檢測出來。只要關(guān)注前景的東西,就可以在上面進(jìn)行分析。
視頻質(zhì)量的問題
看不清的問題應(yīng)該是傳統(tǒng)的問題了,現(xiàn)在的攝象頭質(zhì)量不行,所以使得兩個(gè)方面達(dá)不到進(jìn)行很好識別的要求。第一個(gè)問題是攝象頭進(jìn)來的方向的圖像分辨率不夠,第二個(gè)問題是圖像的清晰度不夠,由于各種各樣的原因,比如說光照的原因等等,這兩個(gè)問題是挑戰(zhàn)性的問題?,F(xiàn)在很多人在研究這方面的問題,當(dāng)然最理想、最根本的辦法是把攝象頭的分辨率提上來,這個(gè)不是一兩天可以做得到,現(xiàn)在布下去那么多的攝象頭,真正滿足要求的攝象頭是少之又少的,最好的是4K的攝象頭,這個(gè)是很少的,隨著時(shí)間的推移,要慢慢推好的分辨率高的攝象頭。例如人臉識別這件事,目前的攝象頭很難做得很好,現(xiàn)在的攝象頭,比如用算法可以識別的,大概的識別率是60%、70%,要想提高到80%多,就要換4K的攝象頭,這個(gè)是我們必須要做的事。
但是,我們還可以從后臺彌補(bǔ)攝象頭不足的問題,即拋分辨率,通過不同的算法把分辨率提上來。除了這個(gè)方法之外,還有一個(gè)方法,就是把視頻流里面多個(gè)照片用在一起,最后使得分辨率提升。
在這個(gè)科技飛速發(fā)展的時(shí)代,大數(shù)據(jù)、云計(jì)算、移動互聯(lián)網(wǎng)等新一代信息技術(shù)相互交叉融合的時(shí)代,傳統(tǒng)智能視頻監(jiān)控需緊跟時(shí)代潮流,不斷創(chuàng)新與革新。隨著數(shù)字城市建設(shè)的廣泛推進(jìn),視頻監(jiān)控技術(shù)將面臨著一系列的挑戰(zhàn),對于企業(yè)而言,擁有過硬的視頻監(jiān)控技術(shù)是應(yīng)對挑戰(zhàn)、分得數(shù)字城市建設(shè)一杯羹的關(guān)鍵籌碼之一。
?。ㄒ陨蟽?nèi)容系根據(jù)高文院士在“第二屆智慧城市與智能系統(tǒng)院士論壇”上的演講整理而成)
中國工程院院士 高文
