卷積神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤系統(tǒng)

來源:網(wǎng)絡(luò)空間安全
關(guān)鍵字:多目標(biāo)跟蹤,卷積神經(jīng)網(wǎng)絡(luò),目標(biāo)檢測
發(fā)布時間:2019-02-01 10:53

　　摘要：目前，卷積神經(jīng)網(wǎng)絡(luò)在圖像識別和圖像分類領(lǐng)域取得了很大的進(jìn)展。通過優(yōu)化網(wǎng)絡(luò)模型，來提高目標(biāo)識別的精度和幀率。因此，將相對成熟的卷積神經(jīng)網(wǎng)絡(luò)模型用于多目標(biāo)跟蹤這一任務(wù)變得可行。論文利用卷積神經(jīng)網(wǎng)絡(luò)模型SSD（The Single Shot Multi Box Detector）設(shè)計了一種多目標(biāo)跟蹤算法。將SSD作為模型檢測的主要框架，把訓(xùn)練樣本分為目標(biāo)和背景兩類，以此完成測試模型的離線訓(xùn)練，并以檢測每個視頻幀的方式完成整個視頻的跟蹤任務(wù)。在MOT16數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明，該算法在實(shí)時性、準(zhǔn)確性和魯棒性方面都具有良好的表現(xiàn)。

　　關(guān)鍵詞：多目標(biāo)跟蹤；卷積神經(jīng)網(wǎng)絡(luò)；目標(biāo)檢測

　　中圖分類號：TP393.2 文獻(xiàn)標(biāo)識碼：A

　　1 引言

　　論文重點(diǎn)介紹單鏡頭條件下的多目標(biāo)跟蹤。數(shù)據(jù)關(guān)聯(lián)和隨機(jī)集理論是解決多目標(biāo)跟蹤問題的兩種主流思想[1]，數(shù)據(jù)關(guān)聯(lián)要求在跟蹤的多個采樣周期期間對數(shù)據(jù)進(jìn)行關(guān)聯(lián)，這樣可以為建立目標(biāo)航跡提供初始信息，同時也就需要對觀測數(shù)據(jù)進(jìn)行融合和測量，以此來確定跟蹤生命周期。該算法的關(guān)鍵技術(shù)是尋找同一對象與前兩幀之間的關(guān)系，缺點(diǎn)是顯而易見的，一旦數(shù)據(jù)關(guān)聯(lián)錯誤，多目標(biāo)跟蹤將失敗[2]。

　　結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展現(xiàn)狀，避開傳統(tǒng)的數(shù)據(jù)關(guān)聯(lián)和隨機(jī)集理論，嘗試先對SSD模型進(jìn)行離線訓(xùn)練，然后進(jìn)行全視頻幀檢測來解決多目標(biāo)跟蹤問題，并且取得了良好的跟蹤效果。該方法避免了由誤差累積引起的跟蹤盒偏移現(xiàn)象，跟蹤魯棒性和長期跟蹤能力顯著提高。

　　2 卷積神經(jīng)網(wǎng)絡(luò)-單次目標(biāo)檢測器（SSD）

　　SSD方法是基于一個前向傳播的CNN網(wǎng)絡(luò)，該網(wǎng)絡(luò)產(chǎn)生一些列固定大小的Bounding Boxes，以及每個Box中包含物體實(shí)例的可能性，即得分，然后進(jìn)行一個非極大值抑制（Non-maximum Suppression）得到最終的預(yù)測。早期網(wǎng)絡(luò)層基于用于高質(zhì)量圖像分類（在任何分類層之前被截斷）的標(biāo)準(zhǔn)體系結(jié)構(gòu)，作者稱之為基本網(wǎng)絡(luò)。然后，向網(wǎng)絡(luò)添加輔助結(jié)構(gòu)以產(chǎn)生具有關(guān)鍵特征的檢測。

　　Multi-scale Feature Maps for Detection在基礎(chǔ)網(wǎng)絡(luò)的末端添加了額外的卷積層，這些層的尺寸逐漸減小，并且可以在多個尺度下進(jìn)行預(yù)測。用于預(yù)測的卷積模型對于每個特征層（參見Overfeat和YOLO，它們在單個比例尺特征圖上操作）是不同的。

　　Convolutional Predictors for Detection每個添加的特征層（或者可選地在基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)中的現(xiàn)有特征層），可以使用一系列的卷積濾波器來產(chǎn)生一系列大小固定的預(yù)測集。這些在圖1中的SSD網(wǎng)絡(luò)體系結(jié)構(gòu)中有所表示。對于一個具有p通道且大小為m×n的特征層，使用的卷積濾波器就是3×3×p的內(nèi)核，產(chǎn)生的預(yù)測要么是歸屬類別的一個得分，要么是一個相對于默認(rèn)盒坐標(biāo)的形狀偏移。在每個特征圖的m×n的位置上，使用3×3的內(nèi)核它就會產(chǎn)生一個輸出值。邊框偏移輸出值是相對于默認(rèn)值測量的。

　　3 SSD跟蹤多目標(biāo)

　　3.1 算法框架

　　在GPU并行計算能力的支持下，諸如Caffe、TensorFlow、Torch和Theano等許多深入學(xué)習(xí)的基本框架得到了迅速發(fā)展。其中，以Caffe框架支持的SSD為代表的一系列神經(jīng)網(wǎng)絡(luò)模型具有很大的影響力。隨著卷積神經(jīng)網(wǎng)絡(luò)模型的不斷優(yōu)化，單幀圖像的模型訓(xùn)練和目標(biāo)檢測時間不斷縮短。目前，最新的卷積神經(jīng)網(wǎng)絡(luò)模型可以在GPU環(huán)境下檢測高達(dá)78幀/秒的幀速率。在幀周圍基本達(dá)到了實(shí)時檢測的能力。

　　在快速R-CNN網(wǎng)絡(luò)模型的基礎(chǔ)上，設(shè)計了一種簡單的多目標(biāo)跟蹤框架，并通過實(shí)驗(yàn)驗(yàn)證了該算法的可行性。與傳統(tǒng)的多目標(biāo)相比跟蹤算法，該方法可以進(jìn)行長期跟蹤，有很明顯的優(yōu)勢。

　　本文的算法包括訓(xùn)練和跟蹤兩部分。由于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練時間較長，很難用樣本反饋在線更新網(wǎng)絡(luò)模型，所以實(shí)時性較差。因此，本文的實(shí)踐就是對網(wǎng)絡(luò)模型進(jìn)行了提前改進(jìn)即離線培訓(xùn)，沒有在線更新。模型訓(xùn)練完成后，直接嵌入多目標(biāo)跟蹤程序框架中，以檢測方式完成各幀中目標(biāo)的定位與跟蹤。模型試驗(yàn)的結(jié)果將計算目標(biāo)的預(yù)測位置和相似性得分，并根據(jù)這兩個方面的信息確定目標(biāo)的最終狀態(tài)。在本文中，該程序直接用矩形框滿足相似性要求，并且不顯示其余信息。

　　首先利用樣本集訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型，然后利用訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型提取目標(biāo)特征，對目標(biāo)進(jìn)行跟蹤匹配。

　　3.2 參數(shù)設(shè)置與模型訓(xùn)練

　　本實(shí)驗(yàn)主要針對MOT16視頻集，跟蹤對象是人，選取的樣本分為正樣本和負(fù)樣本兩類，正樣本是人的目標(biāo)，樣本數(shù)是10000，負(fù)樣本是背景信息，樣本數(shù)是20000，測試樣本是T。它的號碼是500。樣本信息收集自ImageNet數(shù)據(jù)庫、UIUC圖像數(shù)據(jù)庫和PASCAL VOC的汽車數(shù)據(jù)庫。卷積神經(jīng)網(wǎng)絡(luò)模型選用MatConvNet 24.0，模型的訓(xùn)練和目標(biāo)識別均采用GPU加速。因此，在參數(shù)設(shè)置中opts.gpus=1，將學(xué)習(xí)速率參數(shù)設(shè)置為pts.learningRate=0.001。在本實(shí)驗(yàn)中，由于只有兩種樣品，卷積神經(jīng)網(wǎng)絡(luò)模型只需要確定候選區(qū)域是否包含目標(biāo)區(qū)域和目標(biāo)的相似性，因此類別數(shù)量參數(shù)nCls被設(shè)置為2，使用準(zhǔn)備好的正樣本和負(fù)樣本進(jìn)行模型訓(xùn)練，并設(shè)置迭代次數(shù)opts.numEpochs=10000。

　　4 評估

　　4.1 參數(shù)設(shè)置和測試視頻集

　　實(shí)驗(yàn)采用計算機(jī)CPU i5-6500，3.2GHZ，GTX1050。程序參數(shù)設(shè)置如下：候選框是初始對象大小的2.5倍，學(xué)習(xí)率為0.001。為了全面評估所提出的算法，本文評估了在MOT16數(shù)據(jù)庫上的跟蹤性能，該數(shù)據(jù)庫包括七個具有挑戰(zhàn)性的視頻序列，包括帶有移動相機(jī)的前視場景和自頂向下監(jiān)控設(shè)備。

　　評估標(biāo)準(zhǔn)用于評估算法的性能包括：多目標(biāo)跟蹤精度（MOTA↑）、多目標(biāo)跟蹤精度（MOTP↑）、正確跟蹤軌跡占80％以上（MT↑）、正確跟蹤軌跡占20％以上（ ML↓）、目標(biāo)ID變化數(shù)（IDS↓）、誤檢目標(biāo)數(shù)（FP↓）、漏檢目標(biāo)數(shù)（FN↓）、軌道斷開數(shù)（Frag↓）和運(yùn)行速度（Runtime↑）。比較算法是TBD、NOMT、SORT和POI，且這四種多目標(biāo)跟蹤算法是目前比較出色的多目標(biāo)跟蹤算法。

　　4.2 算法比較與分析

　　算法比較測試視頻和測試結(jié)果如表3所示。

　　圖3是測試視頻的效果圖，由上往下，可以看出實(shí)線框內(nèi)的人物被清晰地標(biāo)注出，表明目標(biāo)此時被檢測到，并且能夠跟蹤上，圖3中間一圖，玫紅色線框的目標(biāo)被遮擋而不能被檢測出時，系統(tǒng)嘗試用卡爾曼濾波器預(yù)測其出現(xiàn)的位置。

　　這個測試結(jié)果表明文中實(shí)現(xiàn)的算法處理多目標(biāo)跟蹤問題是有效的。當(dāng)目標(biāo)不被遮擋且沒有復(fù)雜的運(yùn)動時能夠?qū)崿F(xiàn)穩(wěn)定跟蹤，在目標(biāo)遮擋時間較短時，能預(yù)測目標(biāo)在下一幀的位置，并重新匹配，這就說明算法可以同時對多個目標(biāo)進(jìn)行跟蹤。

　　5 結(jié)束語

　　本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)檢測的多目標(biāo)跟蹤算法。檢測模型在所有視頻幀中執(zhí)行全圖像檢測。在多個視頻測試集上的實(shí)驗(yàn)表明，該方法可以旋轉(zhuǎn)目標(biāo)，變形具有較高的公差。同時，與傳統(tǒng)的多目標(biāo)跟蹤算法相比，該算法具有明顯的優(yōu)勢。該算法在長期跟蹤中具有很強(qiáng)的魯棒性，避免了傳統(tǒng)的跟蹤算法由于跟蹤時間的延長導(dǎo)致誤差的累積，最終導(dǎo)致跟蹤失敗的缺點(diǎn)。

　　本文提出的多目標(biāo)跟蹤算法結(jié)構(gòu)簡單，所暴露出的一些缺點(diǎn)和不足是今后研究的重點(diǎn)：

　?。?）該算法只對特定類型的目標(biāo)進(jìn)行模型訓(xùn)練，沒有對跟蹤部分進(jìn)行深入的設(shè)計，因此在跟蹤時所有屬于這些目標(biāo)的候選區(qū)域都將被標(biāo)記；

　?。?）在視頻幀中有時會出現(xiàn)錯誤警報和未命中的標(biāo)簽。下一階段將研究如何將軌跡預(yù)測與多目標(biāo)跟蹤相結(jié)合，同時研究正負(fù)樣本選擇和訓(xùn)練迭代參數(shù)設(shè)置對訓(xùn)練結(jié)果的影響。

　　參考文獻(xiàn)

　　[1]辛菁，等.基于卷積神經(jīng)網(wǎng)絡(luò)的機(jī)器人對未知物體視覺定位控制策略[J].信息與控制，2018，47(3)，335-362.

　　[2]胡大帥，等.卷積神經(jīng)網(wǎng)絡(luò)在電視跟蹤系統(tǒng)中的應(yīng)用展望[J].飛航導(dǎo)彈，2018（6）71-74.

　　（上海工程技術(shù)大學(xué)電子電氣工程學(xué)院，上海201600）

　　朱珠

關(guān)注讀覽天下微信， 100萬篇深度好文，等你來看……

立即購買本期雜志

查看本期更多內(nèi)容

亚洲,欧美,中文字幕,小婕子伦流澡到高潮视频,无码成人aaaaa毛片,性少妇japanesexxxx,山外人精品影院

卷積神經(jīng)網(wǎng)絡(luò)的多目標(biāo)跟蹤系統(tǒng)