當(dāng)前位置: 首頁 > 工業(yè)電氣產(chǎn)品 > 端子與連接器 > 線路板連接器 > FFC連接器
發(fā)布日期:2022-05-18 點(diǎn)擊率:71
8月18日消息,來自新加坡管理大學(xué)和 Salesforce 亞洲研究院的研究人員撰寫了一篇論文,對基于深度學(xué)習(xí)的視覺目標(biāo)檢測的近期發(fā)展進(jìn)行了全面綜述,系統(tǒng)性地分析了現(xiàn)有的目標(biāo)檢測框架。
該綜述文章包括三個(gè)主要部分:1)檢測組件;2)學(xué)習(xí)策略;3)應(yīng)用與基準(zhǔn),并詳細(xì)介紹了影響目標(biāo)檢測性能的多種因素,如檢測器架構(gòu)、特征學(xué)習(xí)、候選框生成、采樣策略等。
下圖 2 展示了,2012 年以來基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)的主要發(fā)展和里程碑。這篇論文介紹了這些關(guān)鍵技術(shù)的基本思想,并進(jìn)行了系統(tǒng)性分析。

圖 2:2012 年以來,基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測技術(shù)的主要里程碑。過去一年的技術(shù)發(fā)展趨勢是基于 anchor-free 的目標(biāo)檢測器(紅色線)和 AutoML 技術(shù)(綠色線),這兩項(xiàng)技術(shù)可能成為未來重要的研究方向。
因?yàn)樵摼C述論文花了近 40 頁篇幅綜述各種解決方案與組成結(jié)構(gòu),內(nèi)容覆蓋了這些年主要的研究進(jìn)展與突破,所以機(jī)器之心只介紹部分內(nèi)容,更詳細(xì)的介紹請查閱原論文。
當(dāng)然,以前機(jī)器之心也曾介紹過很多目標(biāo)檢測方面的研究或綜述文章,因此本文會(huì)側(cè)重介紹 18 年到 19 年非常流行的基于關(guān)鍵點(diǎn)的目標(biāo)檢測。這一種單步檢測范式不僅擁有極高的準(zhǔn)確率,同時(shí)速度還非???,也許目標(biāo)檢測未來的發(fā)展主流會(huì)聚集在這一范式下。
如果讀者希望了解以前非常流行的兩種目標(biāo)檢測方法,可以查閱以下文章:
從 RCNN 到 SSD,這是超全的目標(biāo)檢測算法盤點(diǎn)
單級(jí)式目標(biāo)檢測方法概述:YOLO 與 SSD
從經(jīng)典走向前沿的目標(biāo)檢測
在深度學(xué)習(xí)時(shí)代之前,早期的目標(biāo)檢測流程分為三步:候選框生成、特征向量提取和區(qū)域分類。
候選框生成階段的目標(biāo)是搜索圖像中可能包含對象的位置,這些位置又叫「感興趣區(qū)域」(ROI)。直觀的思路是用滑動(dòng)窗口掃描整幅圖像。為了捕捉不同尺寸和不同寬高比對象的信息,輸入圖像被重新分割為不同的尺寸,然后用不同尺寸的窗口滑動(dòng)經(jīng)過輸入圖像。
第二階段,在圖像的每一個(gè)位置上,利用滑動(dòng)窗口獲取固定長度的特征向量,從而捕捉該區(qū)域的判別語義信息。該特征向量通常由低級(jí)視覺描述子編碼而成,這些描述子包括 SIFT (Scale Invariant Feature Transform) 、Haar 、HOG(Histogram of Gradients) 、SURF(Speeded Up Robust Features) 等,它們對縮放、光線變化和旋轉(zhuǎn)具備一定的魯棒性。
第三階段,學(xué)習(xí)區(qū)域分類器,為特定區(qū)域分配類別標(biāo)簽。
通常,這里會(huì)使用支持向量機(jī)(SVM),因?yàn)樗谛∫?guī)模訓(xùn)練數(shù)據(jù)上性能優(yōu)異。此外,Bagging、級(jí)聯(lián)學(xué)習(xí)(cascade learning)和 Adaboost 等分類技術(shù)也會(huì)用在區(qū)域分類階段,幫助提高目標(biāo)檢測的準(zhǔn)確率。
DL 時(shí)代的目標(biāo)檢測
在將深度卷積神經(jīng)網(wǎng)絡(luò)成功應(yīng)用于圖像分類后,基于深度學(xué)習(xí)技術(shù)的目標(biāo)檢測也取得了巨大進(jìn)步?;谏疃葘W(xué)習(xí)的新算法顯著優(yōu)于傳統(tǒng)的目標(biāo)檢測算法。

目前,基于深度學(xué)習(xí)的目標(biāo)檢測框架可以分為兩大類:1)二階檢測器(Two-stage),如基于區(qū)域的 CNN (R-CNN) 及其變體;2)一階檢測器(One-stage),如 YOLO 及其變體。

二階檢測器首先使用候選框生成器生成稀疏的候選框集,并從每個(gè)候選框中提取特征;然后使用區(qū)域分類器預(yù)測候選框區(qū)域的類別。一階檢測器直接對特征圖上每個(gè)位置的對象進(jìn)行類別預(yù)測,不經(jīng)過二階中的區(qū)域分類步驟。
通常而言,二階檢測器通常檢測性能更優(yōu),在公開基準(zhǔn)上取得了當(dāng)前最優(yōu)結(jié)果,而一階檢測器更省時(shí),在實(shí)時(shí)目標(biāo)檢測方面具備更強(qiáng)的適用性。
DL 目標(biāo)檢測器該怎樣系統(tǒng)學(xué)習(xí)
本文目標(biāo)是全面理解基于深度學(xué)習(xí)的目標(biāo)檢測算法。下圖 3 展示了本文涵蓋主要方法的分類:根據(jù)深度學(xué)習(xí)目標(biāo)檢測算法的不同貢獻(xiàn)將其分為三類:檢測組件、學(xué)習(xí)策略,以及應(yīng)用與基準(zhǔn)。
圖 3:本文涵蓋主要方法的分類。
對于檢測組件,這篇論文首先介紹了兩種檢測設(shè)置:邊界框級(jí)(bbox-level)定位和像素掩碼級(jí)(mask-level)定位。bbox-level 算法需要按照矩形邊界框進(jìn)行目標(biāo)定位,而 mask-level 算法則按照更準(zhǔn)確的像素級(jí)掩碼進(jìn)行目標(biāo)分割。
接下來,論文總結(jié)了二階檢測和一階檢測的代表性框架。然后對每個(gè)檢測組件進(jìn)行了詳細(xì)論述,包括主干架構(gòu)、候選框生成和特征學(xué)習(xí)。
對于學(xué)習(xí)策略,論文首先強(qiáng)調(diào)了學(xué)習(xí)策略的重要性(因?yàn)橛?xùn)練檢測器是很艱難的過程),然后詳細(xì)介紹了訓(xùn)練和測試階段中的優(yōu)化技術(shù)。最后,論文概覽了一些基于目標(biāo)檢測的現(xiàn)實(shí)應(yīng)用,并展示了近年來通用目標(biāo)檢測技術(shù)在公開基準(zhǔn)上的當(dāng)前最優(yōu)結(jié)果。
這些雖然是這篇綜述論文的寫作思路,但是對于希望系統(tǒng)了解該領(lǐng)域的讀者而言,也是非常好的學(xué)習(xí)路徑:先了解整體類別與研究現(xiàn)狀,再了解具體的組件與策略。
檢測范式
當(dāng)前最優(yōu)的深度學(xué)習(xí)目標(biāo)檢測器可以分為兩大類:二階檢測器和一階檢測器。二階檢測器首先生成稀疏的候選框集合,然后使用深度卷積神經(jīng)網(wǎng)絡(luò)編碼生成候選框的特征向量,并執(zhí)行類別預(yù)測。一階檢測器沒有候選框生成這一單獨(dú)步驟,它們通常將圖像的所有位置都看作潛在對象,然后嘗試將每個(gè)感興趣區(qū)域分類為背景或目標(biāo)對象。
二階檢測器
二階檢測器將檢測任務(wù)分成兩個(gè)階段:候選框生成和對候選框執(zhí)行預(yù)測。在第一階段,檢測器嘗試識(shí)別圖像中可能存在對象的區(qū)域。其基本思想是以高召回率提出候選區(qū)域,使得圖像中的所有對象屬于至少一個(gè)候選區(qū)域。第二階段中,使用基于深度學(xué)習(xí)的模型為這些候選區(qū)域分配正確的類別標(biāo)簽。每個(gè)區(qū)域可能是背景,也可能是屬于某個(gè)預(yù)定義類別標(biāo)簽的對象。
圖 4:不同二階目標(biāo)檢測框架概覽。紅色虛線矩形表示輸出(該輸出定義損失函數(shù))。
一階檢測器
與把檢測流程分成兩部分的二階檢測器不同,一階檢測器沒有單獨(dú)的候選框生成步驟。它們通常將圖像上的所有位置都看作潛在對象,然后再把每個(gè)感興趣區(qū)域分類為背景或目標(biāo)對象。
圖 5:不同一階目標(biāo)檢測框架概覽。紅色虛線矩形表示輸出(輸出定義目標(biāo)函數(shù))。

Redmon 等人提出了一種叫做 YOLO(You only Look Once)的實(shí)時(shí)檢測器。YOLO 將目標(biāo)檢測看作回歸問題,將整個(gè)圖像分割為固定數(shù)量的網(wǎng)格單元(如使用 7 × 7 網(wǎng)格)。每個(gè)單元被看作一個(gè)候選框,然后網(wǎng)絡(luò)檢測候選框中是否存在一或多個(gè)對象。
基于精細(xì)設(shè)計(jì)的輕量級(jí)架構(gòu),YOLO 可以 45 FPS 的速度執(zhí)行預(yù)測,使用更簡化的骨干網(wǎng)絡(luò)后速度可達(dá) 155 FPS。但是,YOLO 面臨以下挑戰(zhàn):
對于給定位置,它至多只能檢測出兩個(gè)對象,這使得它很難檢測出較小的對象和擁擠的對象。
只有最后一個(gè)特征圖可用于預(yù)測,這不適合預(yù)測多種尺寸和寬高比的對象。
2016 年,Liu 等人提出另一個(gè)一階檢測器 Single-Shot Mulibox Detector (SSD),解決了 YOLO 的缺陷。SSD 也將圖像分割為網(wǎng)格單元,但是在每一個(gè)網(wǎng)格單元中,可以生成一組不同尺寸和寬高比的錨點(diǎn)框,從而離散化邊界框的輸出空間。
SSD 在多個(gè)特征圖上預(yù)測對象,且每一個(gè)特征圖基于其感受野來檢測特定尺寸的對象。整個(gè)網(wǎng)絡(luò)通過端到端訓(xùn)練機(jī)制,使用位置損失和分類損失的加權(quán)和作為損失函數(shù)進(jìn)行優(yōu)化。最后網(wǎng)絡(luò)合并來自不同特征圖的全部檢測結(jié)果,得到最終的預(yù)測。
沒有候選框生成步驟來幫助篩選容易正確分類的負(fù)樣本,導(dǎo)致前景背景類別不均衡成為一階檢測器中的嚴(yán)重問題。Lin 等人提出一階檢測器 RetinaNet,用更靈活的方式解決了類別不均衡的問題。
RetinaNet 使用 focal loss 抑制易分負(fù)樣本的梯度,而不是簡單地摒棄它們。然后使用特征金字塔網(wǎng)絡(luò),在不同級(jí)別的特征圖上檢測多尺寸對象。
Redmon 等人提出 YOLO 改進(jìn)版本——YOLOv2,它顯著提升了檢測性能,且仍然維持實(shí)時(shí)推斷速度。YOLOv2 通過對訓(xùn)練數(shù)據(jù)執(zhí)行 k 折聚類(而不是手動(dòng)設(shè)置)來定義更好的錨點(diǎn)先驗(yàn),這有助于降低定位中的優(yōu)化難度。
以前的方法在訓(xùn)練檢測器時(shí)需要手動(dòng)設(shè)計(jì)錨點(diǎn)框,后來一批 anchor-free 目標(biāo)檢測器出現(xiàn),其目標(biāo)是預(yù)測邊界框的關(guān)鍵點(diǎn),而不是將對象與錨點(diǎn)框做匹配。
其中比較受關(guān)注的是基于關(guān)鍵點(diǎn)的檢測架構(gòu),它會(huì)預(yù)測左上角和右下角的熱圖,并用特征嵌入將其合在一起,CornerNet 就是基于關(guān)鍵點(diǎn)檢測中非常經(jīng)典的架構(gòu)。當(dāng)然還有后續(xù)結(jié)合中心點(diǎn)和角點(diǎn)的 CenterNet,它具有更好的性能。
候選框生成
候選框生成在目標(biāo)檢測框架中起著非常重要的作用。候選框生成器生成一組矩形邊界框,它們有可能包含對象。然后使用這些候選框進(jìn)行分類和定位精煉(localization refinement)。
基于錨點(diǎn)的方法
監(jiān)督式候選框生成器的一個(gè)大類是基于錨點(diǎn)的方法。它們基于預(yù)定義錨點(diǎn)生成候選框。Ren 等人提出區(qū)域候選網(wǎng)絡(luò) (Region Proposal Network,RPN),基于深度卷積特征圖以監(jiān)督方式生成候選框。
該網(wǎng)絡(luò)使用 3 × 3 卷積核在整個(gè)特征圖上滑動(dòng)。對于每個(gè)位置,網(wǎng)絡(luò)都考慮 k 個(gè) 不同大小和寬高比的錨點(diǎn)(或邊界框的初始估計(jì))。這些不同的尺寸和寬高比允許網(wǎng)絡(luò)匹配圖像中不同尺寸的對象。
基于真值邊界框,將對象的位置與最合適的錨點(diǎn)進(jìn)行匹配,從而為錨點(diǎn)估計(jì)獲得監(jiān)督信號(hào)。

圖 6:RPN 圖示。
基于關(guān)鍵點(diǎn)的方法
另一種候選框生成方法基于關(guān)鍵點(diǎn)檢測,它分為兩類:基于角點(diǎn)(corner)的方法和基于中心(center)的方法。
基于角點(diǎn)的方法通過合并從特征圖中學(xué)得的角點(diǎn)對,來預(yù)測邊界框。這種算法無需設(shè)計(jì)錨點(diǎn),從而成為生成高質(zhì)量候選框的更高效方法。
Law 和 Deng 提出 CornerNet,直接基于角點(diǎn)建模類別信息。CornerNet 使用新型特征嵌入方法和角點(diǎn)池化層(corner pooling layer)建模左上角點(diǎn)和右下角點(diǎn)的信息,從而準(zhǔn)確匹配屬于同一對象的關(guān)鍵點(diǎn)。該方法在公開基準(zhǔn)上獲得了當(dāng)前最優(yōu)結(jié)果。
基于中心的方法在特征圖的每個(gè)位置上預(yù)測它成為對象中心的概率,且在沒有錨點(diǎn)先驗(yàn)的情況下直接恢復(fù)寬度和高度。
Duan 等人 提出了 CenterNet,它結(jié)合了基于中心的方法和基于角點(diǎn)的方法。CenterNet 首先通過角點(diǎn)對預(yù)測邊界框,然后預(yù)測初始預(yù)測的中心概率,來篩除易分負(fù)樣本。相比基線,CenterNet 的性能獲得了顯著提升。
anchor-free 方法是未來很有前途的研究方向。
目標(biāo)檢測公開基準(zhǔn)
當(dāng)然除了整體范式與候選框的生成,目標(biāo)檢測還有更多的組件與細(xì)節(jié),例如主體架構(gòu)怎么選、數(shù)據(jù)增強(qiáng)/采樣怎么做、模型壓縮/加速怎么處理等等,本文就不一一介紹了。最后,讓我們看看當(dāng)前目標(biāo)檢測公開基準(zhǔn)上的模型效果都怎么樣。
目標(biāo)檢測的基準(zhǔn)其實(shí)有挺多的,它們主要可以分為通用型、人臉檢測型、公共區(qū)域型,它們加起來差不多有 16 個(gè)基準(zhǔn)。
幾個(gè)通用型目標(biāo)檢測基準(zhǔn),及其數(shù)據(jù)集的樣本。

在下面表 2 和表 3 中,論文展示了近幾年各種目標(biāo)檢測方法在 VOC2007、VOC2012 和 MSCOCO 基準(zhǔn)上的效果。


文章來源: 機(jī)器之心
下一篇: PLC、DCS、FCS三大控