前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡的步驟范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關鍵詞:
手勢識別;位運算;卷積神經(jīng)網(wǎng)絡;復雜環(huán)境;膚色似然
中圖分類號: TP391.413 文獻標志碼:A
0引言
現(xiàn)行的手勢識別方法的主要步驟是提取精確的手勢區(qū)域,然后作形狀或者輪廓識別。提取手勢區(qū)域的方法有依賴于測距設備的方法,比如Kinect[1-2]、雙目設備[3],也有依賴于單目視覺的方法[4]。前者的主要原理是人機交互中手的位置距離傳感器應該在一定的區(qū)間內(nèi),之后進行距離閾值分割。而基于視覺的方法主要是確定合理的膚色閾值,進行膚色分割和去噪,確定手勢區(qū)域或者輪廓。
這些方法雖然依賴的特征不同,但是在整體處理步驟上比較相似,都需要首先對手勢區(qū)域進行精確的分割。方法面臨的挑戰(zhàn)主要集中在復雜環(huán)境下的手勢分割。如果希望算法在距離、光照可變的環(huán)境下表現(xiàn)出良好的魯棒性,一般會將很多非手勢的區(qū)域也識別為手勢,這將增加手勢分割的難度,在復雜背景下,這一問題會更加明顯。在背景環(huán)境復雜時如果想降低手勢分割的難度,一般需要對輸入的圖像特征進行更嚴格的提取,這同時也降低了模型的魯棒性,在光照、距離等條件變化時,會出現(xiàn)丟失手勢的問題。
兩類問題相互制約,針對這一情況,研究者們把精力主要放在如何更加精準地提取特征上面。用作手勢分割的特征主要集中在膚色[4]和距離[1,3],有的學者采取了將輪廓信息結(jié)合先驗形狀來進行更加準確的分割方式來處理這一問題[5],此類方法被廣泛地用于邊緣提取領域,在針對小規(guī)模噪聲區(qū)域以及手勢類別較少的情況時能獲取不錯的效果。主要問題是對于多個先驗形狀的表達沒有特別理想的方案,在形狀增多之后,形狀項的作用明顯下降,這與形狀之間本身的沖突有關。更重要的一點是圖像分割方法一般耗時都在數(shù)秒甚至數(shù)十秒,時間復雜度上無法滿足手勢識別的需要。因為手勢分割的運用場景多為動態(tài)場景,所以運動目標檢測的方法也經(jīng)常用來輔助手勢分割。
現(xiàn)行手勢分割方法中最常用的是按照提取膚色特征、二值化、形態(tài)學濾波、運動目標特征或者距離特征協(xié)助檢測這個過程處理[3-4]。有時還需要做人臉檢測,排除人臉區(qū)域的干擾。融合了多種特征的方法在光照變化和背景擁有類似膚色的物體時仍然會出現(xiàn)不能有效分割的情形。
在手勢識別方面,Dardas等[6]提出了一種基于特征包的手勢識別方法,在識別率和計算效率上都取得了較好的結(jié)果。對于良好的手勢輪廓,Belongie等[7]提出的形狀上下文能夠得到高準確率和對非剛性畸變魯棒的結(jié)果。矩特征,指尖等手勢的幾何特征[1]也經(jīng)常被用作為手勢識別的特征。卷積神經(jīng)網(wǎng)絡能夠自動獲取特征,在處理靜態(tài)圖片時表現(xiàn)出了非常高的準確率,同時對噪聲以及各種形變魯棒。
本文提出一種新的方法來解決手勢識別中魯棒性和算法復雜性之間的矛盾。該方法第1步使用二進制運算實現(xiàn)的支持向量機(Support Vector Machine, SVM)分類器并用位運算代替滑動窗口,快速提取出多個可能的備選區(qū)域。第2步使用卷積神經(jīng)網(wǎng)絡來完成手勢的再判定與識別工作。文中算法的實現(xiàn)方式非常關鍵,直接關系模型的運算效率。第1步中使用的分類器為線性SVM模型,需要在支持64位整型機器的環(huán)境下使用二進制運算的方式實現(xiàn),在執(zhí)行效率上相對于基于滑動窗口的算法有著100倍左右的提升[8]。第2步使用的分類器為卷積神經(jīng)網(wǎng)絡,在實現(xiàn)上使用了統(tǒng)一計算設備架構(gòu)(Compute Unified Device Architecture, CUDA)進行卷積運算的加速,能獲得10倍左右的加速比[9]。
1手勢區(qū)域提取
本文手勢區(qū)域提取的方法不要求精確提取手勢輪廓或者鎖定備選框。該方法核心思想是用最短的時間排除掉絕大部分的搜索區(qū)域,剩下無法判斷的區(qū)域結(jié)合其他方法進行處理。
方法本身并不依賴于特定特征,所有能夠用來排除大量備選區(qū)域的特征均可以使用,比如通過測距設備獲取的距離似然特征,使用視覺設備獲取的膚色似然特征。因為膚色似然特征對于硬件的要求更低,本文選擇膚色似然特征進行實驗。
1.1獲取膚色特征
本文使用橢圓模型提取膚色似然區(qū)域[10-11]。首先將膚色變換到Y(jié)CbCr空間,橢圓膚色模型認為膚色在Cr和Cb分量組成的空間里的分布集中在一個橢圓區(qū)域內(nèi)。該橢圓中心點坐標為(155.6,103),長短軸比例為1∶1.6,旋轉(zhuǎn)角度為43°。式(1)描述了Cr和Cb組成的空間中的像素點距離橢圓中心的距離,也可以理解成是膚色的概率。該值恒大于0,最大值為255,標準差系數(shù)為σ2??梢酝ㄟ^調(diào)整標準差系數(shù)σ2來控制膚色判斷的嚴格程度,不同σ2下的分割效果如圖1所示。不同的標準差系數(shù)對于膚色區(qū)域的判斷影響十分明顯。當σ2較小時提取區(qū)域判斷為膚色的區(qū)域很小,此時真實的手勢區(qū)域可能被誤檢成非手勢區(qū)域;當σ2增大時,膚色似然圖中判斷為膚色的區(qū)域會一直增加,此時膚色似然圖中被誤檢為膚色的區(qū)域也會增加。
光照變化和膚色的多樣性會影響膚色似然特征的計算。針對光照變化以及膚色變化的情況。有以下方法可以改善:
方法1使用對光照魯棒的特征,比如距離似然特征。
方法2使用較大的標準差系數(shù)σ2,后面提取區(qū)域的過程中使用較多的備選框以提高召回率。
方法3使用迭代的方法調(diào)整橢圓模型的中心坐標和標準差系數(shù),方法3一般用于光照連續(xù)變化場景,比如視頻流的處理。
1.2膚色似然特征與手勢區(qū)域檢測
獲取膚色似然圖之后,下一步需要計算似然圖中的手勢區(qū)域。手勢區(qū)域和非手勢區(qū)域在8×8膚色似然圖下有著明顯的差別,如圖2所示。這一步的思路是使用滑動窗口的方法,對膚色似然圖進行遍歷。因為最終需要處理是在遍歷的過程中將窗口中的膚色似然圖像作為手勢區(qū)域分類器的輸入,得到一個“窗口值”,用來確定是否為備選窗口。
考慮到手勢識別應用場景多為人機交互,手勢的長寬比固定,不會被人為拉伸,所以選用“正方形”滑動窗口;并且手勢區(qū)域在整幅圖像中所占比例會有所變化但變化幅度不大,所以不用設定太多不同尺度的滑動窗口。在此處設定4個不同尺度的手勢區(qū)域48×48、64×64、80×80、96×96用以檢測不同大小的手勢。
為了保證滑動窗口的大小始終為8×8,將膚色似然圖調(diào)整為不同的尺度,以尺度為360×240的膚色似然圖為例,當手勢區(qū)域大小由48×48調(diào)整為8×8時,膚色似然圖的長寬也對應變化原圖的1/6,變?yōu)?0×40。大小為的64×64、80×80、96×96的手勢區(qū)域所對應的調(diào)整后的膚色似然圖尺度分別為45×30、36×24、30×20,如圖2(d)所示。
在分類器的選擇上選用的是線性SVM分類器[12]。實驗正樣例選取的均為人工標記的手勢區(qū)域的膚色似然圖,在選取正樣例的過程中可以先使用少量樣本訓練一個線性SVM分類器,然后使用該分類器進行樣本初篩,之后再人工調(diào)整。負樣例是在正樣例以外的區(qū)域中隨機選取。正負樣本均需要進行歸一化處理,處理成為8×8的區(qū)域?!按翱谥怠北硎維VM系數(shù)矩陣和8×8的內(nèi)積。“窗口值”的計算過程如式(2)所示:
s=〈w,x〉;w∈R8×8,x∈{0,1,…,255}8×8(2)
其中:w為權(quán)值矩陣;x為膚色似然圖的像素值,如圖2(c)所示;s為滑動窗口的“窗口值”。
1.3BISL二進制膚色似然特征
為了加速滑動窗口的計算,本文借鑒了文獻[8]中一般物體識別時用到的方法,使用64位整型表示8×8的二進制矩陣,并且使用一些列的位運算操作來實現(xiàn)加速[13-14]。二進制膚色似然特征(Binary Skin LikeHood, BISL)特征,是將膚色似然特征使用多個64位整型表示之后形成的特征。
1.3.1近似參數(shù)矩陣w
線性模型矩陣w∈R8×8可以使用文獻[13]中的算法1對其進行近似可得w≈∑Nwj=1βjaj。其中:Nw代表基向量的個數(shù);aj∈{-1,1}8×8代表基向量; βj∈R代表相應基向量的系數(shù)。
算法1使用二進制方法近似w。
程序前
輸入:w,Nw。
輸出:{βj}Nwj=1,{aj}Nwj=1。
初始化殘差:ε=w
for j=1 to Nw do
aj=sign(ε)
βj=〈aj,ε〉/aj2(將殘差ε映射到aj上)
ε=ε-βjaj(更新殘差)
end for
程序后
1.3.2處理輸入矩陣x
本文截取x的高Nx位近似x(如圖3(a)),x可以由BISL特征表示成如下形式:
x=∑Nxk=128-kbk(5)
其中:x∈{0,1,…,255}8×8,bk∈{0,1}8×8。
算法2對區(qū)域獲取BISL特征。
參數(shù)含義:bx,y∈{0,1}8×8,rx,y∈{0,1}8,bx,y∈{0,1}。
程序前
輸入:膚色似然圖的二進制值bW×H。
輸出:BISL特征組成的矩陣bW×H。
初始值:bW×H=0,rW×H=0
for each position(x,y) in scanline order do
rx,y=(rx-1,y
bx,y=(bx,y-1
end for
程序后
通常來說,獲取8×8的BISL特征需要遍歷64個位置。Cheng等[8]巧妙地利用了64位整型的特點,在算法2中使用了“按位或”和“移位”操作避免了循環(huán)。首先BISL特征bx,y和它的最后一行rx,y分別使用一個INT64變量和一個byte變量存儲。然后相鄰的BISL特征有重復的部分,可以通過左移8位操作保留重復的部分并給不同的部分騰出空間,將騰出的這8位的空間與新的byte變量進行“按位與”,就獲取了新的BISL特征。相鄰的byte變量的獲取過程與之類似。
綜合式(4)和(5)可以得到由BISL特征和分類器參數(shù)計算出窗口值:
s≈∑Nwj=1βj∑Nxk=1Cj,k(6)
其中Cj,k=28-k(2〈a+j,bk,l〉-bk,l)。
將窗口值topk的窗口作為候選窗口,進行進一步的識別。k的取值由實驗環(huán)境確定,k越大,手勢檢測模型召回率越高,進一步識別的時間復雜度也會增加。
2使用卷積神經(jīng)網(wǎng)絡進行手勢識別
本章所提輸入是手勢檢測部分所得到的窗口值排名前k的候選窗口,這些窗口區(qū)域都是在上一步被判定為極有可能為手勢的區(qū)域,所以本章中需要使用更為復雜的特征和更強的分類模型來處理這個問題。卷積神經(jīng)網(wǎng)絡和一般的神經(jīng)網(wǎng)絡相比,具有權(quán)值共享、局部感知等特點[15-16],充分地利用了輸入值的空間關系信息,并且容易使用硬件加速[9]。綜合考慮模型的分類能力、魯棒性以及識別效率等因素,本文使用卷積神經(jīng)網(wǎng)絡進行手勢識別。
2.1樣本、特征以及網(wǎng)絡結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡的訓練樣本是根據(jù)手勢檢測步驟中得到的窗口值topk 8×8窗口計算出來的。在確定窗口值topk 8×8窗口時,記錄下這k個窗口在對應的膚色似然圖中的坐標。根據(jù)這個坐標計算出原圖像所對應的窗口坐標。這個過程可以看作是根據(jù)圖2(c)中的8×8窗口位置來獲取圖2(a)中對應尺度的窗口圖像位置,進而獲得窗口圖像。在獲取窗口圖像后,本文將備選窗口圖像大小調(diào)整為29×29,然后計算它的膚色似然圖,得到29×29的膚色似然圖作為卷積神經(jīng)網(wǎng)絡的輸入。卷積神經(jīng)網(wǎng)絡的特征選擇可以有很多,比如窗口的灰度圖、梯度特征、局部二進制特征。選用29×29的膚色似然圖的原因是膚色似然圖在膚色檢測的過程中已經(jīng)計算過一遍,不需要再重復計算。訓練樣本一共分為10類,6個備選手勢類,4個錯誤類。這里設計4個錯誤類的原因是因為在手勢區(qū)域提取的過程中,被錯分成手勢區(qū)域的候選框是有著明顯的特點的。主要的幾類情況是識別到手勢邊緣,識別到手勢中心,識別到非手勢區(qū)域,可以參考圖2(b)的情形。在網(wǎng)絡設計的時候需要重點關注這些錯誤的情形,實驗發(fā)現(xiàn),將所有的錯誤情形視為1類的模型識別率要低于將錯誤情形分成4類的模型。將錯誤情形分為4類的卷積神經(jīng)網(wǎng)絡一共有10個輸出節(jié)點,其中6個代表6種不同的手勢,另外4個代表4類典型的錯誤。需要注意的是,在計算模型準確率的時候并不將4類錯誤加以區(qū)分。假定4類錯誤分別為錯誤1、錯誤2、錯誤3、錯誤4,將錯誤1識別成了錯誤2,仍然認為模型判斷正確。
為了使樣本具有平移和小幅度旋轉(zhuǎn)的魯棒性,對卷積神經(jīng)網(wǎng)絡的訓練樣本進行了一些平移和旋轉(zhuǎn)上的擴展??紤]到手勢與手寫字符的區(qū)別,本文并沒有進行彈性形變擴展。整個卷積網(wǎng)絡的結(jié)構(gòu)如圖4所示。
本文參照文獻[15]中提到的方法來設計卷積神經(jīng)網(wǎng)絡,網(wǎng)絡包含兩個卷積層:第1層用來提取一些類似于邊緣、角點、交線的底層圖像特征;第2個卷積層以這些特征為基礎生成更加復雜的特征。兩個下采樣層均按照2×2的因子進行最大池化,卷積核的大小定為5×5,第1個卷積層有5個卷積核,第2個卷積層有10個卷積核。光柵化之后采用兩層全相連多層感知機結(jié)構(gòu),隱層單元數(shù)量設定為100個,最后針對多分類問題,使用softmax設置10個輸出節(jié)點。
2.2卷積神經(jīng)網(wǎng)絡的計算過程
本文使用的卷積神經(jīng)網(wǎng)絡主要參照文獻[17]中提到的算法實現(xiàn)。下面主要針對卷積層和下采樣層的正向計算和反向傳播計算進行討論。
2.2.1正向計算
2.2.2反向傳播
3實驗結(jié)果分析
實驗平臺為Intel Core i74702MQ 2.2GHz, 4GB RAM, NVIDIA GeForce GTX 760M。CPU支持POPCNT命令,顯卡支持CUDA平臺,操作系統(tǒng)為Windows 8 Pro 64位。
3.1手勢檢測部分
手勢檢測部分所采用的數(shù)據(jù)集是Sebastien Marcel Static Hand Posture Database數(shù)據(jù)集,數(shù)據(jù)集包含10個人的6種手勢(a,b,c,point,five,v)(A,B,C,Point(P),F(xiàn)ive(F),V),總共接近5000個樣本(如圖5)。
實驗對簡單環(huán)境和復雜環(huán)境分別取100張測試圖片進行測試(如圖6)。在實驗中發(fā)現(xiàn),在簡單環(huán)境下,直接獲取“窗口值”最大的窗口作為備選區(qū)域即可。在光照變化和背景復雜的情況下,“窗口值”大小前4的窗口已經(jīng)可以覆蓋所有的實際手勢區(qū)域,即達到100%的召回率(如表1)。
實驗對比了基于滑動窗口方法實現(xiàn)手勢檢測、多模板匹配外加人臉排除以及本文的手勢檢測方法的運算速度。在3種不同尺寸的樣本中分別取1000張測試圖片進行測試,結(jié)果如表2所示。
3.2手勢識別部分
手勢識別部分的樣本來源于手勢檢測部分的結(jié)果。數(shù)據(jù)一共分為10類,除了6個手勢類之外,還設定4個錯誤類。4類錯誤分別命名為E1、E2、E3、E4。其中:E1代表識別到手勢中心;E2代表識別到手勢邊緣;E3代表識別到非手勢干擾區(qū);E4代表除E3之外的弱干擾區(qū),如圖7所示。
因為10類的訓練樣本數(shù)量有一定的差異。其中最多的手勢Point有1395個樣本,最少的V有435個樣本。錯誤類樣本中總量為1216個,其中E1 178個,E2 81個,E3 943,E4 14個,這個具體數(shù)量與手勢檢測所設定的備選窗口數(shù)量有關以及選擇的輸入圖片有關,可以調(diào)整,本文實驗中備選窗口數(shù)量設為4,輸入圖片中背景復雜的一共有473張。在樣本不平衡的情況下所訓練出卷積神經(jīng)網(wǎng)絡模型測試準確率為93%左右。對樣本進行抽樣和擴展,擴展方法如下。
1)對于6個手勢類,在每個類的訓練集中隨機抽取350張樣本,對抽取的圖片在隨機方向上進行1到2個像素的平移得到另外350個樣本,每一類總共會得到700個樣本。
2)對于錯誤類E1,首先對訓練集進行4次隨機方向上1到2個像素的平移,每一次都會得到一個新的訓練樣本,最后進行隨機抽樣,每類選擇700個樣本。
3)對于錯誤類E2,首先對訓練集進行10次隨機方向上1到2個像素的平移,每一次都會得到一個新的訓練樣本,最后進行隨機抽樣,每類選擇700個樣本。
4)對于錯誤類E3,直接進行隨機抽樣,每類選擇700個樣本。
5)對于錯誤類E4,將樣本復制50次,獲取700個樣本。
擴展后的訓練集有6000張訓練樣本,測試集有1000個樣本。手勢識別的結(jié)果如表3所示,在手勢識別部分修正后的準確率為96.1%,空格部分代表0,4個錯誤類準確率計算方式在2.1節(jié)有說明。
圖8對比了本文算法和其他算法的性能,當訓練樣本大于100時,本文算法和特征包算法的準確率相近。算法的運行效率明顯高于特征包(Bag of Features, BoF)算法,如表4所示,平均識別時間表示的是手勢識別算法對單一“窗口”圖像的計算時間,整體計算時間包含了手勢檢測和手勢識別兩個部分以及一些預處理環(huán)節(jié),基于特征包的兩類算法對應的手勢檢測方法采用的是對模板匹配和人臉排除,本文的算法是采用位運算支持向量機和CUDA卷積神經(jīng)網(wǎng)絡。CUDA卷積神經(jīng)網(wǎng)絡處理29×29大小的圖片用時約為0.001s。手勢識別過程中,因為分割算法求得的是4個備選窗口,所以識別過程中需要識別4個窗口,對一幅輸入圖像而言手勢檢測和識別總用時約為0.013s。
實驗結(jié)果表明,本文提出的方法能夠在光照變化、背景復雜的情況下依然保持高準確率和良好的運算效率。
4結(jié)語
本文提出了一種新型的手勢識別方法,與傳統(tǒng)的手勢識別方法相比,本文方法利用位運算代替滑動窗口,在數(shù)微秒的時間內(nèi)將備選窗口數(shù)量由千萬級別縮減到個位數(shù)。獲取備選區(qū)域之后使用基于CUDA的卷積神經(jīng)網(wǎng)絡對備選區(qū)域進行細分和識別。在實際的計算過程中可以通過硬件優(yōu)化得到100至1000倍的加速比。本文方法僅僅通過膚色似然特征就在Marcel數(shù)據(jù)集上得到了96%左右的準確率。本文提出的方法主要解決了魯棒性和計算復雜度的矛盾,并且方法所使用的特征可以使用其他的特征替換,這使得模型具有良好的可擴展性。
本文方法的局限性主要體現(xiàn)在對特征提取的召回率有要求,如果完全沒辦法提取到特征,本文的方法會失效。另外,卷積神經(jīng)網(wǎng)絡的訓練耗時長,網(wǎng)絡設計依賴經(jīng)驗,在更加復雜的分類上,卷積神經(jīng)網(wǎng)絡網(wǎng)絡的設計也會更加困難。
參考文獻:
[1]
談家譜,徐文勝.基于Kinect的指尖檢測與手勢識別方法[J].計算機應用,2015,35(6):1795-1800.(TAN J P, XU W S. Fingertip detection and gesture recognition method based on Kinect [J]. Journal of Computer Applications, 2015, 35(6): 1795-1800.)
[2]
NEWCOMBE R A, IZADI S, HILLIGES O, et al. KinectFusion: realtime dense surface mapping and tracking [C]// Proceedings of the 2011 IEEE International Symposium on Mixed and Augmented Reality. Washington, DC: IEEE Computer Society, 2011: 127-136.
[3]
譚同德,郭志敏.基于雙目視覺的人手定位與手勢識別系統(tǒng)研究[J].計算機工程與設計,2012,33(1):259-264.(TAN T D, GUO Z M. Research on location and gesture recognition of hand based on binocular stereovision [J]. Computer Engineering and Design, 2012 33(1): 259-264.)
[4]
WACHS J P, KLSCH M, STERN H, et al. Visionbased handgesture applications [J] Communications of the ACM, 2011, 54(2): 60-70.
[5]
SAMUEL D, RATHI Y, A. TANNENBAUM A. A framework for image segmentation using shape models and kernel space shape priors [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(8): 1385-1399.
[6]
DARDAS N H, GEORGANAS N D. Realtime hand gesture detection and recognition using bagoffeatures and support vector machine techniques [J]. IEEE Transactions on Instrumentation & Measurement, 2011, 60(11): 3592-3607.
[7]
BELONGIE S, MALIK J, PUZICHA J. Shape matching and object recognition using shape contexts [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(4): 509-522.
[8]
CHENG M M, ZHANG Z M, LIN W Y. BING: binarized normed gradients for objectness estimation at 300fps [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 3286-3293.
[9]
STRIGL, KOFLER K, PODLIPNIG S. Performance and scalability of GPUbased convolutional neural networks [C]// Proceedings of the 2010 18th Euromicro Conference on Parallel, Distributed and Networkbased Processing. Piscataway, NJ: IEEE, 2010: 317-324.
[10]
BOJIC N, PANG K. Adaptive skin segmentation for head and shoulder video sequences [C]// Visual Communications and Image Processing 2000. Bellingham, WA: SPIE, 2000: 704-711.
[11]
KOVAC J, PEER P, SOLINA F. Human skin color clustering for face detection [C]// IEEE Region 8 EUROCON 2003. Computer as a Tool. Piscataway, NJ: IEEE, 2003, 2: 144-148.
[12]
FAN R E, CHANG K W, HSIEH C J, et al. Liblinear: a library for large linear classification [J]. Journal of Machine Learning Research, 2008, 9(12): 1871-1874.
[13]
HARE S, SAFFARI A, TORR P H S. Efficient online structured output learning for keypointbased object tracking [C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 1894-1901.
[14]
ZHENG S, STURGESS P, TORR P H S. Approximate structured output learning for constrained local models with application to realtime facial feature detection and tracking on lowpower devices [C]// Proceedings of the 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition. Piscataway, NJ: IEEE, 2013: 1-8.
[15]
SIMARD P Y, STEINKRAUS D, PLATT J C. Best practices for convolutional neural networks applied to visual document analysis [C]// Proceedings of the Seventh International Conference on Document Analysis and Recognition. Washington, DC: IEEE Computer Society, 2003: 958-963.
[16]
LECUN Y, BOSER B, DENKER J S, et al. Handwritten digit recognition with a backpropagation network [M]// Advances in Neural Information Processing Systems 2. San Francisco: Morgan Kaufmann, 1990: 396-404.
關鍵詞:車牌識別系統(tǒng); 智能交通; 技術(shù)
中圖分類號: TP391.4文獻標識碼:A文章編號:1009-3044(2008)18-20ppp-0c
Research on Licence Plate Recognition System
YI Lian-jie
(Loudi Vocational and Technical College Loudi Huanan417000)
Abstract: The licence plate recognition system has an importantrole of morden intelligent traffic system. This paper narrated the key technology ofthe licence plate recognition system and discussed the existing problems and development of the licence plate recognition system.
Keywords: the licence plate recognition system; intelligent traffic system; technology
車牌識別系統(tǒng)是智能交通系統(tǒng)的關鍵部分,可廣泛應用于交通管理、監(jiān)控和電子收費等場合。車牌識別系統(tǒng)就是以車牌作為車輛的唯一標識,采用計算機視覺和模式識別技術(shù)對汽車車牌的自動識別。
1 車牌識別系統(tǒng)的組成
典型的車牌識別系統(tǒng)由車輛檢測、圖像采集、車牌識別等部分組成(圖1)。車輛檢測就是使用車輛傳感器或紅外線檢測等來判斷車輛是否通過某一位置。當車輛駛過探測部位時,CCD攝像機拍攝車輛圖像,由圖像采集卡采集圖像并輸入計算機。車牌識別部分由計算機和識別軟件組成,從由CCD攝像機采集的圖像中自動尋找車牌,然后對找到的車牌進行字符切分和識別,最后獲得車牌號碼,并將識別結(jié)果送至監(jiān)控中心等場合。
圖1車牌識別系統(tǒng)的組成
在整個識別系統(tǒng)中,以車牌識別最為關鍵。識別過程有兩個步驟,首先從圖像中找出確切的車牌位置,即車牌定位,然后對找出的車牌進行字符切分和識別。車牌識別過程包含兩大關鍵技術(shù):1.車牌區(qū)域定位技術(shù);2.車牌字符切分和識別技術(shù)。
2 車牌定位技術(shù)
圖像輸入計算機后,系統(tǒng)要自動找出車牌的準確位置。車牌區(qū)域定位是車牌字符切分和識別的基礎,是提高系統(tǒng)識別率的關鍵。車牌定位過程包括三個步驟:圖像預處理、車牌搜索和車牌糾偏。
2.1 圖像預處理
圖像預處理的作用:平滑去噪和車牌特征增強。
平滑去噪就是消除圖像上由于光照、車牌污損等產(chǎn)生的噪聲干擾。平滑方法主要有平均濾波、中值濾波和指數(shù)函數(shù)濾波等方法。中值濾波和指數(shù)濾波平滑效果好且能較好保持牌照和字符邊緣,但在平滑效果和處理速度方面不如平均濾波。
通常的車牌定位算法是依據(jù)車牌特征從圖像中找出車牌,因此必須使車牌區(qū)域顯示出與非車牌區(qū)域不同的獨有的特征,車牌特征增強使圖像中車牌區(qū)域明顯突出。通常有下述增強方法:邊緣檢測法、二值化法、量化法、數(shù)學形態(tài)學法。
具有不同灰度的相鄰區(qū)域之間存在邊緣,在車牌區(qū)域存在車牌邊框邊緣和車牌字符邊緣。邊緣檢測法就是要檢測出這些邊緣。有關邊緣檢測的算法很多,考慮實時性要求,采用簡單的微分算子,如一階微分算等。這些算子采用小區(qū)域模板與圖像卷積實現(xiàn)邊緣檢測。文獻[1]提出一種牌照字符邊緣特征增強的方法,該方法使用線性濾波器函數(shù)將每一行中多個連續(xù)的水平方向梯度值相加,使得字符的垂直邊緣增強。微分算子對噪聲較為敏感,因此在使用之前需要平滑去噪。LOG算子是高斯指數(shù)平滑法與Laplacian算子相結(jié)合的邊緣檢測方法,既能消除噪聲又能很好的突出車牌字符的邊緣。
二值化增強法先確定一個閾值,然后將圖像中各個像素的灰度值都與這個閾值比較,根據(jù)比較結(jié)果將整個圖像的像素點分為兩類,車牌區(qū)域歸為一類,便于車牌搜索。為了滿足實時性要求,采用簡單、快速的二值化法,如平均閾值法,反積分自適應閾值法等。
文獻[3]使用神經(jīng)網(wǎng)絡來對彩色圖像量化,使得車牌區(qū)域的字符為一種特定的顏色,然后進行顏色過濾或線掃描,借此提取車牌。該方法首先必須選取車牌樣本圖像,并且要把RGB顏色模式轉(zhuǎn)換為HSI模式,以HSI各分量值作為輸入對神經(jīng)網(wǎng)絡進行訓練,再以訓練好的神經(jīng)網(wǎng)絡對圖像的各像素點量化分類,該方法抗干擾能力強,量化前可不要求平滑,
數(shù)學形態(tài)學表示以形態(tài)為基礎對圖像進行分析的數(shù)學工具,它的基本思想使用具有一定形態(tài)的結(jié)構(gòu)元素去量度和提取圖像中的對應形狀以達到對圖像分析和識別的目的。數(shù)學形態(tài)學有四種基本的運算:膨脹,腐蝕,開啟和閉合。出于以下兩個意圖而使用形態(tài)學方法:1.將開啟和閉合結(jié)合起來,消除二值化后的車牌區(qū)域中存在的細小空洞;2.采用水平線段的結(jié)構(gòu)元素膨脹,使二值化后的車牌區(qū)域成為一連通區(qū)域。
需要說明的是,上述方法往往不是單獨使用,如二值化法是對邊緣檢測后的圖像進行,而形態(tài)學方法是在二值化圖上實現(xiàn)。不能簡單的評價圖像預處理方法的優(yōu)劣,因為這與所對應的車牌搜索方法緊密相關。
2.2 車牌搜索
車牌搜索就是根據(jù)車牌區(qū)域特征在圖像中尋找車牌的過程。根據(jù)搜索的方式可把車牌搜索方法分為以下幾種:投影統(tǒng)計法、線掃描法、模板匹配法和反Hough變換法等。車牌搜索法要與相應的車牌增強法配合使用(見表2)。
表2車牌增強法用于不同搜索法的情況
投影統(tǒng)計法對邊緣化或二值化圖像進行水平和垂直累加投影,根據(jù)投影直方圖呈現(xiàn)的連續(xù)峰、谷、峰的分布的特征來提取車牌,或?qū)τ尚螒B(tài)學膨脹運算后的圖像水平和垂直投影,在投影圖上尋找波峰和波谷而確定車牌位置。文獻[24]提出的采用高斯指數(shù)函數(shù)對投影圖平滑,能有效消除投影圖的毛刺,使車牌位置為明顯的波峰,提高車牌定位的精度。
線掃描搜索法則是對邊緣化或二值化后的圖像逐行水平掃描,穿過車牌區(qū)域的掃描線因為字符邊緣的存在,灰度呈現(xiàn)起伏的峰、谷、峰的變化,或頻繁交替出現(xiàn)亮基元、暗基元的特征,以提取車牌。文獻[3]用神經(jīng)網(wǎng)絡對彩色圖像量化之后,再逐行水平掃描,分別獲取顏色向量和長度向量,能與標準車牌區(qū)域的顏色向量和長度向量匹配的為車牌區(qū)域。
模板匹配搜索法是以特定的模板在圖像區(qū)域滑動,以與模板匹配的局部區(qū)域為車牌。使用的模板有線模板、倒”L”角模板、矩形框模板。線模板以水平線段或垂直線段為模板,來檢測車牌的邊框角點;倒“L”模板以倒“L”結(jié)構(gòu)為模板來尋找車牌邊框的左上角;矩形框模板以一個與車牌長寬比例相當?shù)木匦慰蜃鳛槟0澹谡麄€圖像區(qū)域滑動,以符合某一判別函數(shù)值的區(qū)域作為車牌區(qū)域。
反Hough變換搜索法是基于車牌形狀特征的方法,先對圖像進行Hough變換,然后在Hough參數(shù)空間尋找車牌的四個端點。
上述搜索法可以結(jié)合使用,如文獻[25]提出的自適應邊界搜索法,先用倒”L”模板尋找車牌邊框的左上角,然后用水平線掃描和垂直線掃描找出下邊框和右邊框。投影統(tǒng)計搜索法和線掃描搜索法處理速度快,能對大小不同的車牌識別,但定位精度不高和出現(xiàn)虛假車牌的情況,需要提高定位精度和去除虛假車牌的后續(xù)工作。模板匹配搜索法能比較準確的找到車牌位置,但難以滿足實時性要求,可以采用神經(jīng)網(wǎng)絡或遺傳算法來加快搜索進程。反Hough變換搜索法除了能準確找到車牌位置,還能確定車牌的傾斜角度,對噪聲、輪廓線中斷不敏感,但在有直線干擾下可能實效,文獻[28]提出的快速Hough變換的策略能滿足實時性要求。
2.3 車牌糾偏
由于車輛運行軌跡不定、攝像機位置偏斜等原因,使得圖像中車牌扭曲,為了后續(xù)正確的車牌字符切分和識別,就須對車牌糾偏,使車牌達到規(guī)范的位置和大小。采用的糾偏方法通常先是用Hough變換確定水平邊框傾斜角度和垂直邊框傾斜角度,然后糾偏。文獻[22]提出使用Rodan 變換可用來確定傾斜角度。
3 車牌字符識別技術(shù)
車牌定位之后就要對車牌字符識別。這一過程包含下列幾個步驟(見圖2):車牌二值化,字符切分,字符特征提取和字符識別。這里只討論后三個步驟。
圖2 車牌字符識別步驟
3.1 字符切分
字符切分把車牌上的字符分開,得到一個個的字符圖像。常用的字符切分方法有投影法、模板匹配法、區(qū)域生長法、聚類分析法等。
投影法把車牌圖像垂直累加投影,形成峰谷交替的投影直方圖,找到投影圖的各個谷就能把字符分開。模板匹配法以字符大小的矩形作為模板,根據(jù)字符的寬度初步確定每個字符的起始位置,然后以此模板在初定位置附近滑動,找到最佳匹配位置而切分字符。區(qū)域生長法對每個需要分割的字符找一個像素作為生長起點的種子,將種子像素周圍鄰域中與之相同或相近性質(zhì)的像素合并到種子像素所在的區(qū)域,然后將這些新像素當作新的種子繼續(xù)進行上述過程,直到再沒有滿足條件的像素可被包含進來?;诰垲惙治龅姆椒▽嚺茍D像從上到下逐行掃描,如屬于字符類的兩像素間距離小于閾值,可認為兩像素為同一字符,由此而得字符像素的聚類。
3.2 字符特征提取和車牌字符識別
目前使用的車牌字符特征提取的方法可歸納為下述三種:1.基于字符統(tǒng)計特征。計算字符圖像的多階原點矩,多階中心矩以及中心慣性矩,以中心矩與中心慣性矩的比值作為字符特征向量,這樣提取的特征量具有平移,旋轉(zhuǎn)和尺度不變性,但運算量大;也有把字符在多個方向上的投影(如水平方向,垂直方向,右斜方向,左斜方向)和二階中心矩的比值作為特征向量。2.基于結(jié)構(gòu)特征。輪廓特征,粗網(wǎng)格特征,層次輪廓特征以及字符特征點.這類特征提取計算量較少,但對噪聲和位置變化比較敏感,需要去噪和對字符歸一化。3.基于變換。對原始特征(像素點矩陣)進行傅里葉變換、K-L變換或小波變換等,提取的特征向量反映字符的結(jié)構(gòu)特征和統(tǒng)計特征,相似字符的特征矢量距離較大,效果較好。實際應用中往往是多種特征的提取,多種特征提取方法的使用。
對車牌字符特征提取之后,就把相應的特征值輸入分類器識別,目前對于車牌字符的分類識別方法歸納為下列幾種。(1)模板匹配。該方法首先對待識字符進行二值化并將其縮放為字符數(shù)據(jù)庫中模板大小,然后與所有的字符模板比較匹配,計算相似度,以最大相似度者為識別結(jié)果。(2)PCA子空間分類器。子空間分類器由訓練樣本相關矩陣的特征向量構(gòu)成,單個模式的子空間建立彼此獨立,相互之間沒有聯(lián)系,以待識別字符的特征向量與所對應的子空間距離最小作為結(jié)果。(3)基于人工神經(jīng)網(wǎng)絡。人工神經(jīng)網(wǎng)絡有抗噪聲、容錯、自適應、自學習能力強的特點。多隱含層的BP神經(jīng)網(wǎng)絡,BAM(Bidirectional association memories)神經(jīng)網(wǎng)絡方法,自諧振ART神經(jīng)網(wǎng)絡識別等是此方法的典范。(4)基于邏輯規(guī)則推理的識別方法。文獻[18]提出基于歸納推理的字符識別,該方法在訓練時自動生成識別規(guī)則。(5)基于隨機場圖像模擬的識別方法。該方法識別率高,并且可對灰度圖像直接提取字符特征,抗干擾性強。另外使用感知器的識別,通常感知器只用于相似字符對的識別,作為其他識別方法的補充。
4 總結(jié)與展望
從已有車牌識別系統(tǒng)的性能分析來看,正確識別率和識別速度兩者難以同時兼顧。其中原因包括目前的車牌識別技術(shù)還不夠成熟,又受到攝像設備、計算機性能的影響。
現(xiàn)代交通飛速發(fā)展,LPR系統(tǒng)的應用范圍不斷擴寬,對車牌識別系統(tǒng)的性能要求將更高。對現(xiàn)有的算法優(yōu)化或?qū)ふ易R別精度高、處理速度快、應用于多種場合的算法將是研究的主要任務。
參考文獻:
[1] 廖金周,宣國榮.車輛牌照的自動分割[J].微型電腦應用,1999(7):32-34.
[2] 劉智勇.車牌識別中的圖像提取及分割[J].中文信息文報,2000(3):29-34.
[3] Wu Wei,Mingjun Wang.An Automatic Method of Location for Number_Plate Using Color Features IEEE 2001.
[4] 郭捷,施鵬飛.基于顏色和紋理分析的車牌定位方法[J].中國圖像圖形學報,2002,7(5):473-476.
[5] 章毓晉.圖像工程(上)――圖像處理與分析[M].清華大學出版社.
【關鍵詞】照相軟件 人臉識別技術(shù) 計算機
人臉識別作為一項現(xiàn)代化科技技術(shù),具有極大的發(fā)展空間。1964年,人臉識別(AFR)這一領域逐漸出現(xiàn)在人們的視野里,至于1991年至1997年,若干具有代表性的人臉識別算法誕生于世,到如今,以支持向量機為代表的統(tǒng)計學習理論被應用到了人臉識別中來。前人的側(cè)重點在于對其算法的延伸探究,但就筆者而言,存在一定程度上專業(yè)知識的限制,因而根據(jù)自身的知識儲備與探究能力,將人臉識別技術(shù)這一寬泛概念的探討縮小至相對更貼近生活,且較為容易理解與研究的一個主題――對于照相機軟件中人臉識別技術(shù)的探究,并由此展開對計算機人臉識別的部分性探究。
1 對于人臉識別技術(shù)的初步了解
科幻性質(zhì)的故事往往以其并不符合實際的奇幻情節(jié),模糊得描繪了現(xiàn)實世界未來的發(fā)展藍圖。這里不得不提及一部具有啟發(fā)意義的電影――《生化危機》,電影中追蹤主角行蹤的衛(wèi)星定位人臉識別技術(shù),是否未來也將存在于我們的現(xiàn)實社會當中?由此,便聯(lián)想到生活中照相軟件的人臉識別是否也是通過相似的原理而執(zhí)行的。
關于人臉識別,其本質(zhì)上隸屬于生物特征識別的一支。其余包含指紋識別,虹膜識別,DNA識別等技術(shù)。當今最為廣泛運用的是指紋識別,但隨之而來產(chǎn)生的是一定的安全性問題。例如去年熱門的高考替考話題,指紋貼的出現(xiàn)使指紋識別的安全性受到質(zhì)疑。而人臉識別仍處于一個不完全成熟的發(fā)展階段,就目前現(xiàn)狀來說,其所具有的不可復制性、自然性、不可察覺性,使其安全性與實用性都處于相對較高的水平。但同樣,其技術(shù)難度也呈正比例增長。
通過對與計算機信息科技的學習,能夠得出這樣一個總結(jié)性結(jié)論:“人臉識別是通過計算機視覺的一些算法所實現(xiàn)的?!?/p>
前人對從不斷更新的研究中得出,人臉識別的基本算法有四種:
(1)基于人臉特征點的識別算法(Feature-based recognition algorithms)。
(2)基于整幅人臉圖像的識別算法(Appearance-based recognition algorithms)。
(3)基于模板的識別算法(Template-based recognition algorithms)。
(4)利用神經(jīng)網(wǎng)絡進行識別的算法(Recognition algorithms using neural network)。
當然,如今也早已存在許多其他的的算法能夠支持人臉識別技術(shù)的實現(xiàn)。而對于該項技術(shù)的應用的范圍也在逐漸擴大,門禁考勤系統(tǒng)、住宅安全管理、電子身份等等,都將在很大程度上的得益于其的不斷發(fā)展。
讓我們回到主題:照相機的人臉跟蹤究竟是如何實現(xiàn)的呢?圍繞這一問題,由淺及深,筆者將本文中的探究內(nèi)容主要分為以下三個部分:
(1)圖像在計算機內(nèi)部的存儲方式。
(2)計算機如何區(qū)分出物體與其所在背景。
(3)計算機如何定位人臉并從而實現(xiàn)識別功能。(注:由于照相軟件只是作為一個對于人臉識別問題的切入點,單單深究照相軟件會帶來一定的局限性,因此二、三兩點將跳過作為載體的照相軟件,直接對于照相機功能背后的原理作進一步探究。)
1.1 圖像在計算機內(nèi)部的儲存方式
計算機通過往往通過bitmap的形式來儲存圖像,也就是像素矩陣。
從結(jié)構(gòu)上講,計算機中儲存的圖像一把可以分為兩大類,即矢量圖和位圖。矢量圖通過數(shù)學公式計算獲得,優(yōu)點在于不會失真,但其最大的缺點是難以表現(xiàn)色彩層次豐富的逼真圖像效果。而位圖的基本思想,則是把一幅圖像按照行列進行分割,所獲得的點成為像素。相機所拍攝獲得的照片便是以位圖的形式儲存的。每一幅圖像均是由無數(shù)像素組成,而每一個像素對應顯存中1、8、16或24位二進制數(shù)來表示顏色信息。位數(shù)決定了圖像所含的最大顏色數(shù),位數(shù)越多,圖像的色彩就越豐富。
1.2 計算機如何區(qū)分出物體與其所在背景
大致的過程可以由圖1所知,用相對容易理解的話來解釋,計算機對于區(qū)分物體與其所在背景,首先是通過對要是別的物體提取表面特征,然后再對真實的照片提取表面特征,最終在進行匹配,配合相應的算法,這樣,計算機便可以區(qū)分出物體與其所在背景。
由此所延伸的科目是計算機視覺。
正如定義所提到:計算機視覺是一門關于如何運用照相機和計算機來獲取我們所需的,被拍攝對象的數(shù)據(jù)與信息的學問。
通過這門科目,我們能夠做到使用計算機來處理圖像,并區(qū)分出目的對象。形象地說,在這門科目的輔助之下,計算機能夠成為人類的第二雙眼睛,對目標進行識別、跟蹤和測量。
“One picture is worth ten thousand words.”圖像的處理,將為人類提供巨大的便捷。
大致羅列出其處理所進行的步驟,分別是:圖像獲取、特征提取、檢測分割、高級處理。
1.3 計算機如何定位人臉并從而實現(xiàn)識別功能
關于人臉的定位與識別,在很大一定程度上與區(qū)別物體與背景的技術(shù)存在著相似之處。但是人臉的定位與識別,又是更高于目標對象的識別的。這正是算法的不停更新與發(fā)展所帶來的科技發(fā)展的結(jié)果。
目前比較流行的Cascade Classifier(Opencv中做人臉檢測的時候的一個級聯(lián)分類器)效果還是比較好的,正臉檢測到的成功率能達到90%以上。
此外,在人臉局部區(qū)域特征提取時,一種叫做CNN(Convolutional Neural Network)卷積神經(jīng)網(wǎng)絡技術(shù)的運用――使用提取特征的filter對像素點進行幾層處理,也為識別帶來一定的便利。CNN運用到了深度學習,因此這里將拓展以下有關deep learning的概念:
deep learning的概念源于人工神經(jīng)網(wǎng)絡的研究。其三大框架為:CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡),DBN(Deep Belief Network,深度置信網(wǎng)絡),AE(AutoEncoder,自動編碼機)。而目前在CV(Computer Vision的縮寫,指計算機視覺)領域應用最廣的是CNN。到近來也有很多人嘗試用deep learning的方法來實現(xiàn)人臉識別,其與先前所提到的計算機區(qū)分物體和背景的原理也是相似的。
2 結(jié)論
回到最初的問題:照相機的人臉跟蹤是如何實現(xiàn)的?綜上所述,可以獲得的結(jié)論是:照相機的人臉跟蹤是通過計算機視覺的一些算法實現(xiàn)的。但這些算法在技術(shù)方面人仍然面臨著一些難點,例如,在特征識別時,外界客觀因素,有如,光線、著裝遮擋、目標對象的姿態(tài)、臉型、樣本缺乏等等尚未解決的問題。這些都使人臉識別技術(shù)尚有巨大的可發(fā)展空間。就像前段時間由推出的How Old do I Look線上臉部偵測服務,曾一度掀起熱潮,可見,人們對于人臉識別技術(shù)的期望也是很高的。
那么,未來的人臉識別技術(shù)到底能夠發(fā)展到何種程度呢?香港中文大學教授湯曉鷗、王曉剛及其研究團隊曾在2014年6月宣布,他們研發(fā)的DeepID人臉識別技術(shù)的準確率超過99%,比肉眼識別更加精準。相信未來,計算機人臉識別技術(shù)將與我們共同成長,逐漸成熟與完善。畢業(yè)于UC Berkeley的博士賈揚清,創(chuàng)造了Caffe――全稱Convolutional Architecture for Fast Feature Embedding,一個清晰而高效的深度學習框架,具有上手快、速度快、模塊化、開放性、社區(qū)好等優(yōu)點。如此不斷迅捷發(fā)展的計算機技術(shù),在這個數(shù)字化的時代,正是對未來發(fā)展很好的導向。
參考文獻
[1]韋鳳年.怎樣寫科技論文[J].河南水利,2006(09).
[2]董琳,趙懷勛.人臉識別技術(shù)的研究現(xiàn)狀與展望[J].China Academic Journal Electronic Publishing House,2011,10.
作者簡介
孫文倩(1998-),上海市人?,F(xiàn)在上海市洋涇中學高中在讀。
【關鍵詞】聲紋識別;小波濾波器組;基音周期;Mel倒譜系數(shù);高斯混合模型
1.引言
說話人聲紋識別可以看作是語音識別的一種。它和語音識別一樣,都是通過對所收到的語音信號進行處理,提取相應的特征或建立相應的模型,然后據(jù)此作出判斷。而區(qū)別在于它并不注意語言信號中的語義內(nèi)容,而是希望從語音信號中提取出人的特征。從這點上說,說話人聲紋識別是企求挖掘出包含在語音信號中的個性因數(shù),而語音識別是企求從不同人的詞語信號中尋找相同因素。在處理方法上,說話人聲紋識別力圖強調(diào)不同人之間的差別,而語音識別則力圖對不同人說話的差別加以歸一化。世界范圍內(nèi),聲紋識別技術(shù)正廣泛應用于諸多領域。截止到去年年初,聲紋識別產(chǎn)品的市場占有率為15.8%,僅次于指紋識別和掌形識別。
現(xiàn)有文獻中用于說話人識別的特征許多是建立在短時頻譜基礎上。它們主要有Mel頻率倒譜系數(shù)(MFCC),LPC倒譜系數(shù),差值倒譜等。在聲紋識別技術(shù)中,目前研究最多的方法有:模板匹配法、概率模型法和人工神經(jīng)網(wǎng)絡法。Soong等人將矢量量化技術(shù)用于與文本無關的說話人是被系統(tǒng)。Rosenberg等人利用子詞單元構(gòu)成的隱馬爾科夫模型(HMM),建立了一個說話人確認系統(tǒng)。Delesby等人利用徑向基函數(shù)神經(jīng)網(wǎng)絡方法進行說話人識別[1]。我國的北京大學以遲惠生為領導的說話人識別研究團體、清華大學以楊行峻為領導的研究團體以及中國科學院聲學所和東南大學也在這個方面取得了非常優(yōu)秀的科研成果.從國內(nèi)外文獻看來,有的著重距離測度,但是大多數(shù)向幾種方法如HMM、GMM和ANN混合的方向發(fā)展。
2.聲紋識別的基本原理及相關算法
2.1 基本原理
聲紋識別的基本原理如圖1所示,主要包括兩個階段,即訓練和識別階段。
訓練階段,系統(tǒng)的每個使用者說出若干訓練語句,系統(tǒng)據(jù)此建立每個使用者的模板或模型參數(shù)。識別階段,由待識人說的語音經(jīng)特征提取后與系統(tǒng)訓練時產(chǎn)生的模板或模型參數(shù)進行比較。在主說話人的辨認中,取與測試音匹配距離最小的說話人模型所對應的說話人作為識別結(jié)果;在說話人確認中,則通過判斷測試音與所聲稱的說話人的模型的匹配距離是否小于一定閉值做出判斷。
2.2 語音信號的預處理
在語音信號特征提取之前,首先要進行的一個環(huán)節(jié)就是對輸入語音信號的預處理,主要包括預濾波、預加重、加窗分幀以及語音端點檢測等過程。本文就以涉及到的預濾波進行描述,預濾波在本文中是通過小波濾波器組來實現(xiàn)。預濾波器必須是一個帶通濾波器,其上、下截止頻率分別是和。對于絕大多數(shù)語音處理中,,,采樣率為。
2.3 聲紋特征提取
2.3.1 概述
提取說話人特征就是把原來語音中的冗余信息去掉,找到我們關注的語音特征信息,是一個減小數(shù)據(jù)量的過程。從說話人語音信號中提取的特征參數(shù)應滿足以下準則:對外部條件具有魯棒性(如:說話人的健康狀況和情緒,方言和別人模仿等);能夠長期地保持穩(wěn)定;易于從語音信號中進行提?。慌c其他特征不相關。
2.3.2 典型聲紋特征參數(shù)提取算法
聲紋特征參數(shù)主要有以下幾種:基音周期、短時過零率、線性預測(LPC)、線性預測倒譜系數(shù)(LPCC)、Mel頻率倒譜系數(shù)(MFCC)、以及經(jīng)過噪聲譜減或者信道譜減的去噪倒譜系數(shù)等,每一種特征參數(shù)都有其相應的提取算法。在聲紋特征提取這一點,本文將采用基音周期和Mel頻率倒譜混合的參數(shù)作為特征參數(shù)。
2.3.2.1 線性預測(LPC)方法
語音線性預測的基本思想是:利用過去的樣值對新樣值進行預測,然后將樣值的實際值與其預測值相減得到一個誤差信號,顯然誤差信號的動態(tài)范圍遠小于原始語音信號的動態(tài)范圍,對誤差信號進行量化編碼而達到最小,可以確定唯一的一組線性預測系數(shù)。目前主流算法有Durbin遞推算法、Levinson遞推算法、舒爾(schur)算法和個性算法[2][3]。由于LPC分析是基于全極點模型的假設,所以它對于聲道響應含有零點的清音和濁音和鼻音描述不確切。
2.3.2.2 線性預測倒譜系數(shù)(LPCC)
倒譜特征是用于說話人個性特征和說話識別人識別的最有效的特征之一。語音信號是聲道頻率特性和激勵源信號源兩者共同卷積的結(jié)果,后者對于某幀而言常帶有一定的隨機性,而說話人的個性特征很大程度上取決于說話人的發(fā)音聲道,因此要將此二者進行有效的分離,可以通過對信號做適當?shù)耐瑧B(tài)濾波,將相卷積的兩個部分分離。濾波的關鍵是先將卷積處理化為乘積,然后做對數(shù)處理,使之化為可分離的相加成分。線性預測倒譜系數(shù)可由LPC特征進行推導,基于LPC系數(shù)分析得倒譜存在一種非常簡單有效的遞推求解方法。LPCC參數(shù)比較徹底地去掉了語音產(chǎn)生過程中的激勵信息,主要反映聲道特性,只需要十幾個倒譜系數(shù)能比較好的描述語音的共振特性,計算量小,其缺點是對輔音的描述能力較差,抗噪聲性能也較弱。
2.3.2.3 梅爾倒譜系數(shù)(MFCC)
MFCC著眼于人耳的聽覺感知機理。因為聽到的聲音的高低與聲音的頻率的并不成線性正比關系,Mel頻率的尺度更符合人耳的聽覺特性。用Mel濾波器組對語音信號進行濾波和加權(quán),使語音信號更加接近于人耳聽覺感知系統(tǒng)特性,MFCC特征成為目前說話人識別和語音識別中最為廣泛的特征參數(shù)。根據(jù)倒譜計算過程,MFCC計算過程可以簡單地描為如下四個步驟:
(1)對語音信號進行短時傅里葉變換,得到各個幀的頻譜。
(2)在Mel頻率的軸上配置L個通道的三角濾波器組,L的個數(shù)由信號的救治頻定。每一個三角濾波器中心頻率c(l)在MEL頻率軸上等間隔分配。設o(l)、h(l)分別是第L個三角濾波器的下限、中心和上限頻率,則相鄰三角形濾波器的下限、中心和上限頻率有如下關系成立:
2.3.2.4 基因周期系數(shù)
基音是指發(fā)濁音時聲帶振動引起的周期性,而基音周期是指聲帶振動頻率的倒數(shù),基音可以分為時域、頻域以及綜合利用信號時域頻率特性等三種提取模式,時域包括利用語音信號的采樣點計算信號的波峰、波谷和過零率等,典型的方法是Gold和Rabiner提出的并行處理方式;頻域的方法主要是計算信號的自相關函數(shù)、功率譜和最大似然函數(shù)等,其精度要高于時域方法,典型的方法是有中央消波自相關法、平均幅度差分函數(shù)法和倒譜法等。本文章選用倒譜法進行基因周期的提取。
1)倒譜法原理
語音信號是激勵源與聲道相應相卷積的結(jié)果,而“倒譜特征”則是利用了對語音信號進行適當?shù)耐瑧B(tài)濾波后,可將激勵信號與聲道信號加以分離的原理。倒譜中維數(shù)較低的分量對應于語音信號的聲道分量,倒譜中維數(shù)較高的分量對應于語音信號的音源激勵信號。因此,利用語音信號倒譜可將它們分離,彼此基本上互不干擾,并可以避免聲道分量受到隨機變化的音源激勵分量的干擾。
可見,倒譜域中基音信息與聲道信息可認為相對分離的。采取簡單的倒譜法可以分離并恢復e(n)和v(n),根據(jù)激勵e(n)及倒譜的特征可以求出基音周期。然而,反應基音信息的倒譜峰在含過渡音和噪語音中將會變得不清晰甚至完全消失。原因主要是因為過渡音中周期激勵信號能量降低和類噪激勵信號干擾或含噪語音中的噪聲干擾所致。這里可以采用一個簡單的方法,就是在倒譜分析中,直接將傅里葉變換之前的(IFT)頻域信號(由原始作FT逆變換再取對數(shù)后得到)的高頻分量置零??梢詫崿F(xiàn)類似于低通濾波器的處理,濾去噪音和激勵源中的高頻分量,減少了噪聲干擾。圖2是一種改進的倒譜基音檢測的算法框圖。
2.4 聲紋識別技術(shù)
2.4.1 概述
聲紋識別的基本原理是為了每個說話人建立一個能夠描述這一說話人特征的模型,以其作為這一說話人的個性特征。在目前的話音特征與說話人個性特征還未很好的從語音特征中得到分離情況下,為每個說話者建立的說話人模型實際上是說話人的語音特征得模型。為對說話人個性特征描述的一致起見,構(gòu)造一個通用的模型,常將每個說話人的模型結(jié)構(gòu)取得相同,不同的只是模型中的參數(shù),通過用訓練語音對模型進訓練得到。
2.4.2 典型的聲紋識別算法
目前說話人識別模型主要有DTW(動態(tài)時間規(guī)劃),VQ(矢量量化),GMM(高斯混合模型),HMM(隱馬爾科夫模型),NN(神經(jīng)元網(wǎng)絡),SVM(支持向量機)等。本文用到GMM(高斯混合模型),所以后面會對其算法進行了詳細的描述。
2.4.2.1 動態(tài)時間規(guī)劃(DTW)
說話人信息既有穩(wěn)定因素(發(fā)聲器官的結(jié)構(gòu)和發(fā)聲習慣),也有時變因素(語速、語調(diào)、重音和韻律)。將模式識別與參考模板進行時間對比,按照某種距離測定得出兩模板間的相似程度。常用方法是基于最近鄰原則的動態(tài)時間規(guī)劃DTW,但DTW只對孤立詞識別性能較好,并且高度依賴于定時,目前應用不廣。
2.4.2.2 矢量量化方法(VQ)
矢量量化是一種極其重要的信號壓縮方法,它廣泛應用于語音編碼、語音識別與合成、說話人識別、圖像壓縮等領域,基于非參數(shù)模型的VQ的方法是目前自動話說人識別的主要方法之一。完成VQ說話人識別系統(tǒng)有兩個步驟:(1)利用說話人的訓練語音,建立參考模型碼本。(2)對待識別說話者的語音的每一幀和碼本之間進行匹配。由于VQ碼本保存了說話人個性特征,這樣我們就可以利用VQ法進行說話人識別。在VQ法中模型匹配不依賴于參數(shù)的時間順序,因此匹配過程中無需采用DTW技術(shù);而且這種方法比應用DTW方法的參考模型儲量小,即碼本碼字小。
用矢量量化方法建立識別模型,既可以大大減少數(shù)據(jù)存儲量,又可以避開困難語音分段問題和時間規(guī)整問題。但是每個說話人的碼本只是描述了這一說話人的語音特征在特征空間中的聚類中心的統(tǒng)計分布情況。在訓練階段為了充分反映說話人的個性特征要求訓練語音足夠長;在識別時為了使測試語音的特征矢量在特征空間中的分布能夠與相應的說話人碼本相吻合,所以同樣要求有足夠長的測試語音,在測試語音很短的情況下,這種方法的識別率將會急劇下降。
2.4.2.3 隱馬爾科夫模型
HMM模型是馬爾科夫鏈的推廣,隱馬爾科夫模型是一種基于轉(zhuǎn)移概率和傳輸概率的隨機模型。它把語音看成由可觀察到的符號序列組成的隨機過程,符號序列則是發(fā)聲系統(tǒng)序列的輸出。在HMM中,觀察到的事件與狀態(tài)通過一組概率分布相聯(lián)系,是一個雙重隨機過程,其中一個是Markov鏈,他它描述了狀態(tài)之間的轉(zhuǎn)移;另一個隨機過程描述狀態(tài)和觀察值之間的統(tǒng)計響應關系。HMM模型的狀態(tài)是隱含的,可以觀察到的的是狀態(tài)產(chǎn)生的觀察值,因此稱為隱馬爾科夫模型(HMM)。HMM模型同樣廣泛用于與文本相關的說話人識別中,并且比傳統(tǒng)的方法有著更好的性能。HMM不需要時間規(guī)整,可節(jié)約判決時計算時間和存儲量,在目前被廣泛應用。缺點是訓練時計算量大。
2.4.2.4 基于支持向量機(SVM)的方法
SVM是Vapnik提出的一種基于結(jié)構(gòu)風險最小化二元分類器,通過非線性變換將原始集合映射到高維空間,轉(zhuǎn)化為某個高維中的線性問題,尋找最優(yōu)分類面,具有很好的泛化和分類能力,在手寫/文字識別、文本分類和人臉識別等模式領域中取到成功的應用[4]。SVM實際上是一種辨別模式,一般情況下它只能辨別兩類數(shù)據(jù),因此需要正反兩類數(shù)據(jù)進行訓練。因此SVM要在說話人識別中應用,必須要解決多類分類問題。解決說話人識別的多分類問題的主要有三種形式[4]:
1)為每個人建立一個SVM,訓練數(shù)據(jù)由目標說話人和背景說話人的語音分別構(gòu)成“+”、“??﹣”數(shù)。
2)為每一對說話人建立一個SVM,由N個人則建立N*(N-1)/2個SVM。
3)決策樹分類:決策樹上每個節(jié)點將多個說話人分為兩個子集,或者是一個說話人(葉節(jié)點)。
關鍵詞: 圖像特征; 支持向量機; 模擬退火算法; 交通標志識別
中圖分類號: TN911?34; TP391.41 文獻標識碼: A 文章編號: 1004?373X(2017)08?0097?03
Traffic sign recognition based on image feature and improved support
vector machine algorithm
HAO Yongjie1, ZHOU Bowen2
(1. Hohhot Vocational College, Hohhot 010051, China; 2. College of Management and Economics, Tianjin University, Tianjin 300072, China)
Abstract: A traffic sign recognition method based on image feature and improved support vector machine (SVM) algorithm is studied in this paper. The color feature and shape feature are used to extract the image feature of the traffic sign. The Gabor filtering method is adopted to perform the enhancement processing of the traffic sign image. Since the accuracy of the recognition algorithm based on SVM is affected by the basic parameters to a great extent, and the parameters are selected according to the experience usually, the simulated annealing algorithm is used to select the parameters of the support vector machine optimally. The research results show that the detection accuracy of the traffic sign detection method is higher than that of the other three methods, and the detection accuracy of color and shape features extraction method is higher than that of the single color feature extraction method or shape feature extraction method.
Keywords: image feature; SVM; simulated annealing algorithm; traffic sign recognition
交通安全題以及道路通信能力不足問題越來越嚴重,人們開始重視如何提升道路交通的安全性及有效性,車輛安全輔助駕駛能夠?qū)⒌缆沸畔?、車輛信息以及駕駛員信息聯(lián)系起來,駕駛員在其輔助下能夠?qū)π熊嚟h(huán)境進行感知,進而達到識別和監(jiān)測道路信息的目的[1?2]。作為高級輔助系統(tǒng)的重要部分,交通標志識別系統(tǒng)能夠有效地提升駕車的舒適性以及安全性。利用該系統(tǒng),能夠采集自然場景圖像,經(jīng)過圖像識別和處理以后就可以檢測交通標志,進而及時警告、指示以及提醒駕駛員[3?4]。
1 基于圖像特征的交通標志檢測特征提取
1.1 基于顏色的交通標志特征
不同的交通標志在顏色上存在著較大的差距,因此在分割交通標志圖像的過程中通常以顏色為基礎來分離抽取交通標志[5?6]。色調(diào)V、飽和度S以及色度H三個分量組成了HSV 顏色空間,作為三原色RGB空間的一種非線性變換,HSV顏色空間模型和圓柱坐標系的一個圓錐形子集是相互對應的,實現(xiàn)RGB顏色空間和HSV空間之間的轉(zhuǎn)換[7]如下:
(1)
(2)
(3)
1.2 基于形狀的交通標志特征
利用顏色抽取的方法能夠在實景圖中提取交通標志區(qū)域。然而由于在背景上自然場景和交通標志均比較復雜,如果僅僅依靠顏色無法獲得較為精確的判定結(jié)果。但是這種方法能夠?qū)⒛切╊伾容^類似的背景排除掉,主要是因為這些復雜背景和交通標志的特殊形狀存在著一定的差距[8]。矩形、三角形以及圓形為交通標志的三種主要類型,當交通標志不同時其屬性也存在著一定的差距,例如執(zhí)行到邊緣的距離、伸長度、矩形度以及圓形度等。圓形度、矩形度以及伸長度計算方法如下[9]:
(4)
(5)
(6)
1.3 Gabor濾波
Gabor 濾波首先對核函數(shù)模板進行確定,然后對圖像進行卷積操作。Gabor 濾波函數(shù)乘以復指數(shù)振蕩函數(shù)就是所對應的沖激響應。本文在提取特征向量時采用Gabor濾波法,所對應的核函數(shù)[10]如下:
(7)
2 改進支持向量機模型
相比于神經(jīng)網(wǎng)絡,支持向量機不需要太多的訓練樣本,同時對于凸優(yōu)化問題支持向量機能夠有效的解決,當參數(shù)和樣本一致時,訓練模型所得到的預測值就不會產(chǎn)生變化,因此在實際應用和理論中都比神經(jīng)網(wǎng)絡模型具有更高的性能。
但是在應用的過程中支持向量機需要依靠經(jīng)驗對學習參數(shù)進行選取。比如懲罰因子C和ε等,支持向量機的精度在很大程度上受到這些參數(shù)的影響,通常根據(jù)經(jīng)驗來進行參數(shù)的選取,這對于支持向量機模型的使用和推廣是不利的。因此本文使用模擬退火算法對支持向量機的參數(shù)進行優(yōu)化選擇。
支持向量機的思想是利用結(jié)構(gòu)風險最小化思想以及構(gòu)造損失函數(shù)的思想,以統(tǒng)計學理論為基礎,通過極小化目標函數(shù)就可以對回歸函數(shù)進行確定,如下[11]:
(8)
將上述問題轉(zhuǎn)化為對偶問題:
(9)
解出上述問題即為支持向量機的回歸函數(shù):
(10)
作為一種隨機尋優(yōu)算法,模擬退火算法是以蒙特卡羅迭代求解策略為基礎的,其基本原理和物理上的金屬退火比較類似。使用模擬退火算法對支持向量機的參數(shù)進行優(yōu)化選擇,主要過程如下:
步驟1:初始化參數(shù)。設定支持向量機中的ε,C和σ參數(shù)的初始范圍。
步驟2:使用模擬退火算法對支持向量機的參數(shù)進行優(yōu)化選擇。
步驟3:更新最優(yōu)解。如果,則使,,;否則使。
步驟4:抽樣穩(wěn)定性判別。如果,則使,并返回步驟2;否則使。
步驟5:終止退火判別。如果,則使,否則使。如果,則終止退火算法,否則繼續(xù)向下進行。
步驟6:退火方案。如果,則按照方式進行退火;否則按照方式進行退火。
在利用SA對SVM參數(shù)進行確定的過程中能夠記憶性地進行參數(shù)的選取,可以存儲當前進化所得到的最優(yōu)參數(shù),保證可以根據(jù)記憶調(diào)整參數(shù)的選擇過程;同時利用SA算法能夠調(diào)整所選取的參數(shù),避免出現(xiàn)局部最小的情況,對于逼近系統(tǒng)的精度以及參數(shù)選擇學習速度的提升有非常好的效果[12]。
3 交通標志識別實例分析
通過交通標志識別實例對本文研究的識別方法進行驗證分析。通^實地考察,拍攝了500幅包括826個交通標志的圖像,用于實例分析,部分標志圖像如圖1所示。
本文以文獻[13]中研究的圖像特征檢測方法為例進行對比分析。使用本文研究的圖像特征檢測方法得到的圖像處理結(jié)果和使用文獻[13]中研究的圖像特征檢測方法得到的圖像處理結(jié)果如圖2所示。
對比本文和文獻[13]中的特征檢測方法可以看出,本文研究的方法處理后圖像中雜點更少,更利于圖像的分類識別。另外,由于文獻[13]中的特征檢測方法使用計算圖像均值處理,因此特征檢測效率相對更低。
下面對交通標志識別準確率進行分析。使用多種圖像特征檢測方法和圖像分類模型進行組合:本文研究的使用顏色和形狀特征提取,改進支持向量機進行圖像分類,稱方法A;使用顏色和形狀特征提取,常規(guī)支持向量機進行圖像分類,稱方法B;使用顏色特征提取,改進支持向量機進行圖像分類,稱方法C;使用形狀特征提取,改進支持向量機進行圖像分類[14],稱方法D。
使用上述四種方法針對拍攝的826個交通標志的圖像進行識別,對比結(jié)果如表1所示。
表1 四種算法的識別結(jié)果對比
可以看出使用本文研究的交通標志檢測方法的檢測精度高于其他三種方法。使用顏色和形狀特征提取的檢測精度要高于單獨使用顏色或形狀特征提取方法。
4 結(jié) 論
交通標志識別系統(tǒng)能夠有效地提升駕車的舒適性以及安全性。交通標志識別系統(tǒng)能夠采集自然場景圖像,經(jīng)過圖像識別和處理以后就可以檢測交通標志,進而及時警告、指示以及提醒駕駛員。本文研究一種基于顏色和形狀特征以及改進支持向量機算法的交通標志識別方法,并通過實例對所研究的交通標志識別方法的可行性進行了驗證。
參考文獻
[1] 王剛毅.交通標志檢測與分類算法研究[D].哈爾濱:哈爾濱工業(yè)大學,2013.
[2] 宋婀娜,房俊杰,李娜,等.一種基于局部特征的交通標志檢測算法的研究[J].現(xiàn)代電子技術(shù),2015,38(13):114?116.
[3] 楊正帥.基于視覺的道路識別技術(shù)在移動機器人導航中的應用研究[D].南京:南京理工大學,2007.
[4] 王忠.基于視覺的道路識別技術(shù)在智能小車導航中的應用研究[D].南京:東南大學,2006.
[5] 陳樸.模擬退火支持向量機算法研究及在電力負荷預測中的應用[D].哈爾濱:哈爾濱工業(yè)大學,2006.
[6] 陳亦欣,葉鋒,肖鋒,等.基于HSV空間和形狀特征的交通標志檢測識別研究[J].江漢大學學報(自然科學版),2016(2):119?125.
[7] 王洋.一種基于模板匹配的交通標志識別方法[D].長春:吉林大學,2013.
[8] 盧艷君.交通標志自動檢測與識別算法研究[D].武漢:武漢科技大學,2015.
[9] 鮑朝前.針對圓形和三角形交通標志的檢測與識別[D].北京:北京工業(yè)大學,2015.
[10] 周欣.圓形和三角形交通標志分割與識別算法研究[D].上海:華東理工大學,2013.
[11] 李瑾,劉金朋,王建軍.采用支持向量機和模擬退火算法的中長期負荷預測方法[J].中國電機工程學報,2011(16):63?66.
[12] 張震,徐子怡,袁淑芳.基于支持向量機和模擬退火算法對供暖熱負荷的預測方法[J].自動化技術(shù)與應用,2016(2):10?14.