前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇卷積神經(jīng)網(wǎng)絡(luò)的核心范文,相信會為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);古玩圖片;圖像識別
DOIDOI:10.11907/rjdk.162768
中圖分類號:TP317.4
文獻標識碼:A文章編號文章編號:16727800(2017)005017405
0引言
隨著電子商務(wù)的發(fā)展,大批藝術(shù)品交易網(wǎng)站隨之興起,藏品交易規(guī)模也越來越大。而當前的古玩網(wǎng)上交易平臺還不能夠?qū)崿F(xiàn)對現(xiàn)有藏品圖片的自動分類,客戶在尋找目標藏品時不得不在眾多圖片中一一瀏覽。因此需要一種有效的方法來完成面向圖像內(nèi)容的分類。
在基于內(nèi)容的圖像檢索領(lǐng)域,常使用人工設(shè)計的特征-如根據(jù)花瓶、碗、盤子的不同形態(tài)特征:目標輪廓的圓度、質(zhì)心、寬高比等[1],繼而使用BP神經(jīng)網(wǎng)絡(luò)、SVM分類器等對特征進行學(xué)習(xí)分類。文獻[2]基于植物葉片的形狀特征,如葉片形狀的狹長度、矩形度、球狀性、圓形度、偏心率、周長直徑比等,利用BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)對植物葉片進行分類。文獻[3]研究印品圖像的各類形狀缺陷,利用圖像缺陷形狀的輪廓長度、面積和圓形度等幾何特征,導(dǎo)入SVM分類器進行訓(xùn)練,得到分類器模型實現(xiàn)分類。文獻[4]提出了一種基于Zernike矩的水果形狀分類方法,通過提取圖像中具有旋轉(zhuǎn)不變性的Zernike矩特征,并運用PCA方法確定分類需要的特征數(shù)目,最后將這些特征輸入到SVM分類器中,完成水果形狀的分類。上述方法都要求對目標形狀分割的準確性,而分割過程中由于存在目標陰影、目標分割不完整問題,會影響到人工特征的準確選取。除了上述人工特征外,最常用的特征是HOG[5,6]、SIFT[7,8]等。HOG的核心思想是所檢測的局部物體外形能夠被光強梯度或邊緣方向的分布所描述。HOG表示的是邊緣結(jié)構(gòu)特征,因此可以描述局部形狀信息。SIFT在圖像的空間尺度中尋找極值點,并提取出其位置、尺度、旋轉(zhuǎn)不變量。SIFT特征對于旋轉(zhuǎn)、尺度縮放、亮度變化保持不變。但是,這兩種特征在實際應(yīng)用中,描述子生成過程冗長、計算量太大。而且在上述方法征設(shè)計需要啟發(fā)式的方法和專業(yè)知識,很大程度上依靠個人經(jīng)驗。
卷積神經(jīng)網(wǎng)絡(luò)不需要手動設(shè)計提取特征,可以直接將圖片作為輸入,隱式地學(xué)習(xí)多層次特征,進而實現(xiàn)分類[9]。相比目前常用的人工設(shè)計特征然后利用各分類器,具有明顯的優(yōu)勢。近年來,卷積神經(jīng)網(wǎng)絡(luò)已成為語音、圖像識別領(lǐng)域研究熱點。它的權(quán)值共享特點使得網(wǎng)絡(luò)復(fù)雜度降低,權(quán)值數(shù)量減少。而且,卷積神經(jīng)網(wǎng)絡(luò)直接將圖片作為輸入,避免了復(fù)雜的特征設(shè)計和提取,具有一定的平移、縮放和扭曲不變性[10]。本文采用卷積神經(jīng)網(wǎng)絡(luò)對古玩圖片進行分類。首先,將背景分離后的圖片作為網(wǎng)絡(luò)的輸入,相比原圖作為輸入,此方法的網(wǎng)絡(luò)結(jié)構(gòu)更加簡單。然后,卷積層通過不同的卷積核對輸入圖片進行卷積得到不同特征圖,采樣層進一步對特征圖進行二次提取,最終提取到合適的特征輸入分類器進行分類,而在卷積層、采樣層征圖的大小、數(shù)目都會影響到網(wǎng)絡(luò)的分類能力。因此,本文通過優(yōu)化網(wǎng)絡(luò)參數(shù),使網(wǎng)絡(luò)達到較好的分類效果。
1卷積神經(jīng)網(wǎng)絡(luò)
1989年,LECUN等[11]提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN),CNN是一種帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),一般至少有2個非線性可訓(xùn)練的卷積層、2個非線性的固定采樣層和1個全連接層,一共至少5個隱含層[12]。百度于2012年底將深度學(xué)習(xí)技術(shù)成功應(yīng)用于自然圖像OCR識別和人臉識別,此后深度學(xué)習(xí)模型被成功應(yīng)用于一般圖片的識別和理解。從百度經(jīng)驗來看,深度學(xué)習(xí)應(yīng)用于圖像識別不但大大提升了準確性,而且避免了人工特征抽取的時間消耗,從而大大提高了在線計算效率[13]。
卷積神經(jīng)網(wǎng)絡(luò)作為一種高效的深度學(xué)習(xí)方法[14],在許多圖像識別方面取得了很好的成效[1519]。該網(wǎng)絡(luò)作為一種多隱層神經(jīng)網(wǎng)絡(luò),可以提取圖像的多層次特征進行識別。
卷積神經(jīng)網(wǎng)絡(luò)主要包括卷積層和采樣層,卷積層通過可學(xué)習(xí)的卷積核對輸入圖片進行卷積得到特征圖,卷積操作即加強了輸入圖片的某種特征,并且降低噪聲。卷積之后的結(jié)果通過激活函數(shù)(通常選擇Sigmoid函數(shù)或Tanh函數(shù))作用輸出構(gòu)成該層的特征圖。特征圖上的每一個神經(jīng)元只與輸入圖片的一個局部區(qū)域連接,每個神經(jīng)元提取的是該局部區(qū)域的特征,所有神經(jīng)元綜合起來就得到了全局特征,與神經(jīng)元相連接的局部區(qū)域即為局部感受野[20]。而在卷積層中一般存在多張?zhí)卣鲌D,同一張?zhí)卣鲌D使用相同的卷積核,不同特征圖使用不同的卷積核[21],此特點稱為權(quán)值共享,即同一張?zhí)卣鲌D上的所有神經(jīng)元通過相同的卷積核連接局部感受野。卷積神經(jīng)網(wǎng)絡(luò)的局部感受野和嘀倒蠶硤氐憒蟠蠹跎倭送絡(luò)訓(xùn)練的參數(shù)個數(shù),降低了網(wǎng)絡(luò)模型的復(fù)雜度。
采樣層對卷積層提取到的特征圖進行局部非重疊采樣,即把特征圖分為互不重疊的N×N個子區(qū)域,對每個子區(qū)域進行采樣。卷積神經(jīng)網(wǎng)絡(luò)的采樣方式一般有兩種:最大值采樣和均值采樣。最大值采樣即選取區(qū)域內(nèi)所有神經(jīng)元的最大值作為采樣值,均值采樣為區(qū)域內(nèi)所有神經(jīng)元的平均值作為采樣值。最大值采樣偏向于提取目標的特征信息,而均值采樣偏向于提取背景的特征信息[22]。采樣后的特征平面在保留了區(qū)分度高特征的同時大大減少了數(shù)據(jù)量,它對一定程度的平移、比例縮放和扭曲具有不變性。
卷積神經(jīng)網(wǎng)絡(luò)通過卷積層和采樣層的循環(huán)往復(fù)提取到圖像由低層次到高層次的特征,最后一般通過全連接層將所有特征圖展開得到一維向量,然后輸入到分類器進行分類。
卷積神經(jīng)網(wǎng)絡(luò)在處理二維圖像時,卷積層中每個神經(jīng)元的輸入與上一層的局部感受野相連接,并提取該局部的特征,權(quán)值共享特點又使得各神經(jīng)元保持了原來的空間關(guān)系,將這些感受不同局部區(qū)域的神經(jīng)元綜合起來就得到了全局信息。采樣層對特征圖進行局部特征提取,不會改變神經(jīng)元之間的空間關(guān)系,即二維圖像經(jīng)過卷積層、采樣層仍然保持二維形式。因此,卷積神經(jīng)網(wǎng)絡(luò)有利于提取形狀方面的特征。雖然卷積神經(jīng)網(wǎng)絡(luò)的局部感受野、權(quán)值共享和子采樣使網(wǎng)絡(luò)大大減少了需要訓(xùn)練參數(shù)的個數(shù),但是該網(wǎng)絡(luò)作為多隱層神經(jīng)網(wǎng)絡(luò)還是十分復(fù)雜的。對于不同的數(shù)據(jù)庫,為了達到比較好的分類效果,網(wǎng)絡(luò)的層數(shù)、卷積層特征圖個數(shù)以及其它參數(shù)的設(shè)置都需要探究。
2基于卷積神經(jīng)網(wǎng)絡(luò)的古玩圖片分類
2.1特征提取及傳遞
不同古玩的主要區(qū)別在于形狀不同,而花瓶、盤子和碗在古玩中最常見,因此將這3類圖片作為實驗對象,對于其它種類的古玩圖片的分類,該網(wǎng)絡(luò)同樣適用。卷積神經(jīng)網(wǎng)絡(luò)采用如下圖所示的5層網(wǎng)絡(luò)結(jié)構(gòu),并對網(wǎng)絡(luò)各層的特征圖數(shù)目、大小均作了修改。對于網(wǎng)絡(luò)的輸入,先將原圖像進行目標與背景分割,然后進行灰度化、統(tǒng)一分辨率的處理,最后輸入到卷積神經(jīng)網(wǎng)絡(luò)。由于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的根本目的是提取不同古玩的特征,而背景不是目標的一部分,對古玩識別來說并不提供任何有用的信息,反而對特征的提取造成干擾,所以去除背景噪聲后,網(wǎng)絡(luò)結(jié)構(gòu)會更加簡單,同時也利于網(wǎng)絡(luò)對特征的學(xué)習(xí)。但是因為進行了去背景的預(yù)處理,網(wǎng)絡(luò)也失去了對復(fù)雜背景下圖片的識別能力,所以使用該網(wǎng)絡(luò)進行古玩圖片分類前都要進行目標分割的預(yù)處理過程。
卷積神經(jīng)網(wǎng)絡(luò)對古玩圖片的特征提取過程如下:
(1)輸入網(wǎng)絡(luò)的圖片為100×100大小的預(yù)處理圖,卷積神經(jīng)網(wǎng)絡(luò)的輸入層之后為卷積層,卷積層通過卷積核與輸入圖像進行卷積得到特征平面,卷積核大小為5×5。如圖2所示,特征平面上每個神經(jīng)元與原圖像5×5大小的局部感受野連接。卷積核移動步長為1個像素,因此卷積層C1的特征平面大小為96×96。這種卷積操作在提取到輸入圖像的某一方面特征時,必然會損失掉圖像的其他特征,而采取多個卷積核卷積圖像得到多個特征平面則會一定程度上彌補這個缺陷。因此,在卷積層C1中使用了6個不同的卷積核與輸入圖像進行卷積,得到6種不同的特征平面圖。如圖3所示,同一張?zhí)卣鲌D上的所有神經(jīng)元共享一個卷積核(權(quán)值共享),圖中連接到同一個特征圖的連接線表示同一個卷積核,6個不同的卷積核卷積輸入圖片得到6張不同的特征平面圖。卷積之后的結(jié)果并非直接儲存到C1層特征圖中,而是通過激活函數(shù)將神經(jīng)元非線性化,從而使網(wǎng)絡(luò)具有更強的特征表達能力。激活函數(shù)選擇Sigmoid函數(shù)。
卷積層中所使用的卷積核尺寸若過小,就無法提取有效表達的特征,過大則提取到的特征過于復(fù)雜。對于卷積層征圖個數(shù)的設(shè)置,在一定范圍內(nèi),特征圖的個數(shù)越多,卷積層提取到越多有效表達原目標信息的特征,但是特征圖個數(shù)如果過多,會使提取到的特征產(chǎn)生冗余,最終使分類效果變差。卷積層的各平面由式(1)決定: Xlj=f(∑i∈MjXl-1j*klij+blj)(1)
式(1)中,Mj表示選擇輸入的特征圖集合,l是當前層數(shù),f是激活函數(shù),klij表示不同輸入特征圖對應(yīng)的卷積核,blj為輸出特征圖對應(yīng)的加性偏置。
(2)卷積層C1后的采樣層S1由6個特征平面組成,采樣層對上一層特征圖進行局部平均和二次特征提取。采樣過程如圖4所示,特征平面上的每個神經(jīng)元與上一層4×4大小的互不重合的鄰域連接進行均值采樣,最終每個平面的大小為24×24。采樣層的各平面由式(2)決定:
Xlj=f(βljdown(Xl-1j)+blj)(2)
式(2)中,down(.)表示一個下采樣函數(shù),l是當前層數(shù),f是激活函數(shù),βlj表示輸出特征圖對應(yīng)的乘性偏置,blj為輸出特征圖對應(yīng)的加性偏置。
(3)卷積層C2與C1層操作方式一樣,唯一區(qū)別的是C2層每個特征圖由6個不同的卷積核與上一層6個特征圖分別卷積求和得到,因此C2層一共有6×6個不同的卷積核,卷積核大小為5×5,C2層每個平面大小為20×20,共6個特征平面。
(4)采樣層S2與S1層操作一樣,對上一層4×4大小鄰域進行均值采樣,輸出6個5×5大小的特征平面。本文所用的網(wǎng)絡(luò)共包括2個卷積層、2個采樣層、1個全連接層,由于輸入圖片已經(jīng)過背景分離的預(yù)處理,采樣層S2特征圖大小為5×5,所以圖1所示5層網(wǎng)絡(luò)已經(jīng)有很好的表達能力。如果直接將原圖作為輸入,那么網(wǎng)絡(luò)的層數(shù)以及特征圖的個數(shù)將比圖1所示的網(wǎng)絡(luò)更加復(fù)雜。
(5)全連接層將上一層6個5×5大小的二維平面展開成為1×150大小的一維向量輸入Softmax[23]分類器,輸出層一共有3個神經(jīng)元(即分類的種類數(shù)目),分類器將提取到的特征向量映射到輸出層的3個神經(jīng)元上,即實現(xiàn)分類。
2.2網(wǎng)絡(luò)訓(xùn)練
訓(xùn)練方式為有監(jiān)督地訓(xùn)練,網(wǎng)絡(luò)對盤子、花瓶和碗共三類圖片進行分類,所以分類器輸出一個3維向量,稱為分類標簽。在分類標簽的第k維中1表示分類結(jié)果,否則為0。訓(xùn)練過程主要分為兩個階段:
第一階段:向前傳播A段。
將預(yù)處理過的圖片輸入卷積神經(jīng)網(wǎng)絡(luò)計算得到分類標簽。
第二階段:向后傳播階段。
計算輸出的分類標簽和實際分類標簽之間的誤差。根據(jù)誤差最小化的原則調(diào)整網(wǎng)絡(luò)中的各個權(quán)值。分類個數(shù)為3,共有N個訓(xùn)練樣本。那么第n個樣本的誤差為:
En=12∑3k=1(tnk-ynk)2(3)
式(3)中,tn表示第n個樣本的網(wǎng)絡(luò)輸出標簽,tnk對應(yīng)標簽的第k維,yn表示第n個樣本的實際分類標簽,ynk對應(yīng)標簽的第k維。為了使誤差變小,利用權(quán)值更新公式(4)更新各層神經(jīng)元的權(quán)值,一直訓(xùn)練直到網(wǎng)絡(luò)誤差曲線收斂。
W(t+1)=W(t)+η?δ(t)?X(t)(4)
式(4)中,W(t)表示算第n個樣本時的權(quán)值,W(t+1)表示計算第n+1個樣本的權(quán)值,η為學(xué)習(xí)速率,選取經(jīng)驗值,δ為神經(jīng)元的誤差項,X表示神經(jīng)元的輸入。
3實驗結(jié)果及分析
實驗在MatlabR2012a平臺上完成,CPU 2.30GHz,內(nèi)存4GB,所采用的圖像由相關(guān)古玩網(wǎng)站提供,分辨率統(tǒng)一格式化為100×100。由于盤子、花瓶和碗在各種古玩種類中它們之間的形狀差別比較明顯,本文實驗對這三類古玩圖片進行分類。對古玩圖片進行了水平翻轉(zhuǎn)處理,增加圖片數(shù)據(jù)量,以加強網(wǎng)絡(luò)對古玩圖片分類的魯棒性。實驗數(shù)據(jù)如表1所示,圖5列出了3類圖片的部分樣本,實驗所用圖片均與圖5所示圖片類似,背景比較單一,少數(shù)圖片下方有類似陰影。
為了形象表示網(wǎng)絡(luò)各層提取的不同特征,圖6展示了當網(wǎng)絡(luò)輸入為盤子時的各層特征圖。卷積層C1中6張?zhí)卣鲌D分別提取到了輸入圖片的不同特征,而由于權(quán)值共享,同一張?zhí)卣鲌D中神經(jīng)元的空間關(guān)系保持不變,所以6張?zhí)卣鲌D都抓住了盤子的圓形特征。采樣層S1對C1進行均值采樣,相當于模糊濾波,所以S1層各特征圖看起來模糊了一些。卷積層C2中每張?zhí)卣鲌D由6個不同的卷積核卷積S1層各特征圖疊加而成,S2層與S1層處理方式相同。
為了說明將背景分離后的圖片作為輸入的網(wǎng)絡(luò)與原圖輸入的網(wǎng)絡(luò)之間的差異,設(shè)計了如表3所示的兩種網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)CNN4只需要4層網(wǎng)絡(luò)層就可以達到0.19%的錯誤率,而原圖作為輸入的CNN8共6層網(wǎng)絡(luò)層,在網(wǎng)絡(luò)達到收斂的情況下,錯誤率為5.24%。由此可以說明,將背景分離后圖片作為輸入的網(wǎng)絡(luò)結(jié)構(gòu)更加簡單。
網(wǎng)絡(luò)的訓(xùn)練采用了批量訓(xùn)練方式,即將樣本分多批,當一批樣本前向傳播完之后才進行權(quán)值更新,每批大小為100,訓(xùn)練集共2 200張圖片,網(wǎng)絡(luò)迭代次數(shù)為1時共進行22次權(quán)值更新,所以權(quán)值更新的計算次數(shù)與迭代次數(shù)有如下關(guān)系:
計算次數(shù)=22×迭代次數(shù)(5)
圖7為網(wǎng)絡(luò)在訓(xùn)練集上的誤差曲線圖,橫坐標為誤差反向傳播的計算次數(shù),縱坐標為訓(xùn)練集上的均方誤差。可以看出,當網(wǎng)絡(luò)訓(xùn)練次數(shù)達到270次(計算次數(shù)約6 000)時,訓(xùn)練集誤差趨于平緩,網(wǎng)絡(luò)已經(jīng)基本擬合。訓(xùn)練好的網(wǎng)絡(luò)可以用來對測試集圖片進行分類,表4為不同迭代次數(shù)下訓(xùn)練的網(wǎng)絡(luò)在測試集上的分類錯誤率,可以看出迭代次數(shù)在達到270次后,網(wǎng)絡(luò)在測試集的錯誤率收斂,此時只有2張圖片出現(xiàn)分類錯誤。
表5給出了圖像分類算法中常用的人工特征+BP神經(jīng)網(wǎng)絡(luò)、人工特征+SVM分類器以及Hog特征+SVM分類器與CNN方法的性能比較。人工設(shè)計的特征包括圖片中目標輪廓的最大長寬比、質(zhì)心、圓度等特征。從準確率方面來看,CNN方法的準確率高于其他方法,Hog特征方法的準確率遠遠高于人工特征的方法,說明了特征的好壞對圖像分類效果有著很大程度上的影響,CNN提取到的特征比Hog和人工設(shè)計的特征更具代表性。從測試時間來看,Hog方法與CNN方法相差不多,采用人工特征的方法時間最長。綜合兩個方面,CNN方法在測試時間和HOG方法相近的情況下,準確率最高。
4結(jié)語
針對網(wǎng)上古玩圖片分類問題,為了克服現(xiàn)有算法中人工設(shè)計特征困難以及往往依賴個人專業(yè)經(jīng)驗的不足,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的方法。將背景分離后的目標圖片作為網(wǎng)絡(luò)輸入,可以實現(xiàn)自動提取特征進行分類,背景分離后圖片作為網(wǎng)絡(luò)輸入使得網(wǎng)絡(luò)結(jié)構(gòu)更加簡單,并且設(shè)置了合適的特征圖個數(shù)以使網(wǎng)絡(luò)在古玩圖片集上取得較好的分類準確率。實驗數(shù)據(jù)表明,該方法能夠解決網(wǎng)上古玩圖片的分類問題,并且分類準確率達到99%,其準確率優(yōu)于常用的Hog特征以及人工特征方法。另外該方法不僅可以應(yīng)用于網(wǎng)上古玩圖片,還可應(yīng)用于鞋類、服裝等其它商品圖像的分類。
參考文獻參考文獻:
[1]K KAVITHA,M.V.SUDHAMANI.Object based image retrieval from database using combined features[C].in Signal and Image Processing (ICSIP),2014.
[2]董紅霞,郭斯羽,一種結(jié)合形狀與紋理特征的植物葉片分類方法[J].計算機工程與應(yīng)用,2014,50(23):185188.
[3]舒文娉,劉全香,基于支持向量機的印品缺陷分類方法[J].包裝工程,2014,35(23):138142.
[4]應(yīng)義斌,桂江生,饒秀勤,基于Zernike矩的水果形狀分類[J].江蘇大學(xué)學(xué)報:自然科學(xué)版,2007,28(1):3639.
[5]ZHU Q,YEH M C,CHENG K T,et al.Fast human detection using acascade of histograms of oriented gradients[C].Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006.
[6]M VILLAMIZAR,J SCANDALIANS,A SANFELIU bining colorbased invariant gradient detector with Hog descriptors for robust image detection in scenes under cast shadows[C].In Robotics and Automation,ICRA IEEE International Conference on.Barcelona,Spain:IEEE,2009.
[7]CHEN J,LI Q,PENG Q,et al.CSIFT based localityconstrained linear coding for image classification[J].Formal Pattern Analysis & Applications,2015,18(2):441450.
[8]AHMAD YOUSEF K M,ALTABANJAH M,HUDAIB E,et al.SIFT based automatic number plate recognition[C].International Conference on Information and Communication Systems.IEEE,2015.
[9]LAWRENCE S,GLIES C L,TSOI A C,et al.Face recognition:a convolutional neuralnetwork approach[J].IEEE Transactions on Neural Networks,1997,8(1):98113.
[10]TREVOR HASTIE,ROBERT TIBSHIRANI,J FRIEDMAN.The elements of statistical learning[M].New York:Springer,2001.
[11]Y LECUN,L BOUOU,Y BENGIO.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.
[12]DAHL J V,KOCH K C,KLEINHANS E,et al.Convolutional networks and applications in vision[C].International Symposium on Circuits and Systems (ISCAS 2010),2010:253256.
[13]余凱,賈磊,陳雨強,等.深度學(xué)習(xí)的昨天、今天和明天[J].計算機研究與發(fā)展,2013(09):17991804.
[14]MAIRAL J,KONIUSZ P,HARCHAOUI Z,et al.Convolutional kernel networks[DB/OL].http:///pdf/1406.3332v2.pdf.
[15]Z世杰,楊東坡與劉金環(huán),基于卷積神經(jīng)網(wǎng)絡(luò)的商品圖像精細分類[J].山東科技大學(xué)學(xué)報:自然科學(xué)版,2014(6):9196.
[16]程文博等,基于卷積神經(jīng)網(wǎng)絡(luò)的注塑制品短射缺陷識別[J].塑料工業(yè),2015(7):3134,38.
[17]鄧柳,汪子杰,基于深度卷積神經(jīng)網(wǎng)絡(luò)的車型識別研究[J].計算機應(yīng)用研究,2016(4):14.
[18]T JONATAN,S MURPHY,Y LECUN,et al.Realtime continuous pose recovery of human hands using convolutional networks[J].ACM Transaction on Graphics,2014,33(5):3842.
[19]S SKITTANON,A C SURENARAN,J C PLATT,et al.Convolutional networks for speech detection[C].Interspeech.Lisbon,Portugal:ISCA,2004.
[20]HUBEL D H,WIESEL T N.Integrative action in the cat's lateral geniculate body[J].Journal of Physiology,1961,155(2):385398.
[21]JAKE BOUVRIE.Notes on convolutional neural networks[DB/OL].http:///5869/1/cnn_tutorial.pdf.
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);自動編碼器;非監(jiān)督訓(xùn)練;多尺度分塊;目標識別
中圖分類號:TP391.41文獻標志碼:A英文標題
0引言
對圖像中目標的精確和魯棒識別是模式識別及人工智能領(lǐng)域的核心內(nèi)容,在道路監(jiān)控、戰(zhàn)場偵察、精確打擊等領(lǐng)域中有著重要的作用和廣泛的前景。近年來,隨著深度神經(jīng)網(wǎng)絡(luò)成為機器學(xué)習(xí)新的熱點,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的圖像識別算法因其較強的魯棒性和突出的識別率被學(xué)術(shù)界和工業(yè)界所重視。
Alex等[1]提出基于大型深層CNN的自然圖像識別算法,在ImageNet數(shù)據(jù)集上取得了很高的識別率;Dan等[2]提出了基于多核的CNN,并采用GPU并行運算的方法在三維NORB數(shù)據(jù)集上取得了很好的識別效果。以上算法雖然都取得了較高的目標識別率,但是由于算法采用有監(jiān)督的訓(xùn)練方式,需要大量標簽數(shù)據(jù)對網(wǎng)絡(luò)權(quán)重進行調(diào)整,當數(shù)據(jù)量較小時會導(dǎo)致模型前幾層網(wǎng)絡(luò)無法得到充分訓(xùn)練,故只能針對含標簽數(shù)據(jù)較多的大型數(shù)據(jù)集。針對此問題,目前主流的解決方法是采用特征提取算法對CNN的濾波器集進行非監(jiān)督的預(yù)訓(xùn)練。文獻[3]采用稀疏編碼提取訓(xùn)練圖像的基函數(shù)作為CNN的初始濾波器;文獻[4]將獨立成分分析(Independent Component Analysis,ICA)應(yīng)用于CNN的預(yù)訓(xùn)練階段,利用ICA訓(xùn)練濾波器集合,使識別率得到了一定提高。然而無論是稀疏編碼還是ICA,其特征提取的效果都比較一般,應(yīng)用于預(yù)訓(xùn)練階段對算法識別率的提升也比較有限。所以如何更好地選擇濾波器的預(yù)訓(xùn)練算法仍是十分困難的問題。
除了預(yù)訓(xùn)練外,影響CNN識別率和魯棒性的關(guān)鍵參數(shù)還有濾波器的尺寸和下采樣層的采樣間隔。濾波器尺寸反映了CNN對輸入圖像局部特征的提取情況,文獻[5]證明濾波器尺寸對最終識別結(jié)果有很大影響,并給出了單層條件下相對最優(yōu)的濾波器尺寸。下采樣層主要負責(zé)對特征進行模糊,從而獲得平移、尺度等不變性。采樣間隔反映了模糊的程度,間隔越大模糊越嚴重,模糊后的特征保持的全局空間信息就越少。文獻[6]證明當采樣間隔較小時,即使經(jīng)過2次卷積和2次最大下采樣(maxpooling),網(wǎng)絡(luò)輸出的激活值仍能重構(gòu)出與原始輸入看似相同的圖案。然而下采樣間隔過小會導(dǎo)致不變性喪失,過大則會損失大量細節(jié)信息,兩者均會導(dǎo)致識別率的下降。
針對以上問題,本文提出基于多尺度分塊卷積神經(jīng)網(wǎng)絡(luò)(MultiScale Convolutional Neural Network, MSCNN)的圖像目標識別算法。首先利用稀疏自動編碼器(Sparse AutoEncoder,SAE)對卷積神經(jīng)網(wǎng)絡(luò)的濾波器進行非監(jiān)督預(yù)訓(xùn)練,通過最小化重構(gòu)誤差獲得待識別圖像的隱層表示,進而學(xué)習(xí)得到含有訓(xùn)練數(shù)據(jù)統(tǒng)計特性的濾波器集合,預(yù)訓(xùn)練效果相比ICA更好。其次提出多尺度分塊的方法構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),為了增加魯棒性并減小下采樣對特征表示的影響,對輸入圖像進行多尺度分塊形成多個通路,并設(shè)計相應(yīng)尺寸的濾波器進行卷積運算,將不同通路下采樣后的輸出進行融合從而形成新的特征,輸入softmax分類器完成圖像目標的識別。最后通過大量實驗對比MSCNN算法與經(jīng)典算法在通用圖像識別任務(wù)中的識別率和魯棒性差異,從而驗證算法的有效性。
4仿真實驗及分析
本文使用STL10公開數(shù)據(jù)集以及從全色波段的QuiekBird遙感衛(wèi)星和GoogleEarth軟件中截取的遙感飛機圖像數(shù)據(jù)集進行測試實驗,將所有圖片變?yōu)?4×64像素的RGB圖。選擇STL10數(shù)據(jù)集的原因是因為其含有不包含標簽的訓(xùn)練集,可用于本文的非監(jiān)督預(yù)訓(xùn)練算法,且圖像中包含更多類內(nèi)變化。STL10共10類目標,本文選用其中的4類目標進行實驗。選擇遙感飛機圖像數(shù)據(jù)則是為了驗證本文算法在遙感圖像解譯方面的可用性。該數(shù)據(jù)集包含5類遙感飛機,共400幅。實驗時隨機選取遙感飛機圖像庫中50%的圖像作為訓(xùn)練樣本,其余作為測試樣本。本文的實驗環(huán)境為CPU2.8GHz、內(nèi)存3GB的計算機,實現(xiàn)算法的軟件為Matlab(2011a)。
4.1算法識別率對比測試
MSCNN的各通路尺寸參數(shù)設(shè)置如圖4所示,每個通道使用300個濾波器,濾波器初始值按照不同通道感受野大小利用稀疏自動編碼器預(yù)訓(xùn)練得到。編碼器設(shè)定為3層,稀疏參數(shù)ρ設(shè)定為0.05,訓(xùn)練周期為400。卷積神經(jīng)網(wǎng)絡(luò)的下采樣方式采用最大下采樣(max pooling)。
按照上述參數(shù)設(shè)置,通路1輸出特征維度為2700,通路2輸出特征維度為4800,通路3輸出特征維度為4800,MSCNN輸出特征維度總共為12300。所有算法的訓(xùn)練周期均為50。傳統(tǒng)CNN參數(shù)設(shè)定與通路1參數(shù)設(shè)定相同,同樣使用300個濾波器,濾波器初始值通過隨機初始化得到。輸出特征維度為2700。實驗結(jié)果如表1所示。
從表1可看出,加入LCN的CNN較未加入的CNN對兩種數(shù)據(jù)集的識別率有一定的提高,說明了加入LCN對目標識別率是有一定的貢獻的;在兩種數(shù)據(jù)集上MSCNN相比原始CNN都擁有更高的識別率。MSCNN通路1雖然參數(shù)設(shè)置與CNN相同,但在相同訓(xùn)練周期下識別率較加入LCN的CNN又有一定提高,說明了非監(jiān)督預(yù)訓(xùn)練對識別率提高的有效性。對于STL10數(shù)據(jù)集,可看出通路2的識別率在3個通路中最高,通路3則最低,這是因為通路3輸入的圖像尺寸最小,而STL10類內(nèi)變化很大且目標不全在圖像中心,故識別率有所下降。通路之間進行兩兩累加后識別率都有所提高,在3個通路共同作用時識別率最高,達到83.5%。對于遙感飛機圖像集而言,可看出3個通路中通路2的識別率最高,這是因為遙感飛機圖像集均為飛機圖像,不同類別之間的全局特征差異并不明顯,而局部特征更能表示不同的飛機類別。通路3由于輸入尺寸較小,識別率稍有下降。同樣的,不同通路之間的疊加都讓識別率有所提升,最終MSCNN三通路特征融合后的識別率達到了96.5%,完全滿足對于可見光遙感圖像目標識別的需求。
從表1還可看出,本文算法在3個通路CNN的情況下的識別率較1個通路或2個通路的CNN的識別率高,由此可以推斷3個通路CNN所提取的特征具有較強的泛化能力和魯棒性。此外3個通道能夠兼顧不同的尺度,使模型能提取到尺度不同的特征。
4.2算法魯棒性實驗
為驗證MSCNN的魯棒性,在數(shù)據(jù)集中選取不同類別的圖像對其進行平移、尺度、旋轉(zhuǎn)變換,然后計算MSCNN輸出的第一層全連接特征與圖像變換后輸出特征之間的歐氏距離,根據(jù)距離的大小可以衡量輸出特征對于目標變化的魯棒性,歐氏距離越小就說明特征對于目標變化越不敏感,魯棒性就越好。對于STL10選取四類目標進行實驗,對比算法為CNN;對于遙感飛機圖像集隨機選取10幅進行實驗,并取距離的平均值,對比算法為ICA和CNN。測試結(jié)果如圖6~7所示。
圖6中虛線表示傳統(tǒng)CNN算法得到的結(jié)果,實線則表示MSCNN得到的結(jié)果,從圖6可看出:無論是面對平移、尺度還是旋轉(zhuǎn)變換,MSCNN算法最終輸出的特征向量變化率均小于CNN算法,證明其魯棒性要好于CNN。
從圖7也可看出:本文算法對于遙感飛機圖像集的平移、尺度、旋轉(zhuǎn)均表現(xiàn)出良好的魯棒性,相比而言ICA提取的特征魯棒性較差,目標圖像微小的變化就導(dǎo)致了特征較大的改變。本文算法魯棒性較好首先是因為MSCNN采用非監(jiān)督的預(yù)訓(xùn)練方式,訓(xùn)練得到的濾波器含有更多圖像不變性特征;其次是因為MSCNN采用多尺度輸入,小塊圖像輸入在一定程度上相當于另一種局部特征,這些特征相比全尺寸輸入擁有更好的不變性;最后是MSCNN采用了局部對比度標準化,對于亮度變化較大和存在噪聲的目標圖像魯棒性明顯增強。
另外,本文算法采用了多通路多尺度分塊的方法,必然會使網(wǎng)絡(luò)參數(shù)增加,從而會使訓(xùn)練時間比較耗時;但在測試階段,輸入樣本的計算僅包含一些簡單的卷積和下采樣,算法復(fù)雜度并沒有因為通道的增加而增加,因此在測試階段的實時性較傳統(tǒng)的CNN并沒有太大變化。
5結(jié)語
本文提出了MSCNN算法在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過非監(jiān)督預(yù)訓(xùn)練濾波器的方法解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)前幾層無法得到有效訓(xùn)練的問題。針對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對于復(fù)雜背景圖像識別率不高的問題,利用多尺度輸入圖像增加局部不變信息,利用不同尺寸濾波器卷積搭配不同下采樣間隔的方法在獲得特征不變性的同時不至于喪失目標的細節(jié)信息,有效提升了識別率和魯棒性。與經(jīng)典算法的對比實驗結(jié)果表明:該方法能夠有效識別可見光自然圖像和遙感圖像,并對平移、尺度和旋轉(zhuǎn)變換具有較強的魯棒性。
參考文獻:
[1]
ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.
[2]
DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.
[3]
KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.
[4]
KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.
[5]
COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.
[6]
ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.
[7]
BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.
[8]
HAYKIN S.神經(jīng)網(wǎng)絡(luò)與機器學(xué)習(xí)[M].3版.申富饒, 徐燁, 鄭俊, 譯. 北京: 機械工業(yè)出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.
[10]
LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[11]
DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.
[12]
GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.
[13]
JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.
[14]
BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.
Background
This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).
ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.
由于在移動數(shù)碼設(shè)備(例如智能手機、掌上電腦、學(xué)習(xí)機等)以及平板電腦(Tablet PC)上的巨大應(yīng)用價值,聯(lián)機手寫漢字
>> 聯(lián)機手寫漢字/詞組識別的研究及其應(yīng)用 基于聯(lián)機手寫漢字字塊特征碼提取的研究 用VB實現(xiàn)聯(lián)機手寫漢字的筆劃端點提取 藏文聯(lián)機手寫識別的研究與實現(xiàn)索 基于多重卷積神經(jīng)網(wǎng)絡(luò)的大模式聯(lián)機手寫文字識別 聯(lián)機手寫維文字符的預(yù)處理和特征提取方法 基于過拆分和合并的聯(lián)機手寫英文單詞分割技術(shù) 對脫機手寫相似漢字識別方法的研究 基于神經(jīng)網(wǎng)絡(luò)的聯(lián)機手寫識別系統(tǒng)的研究和實現(xiàn) 立足細化處理解析脫機手寫漢字識別 BP神經(jīng)網(wǎng)絡(luò)探析脫機手寫漢字識別 脫機手寫數(shù)字識別技術(shù)研究 一種改進的脫機手寫漢字四角特征粗分類方法 基于字型特征的手寫體漢字多分類識別的研究 脫機手寫體簽名識別的小波包隱馬爾可夫模型 基于GABP神經(jīng)網(wǎng)絡(luò)的脫機手寫藏文識別方法 基于置信度分析的脫機手寫數(shù)字識別算法 手寫漢字識別系統(tǒng)的研究與應(yīng)用 手寫數(shù)字識別的原理及應(yīng)用 手寫漢字的特性與生命力 常見問題解答 當前所在位置:l,運行時需要Java Runtime Environment 1.5以上版本的支持),已經(jīng)能較好地識別筆順無關(guān)的手寫體漢字。目前該系統(tǒng)還沒有加上虛擬筆劃等一些草書識別技術(shù)及先進的結(jié)合聯(lián)機及脫機識別引擎的多分類器集成技術(shù),我們將來在適當時候會利用Java平臺實現(xiàn)這些技術(shù)并在該頁面上公布。
我們還構(gòu)想了一個聯(lián)機手寫識別技術(shù)在計算機輔助漢字書寫學(xué)習(xí)中的嶄新應(yīng)用――漢字聽寫學(xué)習(xí),初步的原型網(wǎng)頁見218.192.168.156:8080/ call/dictation.asp,(該頁面同樣用Java平臺實現(xiàn),運行時需要JRE支持)。 使用者可以進行在線漢字聽寫,然后系統(tǒng)利用聯(lián)機識別技術(shù)自動評判使用者書寫的字符是否正確,并給出反饋。該技術(shù)已經(jīng)集成到我們正在設(shè)計的一個對外漢語書寫教學(xué)網(wǎng)站之中。近年來,隨著中國社會經(jīng)濟建設(shè)的飛速發(fā)展,漢語教學(xué)在世界各地受到越來越多的重視,國外的漢語學(xué)習(xí)者日益增多,盡管目前國內(nèi)外有不少漢語教學(xué)網(wǎng)站或軟件,但我們的學(xué)習(xí)系統(tǒng)利用低存儲量的活動漢字編碼技術(shù)及動態(tài)反走樣還原顯示技術(shù)、基于聯(lián)機識別的漢字聽寫技術(shù)以及漢字書寫質(zhì)量評價技術(shù),具有特色和創(chuàng)新。
六、結(jié)束語
我們認為,高自由度的草書識別及無約束的手寫詞組的識別是構(gòu)造更自然、更快捷、更流暢的手寫輸入方式的核心技術(shù),相信通過國內(nèi)外同行的努力,在不遠的將來,手寫輸入法會變得更實用、更高效、更具競爭力;此外,手寫漢字/詞組識別技術(shù)在計算機教育、智能機器人等領(lǐng)域中還可帶來更多的創(chuàng)新應(yīng)用。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);人臉識別;大樣本;對抗生成網(wǎng)絡(luò)
中圖分類號:TP391 文獻標識碼:A 文章編號:2095-1302(2017)07-00-04
0 引 言
近幾年,基于大量訓(xùn)練數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在目標檢測、目標識別、顯著性檢測、行為識別、人臉識別和對象分割等計算機視覺領(lǐng)域取得了舉世矚目的成果。這些令人鼓舞的成績主要歸功于以下幾點:
(1)將大量有標簽的數(shù)據(jù)作為訓(xùn)練集,學(xué)習(xí)出具有百萬參數(shù)的模型,從而使卷積神經(jīng)網(wǎng)絡(luò)能夠有效提取對象的本質(zhì)特征;
(2)不斷改進性能優(yōu)異的網(wǎng)絡(luò)結(jié)構(gòu),如Very Deep VGG Network[1],Google Inception Network[2]和Deep Residual Networks[3]等;
(3)各種并行計算硬件設(shè)備(如GPU)的支持,大大提高了CNN訓(xùn)練模型的效率。其中,將標簽的大量數(shù)據(jù)作為訓(xùn)練集起著至關(guān)重要的作用。
本文以人臉識別為例,討論和綜述多樣本算法的研究現(xiàn)狀和發(fā)展方向。
有效的特征是目標識別的關(guān)鍵,對人臉識別問題來說亦如此。傳統(tǒng)的主成分分析(Principal Component Analysis,PCA)[4,5],線性區(qū)分分析(Linear Discriminant Analysis, LDA)[6]和局部二值模式化(Local Binary Pattern,LBP)[7,8]等取得了不錯的成績?;趥鹘y(tǒng)特征的人臉識別受限于環(huán)境,此類特征作用在復(fù)雜或者背景多變的人臉圖像時,其識別性能往往大幅下降,如在LFW數(shù)據(jù)集上其識別率驟然下降[9]。
采用CNN作為特征提取模型,主要考慮到該模型的所有處理層,包括像素級別的輸入層,均可從數(shù)據(jù)中學(xué)習(xí)到可調(diào)節(jié)的參數(shù)。即CNN能自喲喲笫據(jù)中學(xué)習(xí)特征,無需人工設(shè)計特征。合理有效的特征需從大量數(shù)據(jù)和大量參數(shù)中自動學(xué)習(xí)獲取,從而達到優(yōu)秀的識別性能?;诰矸e神經(jīng)網(wǎng)絡(luò)的世界領(lǐng)先方法均使用了上百萬的數(shù)據(jù),其中最具有代表性的如VGG-Face網(wǎng)絡(luò)需要260萬個人臉圖像樣本進行訓(xùn)練[10],F(xiàn)acebook的DeepFace網(wǎng)絡(luò)需要440萬個有標簽的人臉圖像樣本訓(xùn)練[11]。而Google更使用了2億樣本數(shù)據(jù)來訓(xùn)練FaceNet網(wǎng)絡(luò)[12]。
1 多樣本獲取現(xiàn)狀
如引言所述,有效合理的特征是目標識別的關(guān)鍵,而CNN能從大量有標簽的數(shù)據(jù)中自動學(xué)習(xí)圖像的本質(zhì)特征。獲得圖像特征的關(guān)鍵因素是有標簽的大數(shù)據(jù)。因此許多研究的前提工作均聚焦在人工獲取數(shù)據(jù)和給數(shù)據(jù)加標簽方面。然而,獲取百萬級的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理,然后給數(shù)據(jù)添加標簽,耗費大量的人力物力。雖然也有一些公開免費的數(shù)據(jù)集,且收集該類數(shù)據(jù)相對比較容易,如CASIA-WebFace[13],有49萬個圖像,但遠少于Facebook和Google的數(shù)據(jù)集。在這種情況下,缺乏大量樣本直接阻礙了深度學(xué)習(xí)方法的使用,成為阻礙提高檢測率和識別率的瓶頸。除了深度學(xué)習(xí)技術(shù)提取特征需要大量樣本外,已有研究證明[14-19],基于傳統(tǒng)方法的技術(shù)同樣需要大量樣本作為支撐。在這種形勢下,通過圖像處理與機器學(xué)習(xí)技術(shù)自動增加樣本集已成為必要手段。
無論基于傳統(tǒng)方法的識別問題,還是基于深度學(xué)習(xí)的識別問題,大量有標簽的數(shù)據(jù)作為訓(xùn)練集在算法中起著舉足輕重的作用。如果樣本不足,算法往往過擬合,無法提高算法的性能。為了獲得更多樣本,一些研究工作從網(wǎng)絡(luò)上獲取數(shù)據(jù),例如在IMDb上,已經(jīng)把9萬有標簽的數(shù)據(jù)集擴大到了26萬 [10]。除此之外,F(xiàn)acebook獲取了440萬個有標簽的人臉進行DeepFace網(wǎng)絡(luò)訓(xùn)練[11],而Google使用2億個數(shù)據(jù)訓(xùn)練FaceNet網(wǎng)絡(luò)[12]。
目前獲取方法具有如下局限:
(1)現(xiàn)有方法耗時耗力,需要經(jīng)費支持。獲取百萬級的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理,然后給數(shù)據(jù)添加標簽,耗費大量的人力物力。這種情況下,只有像Facebook和Google這樣的大公司會收集大量有標簽的數(shù)據(jù)進行網(wǎng)絡(luò)訓(xùn)練。而大多數(shù)情況下的數(shù)據(jù)收集涉及個人隱私與財力物力等問題,對于一般的小公司或科研院所而言,收集數(shù)據(jù)普遍難度較大。
(2)收集特殊圖片困難。對于一些特殊的圖像,如醫(yī)學(xué)圖像,遙感圖像,現(xiàn)實中數(shù)量本身就少,加之無法直接從網(wǎng)上獲取,因此小樣本很容易導(dǎo)致過擬合。
2 樣本集擴大算法研究現(xiàn)狀
2.1 基于傳統(tǒng)方法的多樣本算法研究現(xiàn)狀
對于傳統(tǒng)的樣本生成算法,如果數(shù)據(jù)集中有足夠的訓(xùn)練樣本,均可得到比較滿意的識別結(jié)果,但在現(xiàn)實的人臉數(shù)據(jù)庫中,人臉的數(shù)據(jù)樣本卻是有限的。文獻[20]表明,增加圖像樣本的數(shù)量可以較大幅度提高識別的準確率。
為了增加樣本數(shù)量,提高識別準確率,科研工作者已做了大量工作。其中,借助原始樣本產(chǎn)生虛擬樣本是一種有效的增加數(shù)據(jù)集方法。這種方法大致分為如下幾類:
(1)通過人臉圖像的對稱性來得到原始樣本的虛擬樣本,如Xu[14,15]和Liu等[21]提出借助原始圖像的“對稱臉”和“鏡像臉”產(chǎn)生虛擬樣本,從而擴大數(shù)據(jù)集并提高人臉識別的正確率,Song[22]也提出相應(yīng)的算法來改進人臉識別的性能;
(2)通過改變圖像的光照、姿勢和表情等來產(chǎn)生虛擬樣本,例如Boom等用一種稱為VIG的方法對未知光照情況進行建模[16],Abdolali[17]和Ho[18]等提出了類似的算法擴大數(shù)據(jù)集;
(3)基于人臉圖像自身的特征生成虛擬樣本,Ryu等根據(jù)原始樣本的分布來產(chǎn)生虛擬樣本[19],Liu等也根據(jù)圖像本身特性來產(chǎn)生虛擬樣本[23]。
(4)基于數(shù)學(xué)的多樣本產(chǎn)生方法,如Zhang等提出利用奇異值分解的方法獲得基于原始樣本的虛擬樣本[24]。借助圖像合成方法生成的新樣本如圖1所示。
圖1 借助圖像合成方法生成新樣本
除了借助圖像處理方法獲得原始樣本的新樣本外,還可以利用圖像合成算法獲取多樣本,本研究做了相關(guān)實驗,其結(jié)果如圖1所示。假設(shè)數(shù)據(jù)集中有c類人臉圖像,每類有ni個樣本,令表示第i類中的第j個樣本,這里i=1,2,…,c,j=1,2,…,ni,h和w分別代表樣本xij的高和寬(均為像素值)。用X=[X1,X2,…,Xc]代表所有樣本,則Xi=[xi1,xi2,…,xini],i=1,2,…,c代表第i類樣本。則有:
其中, P(Xi)代表所生成的第i類新樣本, f(g)表示圖像處理函數(shù),代表多個樣本的串聯(lián),即將多個樣本聯(lián)合起來得到一個類別的新樣本。
2.2 基于深度學(xué)習(xí)的多樣本生成算法研究現(xiàn)狀
大量有標簽的訓(xùn)練數(shù)據(jù)是機器學(xué)習(xí)成功的關(guān)鍵,尤其對于強大的深度學(xué)習(xí)技術(shù),大數(shù)據(jù)集能提高CNN的性能,防止過擬合[25]。為了擴充數(shù)據(jù)集,已有一些工作在不改變圖像語義的情況下進行,如水平鏡像[26]、不同尺度的剪裁[27,28]、旋轉(zhuǎn)[29]和光照變化[27]等傳統(tǒng)方法。
DeepID[30]采取了增大數(shù)據(jù)集手法來訓(xùn)練網(wǎng)絡(luò),只有大的數(shù)據(jù)集才能使得卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得更加充分,該研究采用兩種方法增大數(shù)據(jù)集:
(1)選擇采集好的數(shù)據(jù),即映入CelebFaces數(shù)據(jù)集。
(2)將原始數(shù)據(jù)集中的圖片多尺度、多通道、多區(qū)域的切分,然后分別進行訓(xùn)練,再把得到的向量串聯(lián)起來,即得到最后的向量。
以上方法僅局限于相對簡單的圖像處理技術(shù),該類方法生成的多樣本具有一定的局限性。比如,真正意義上的旋轉(zhuǎn)應(yīng)按一定的角度進行3D旋轉(zhuǎn),而不僅僅是圖像本身的角度旋轉(zhuǎn)。合成數(shù)據(jù)能一定程度上解決以上問題,如Shotton等通過隨機森林合成3D深度數(shù)據(jù)來估計人體姿勢,Jaderberg等使用合成數(shù)據(jù)來訓(xùn)練CNN模型識別自然場景下的文字[31]。這些研究的結(jié)果均優(yōu)于使用剪裁,旋轉(zhuǎn)等傳統(tǒng)方法。但使用3D合成圖像比較復(fù)雜,需要較多的前期工作。
近年來,借助生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs)來生成原始樣本的方法吸引了很多學(xué)者。2014年6月,Goodfellow 等發(fā)表了論文《Generative Adversarial Nets》[32],文中詳盡介紹了GANs的原理、優(yōu)點及其在圖像生成方面的應(yīng)用,標志著GANs的誕生。早期的GANs模型存在許多問題,如GANs網(wǎng)絡(luò)不穩(wěn)定,甚至有時該網(wǎng)絡(luò)永遠不會開始學(xué)習(xí),生成的結(jié)果無法令人滿意。文獻[32]中生成器生成的圖片十分模糊,針對此問題,Denton等提出一個被稱為 LAPGANs的模型[33],該模型用多個卷積神經(jīng)網(wǎng)絡(luò)連續(xù)生成圖像,這些新圖像的清晰度不斷提高,最終得到高分辨率圖像。GANs除了基于圖像生成圖像外,還可以通過文字生成圖像,如文獻[34]搭起了文本到圖像的橋梁,通過GANs將文本直接轉(zhuǎn)換成對的圖像。文獻[35]將GAN應(yīng)用于超分辨率中,該文獻提出了全新的損失函數(shù),使得 GANs 能對大幅降采樣后的圖像恢復(fù)其生動紋理和小顆粒細節(jié)。另外,Radford 等提出了名為DCGANs的網(wǎng)絡(luò)[36],該文獻指出,用大數(shù)據(jù)集訓(xùn)練出的 GANs 能學(xué)習(xí)一整套層級的特征,并具有比其他無監(jiān)督學(xué)習(xí)模型更好的效果。以上方法均為基于一大類原始樣本生成另一大類圖像。
基于GAN生成樣本的過程如圖2所示。首先將同類別的原始圖像輸入到生成對抗網(wǎng)絡(luò)GAN的生成器網(wǎng)絡(luò)G中,生成“假冒”圖像G1和G2,接著借助判別器D來判斷輸入的圖像是真實圖像還是“假冒”圖像。生成器G努力生成類似原始樣本的圖像,力爭判別器D難以區(qū)分真假;而判別器D應(yīng)不斷提高自身性能,有能力鑒別出由生成器G生成的圖像為贗品。生成器G和判別器D的價值函數(shù)如下:
生成器G最小化log(1-D(G(z))),判別器D最大化logD(x),使得最大概率按照訓(xùn)練樣本的標簽分類, 生成模型G隱式定義了一個概率分布Pg,希望Pg 收斂到數(shù)據(jù)真實分布Pdata。
圖2 GAN生成新樣本示意圖
3 結(jié) 語
綜上所述,基于原始樣本的多樣本生成算法是一個值得深入研究探索的問題,具備清晰而明確的理論意義和現(xiàn)實應(yīng)用意義。雖然研究人員已經(jīng)對相關(guān)問題進行了一些研究,取得了一系列成果,但是多樣本的產(chǎn)生方法缺乏全面、深入的理解,尚未出現(xiàn)具有里程碑意義的研究成果。具體而言,本文認為,基于原始樣本的多樣本生成問題需要在如下幾個方面展開深入的研究:
(1)在研究多樣本生成算法時,保留原始樣本的本質(zhì)特征,如在人臉識別中,拋棄不必要信息(光照、表情和姿勢)的影響是一項十分有意義的工作。
(2)在合成新樣本時,設(shè)計合理有效的構(gòu)造元素,使合成的新表示更接近自然亦是一個值得研究的方向。
(3)基于生成對抗網(wǎng)絡(luò),研究某一類對象的生成新樣本的核心算法是一項有意義的工作。
參考文獻
[1] K Simonyan, A Zisserman.Very deep convolutional networks for large-scale image recognition [Z]. Computer Science, 2014.
[2] C Szegedy,W Lin,Y Jia, et al. Going deeper with convolutions[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.
[3] K He,X Zhang,S Ren,et al. Deep residual learning for image recognition[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.
[4] Turk, Matthew, Pentland, et al.Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience, 2014,3(1): 71-86.
[5] A Pentland.Looking at People: Sensing for Ubiquitous and Wearable Computing[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000,22(1): 107-119.
[6] C Liu, H Wechsler.Robust coding schemes for indexing and retrieval from large face databases[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2000,9(1): 132-137.
[7] T Ojala,M Pietik?inen.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002,24(7): 404-420.
[8] T Ahonen, A Hadid, M Pietikainen.Face Description with Local Binary Patterns: Application to Face Recognition[J]. European Conference on Computer Vision, 2004,28(12): 469-481.
[9] GB Huang, M Mattar, T Berg,et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[Z].Month,2008.
[10] OM Parkhi, A Vedaldi, A Zisserman.Deep Face Recognition[C]. British Machine Vision Conference, 2015.
[11] Y Taigman,M Yang, Marc, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C]. in Conference on Computer Vision and Pattern Recognition,2014.
[12] F Schroff,D Kalenichenko,J Philbin.FaceNet: A unified embedding for face recognition and clustering[C]. in IEEE Conference on Computer Vision & Pattern Recognition,2015.
[13] D Yi,Z Lei, S Liao, et al.Learning face representation from scratch[Z]. Computer Science, 2014.
[14] Y Xu, X Zhu, Z Li, et al.Using the original and ‘symmetrical face’ training samples to perform representation based two-step face recognition[J]. Pattern Recognition, 2013,46(4): 1151-1158.
[15] Y Xu.Integrate the original face image and its mirror image for face recognition[J]. Neurocomputing, 2014,31(7): 191-199.
[16] BJ Boom, LJ Spreeuwers, RNJ Veldhuis.Virtual illumination grid for correction of uncontrolled illumination in facial images[J]. Pattern Recognition, 2011,44(9): 1980-1989.
[17] F Abdolali,S Seyyedsalehi. Improving pose manifold and virtual images using bidirectional neural networks in face recognition using single image per person[Z]. in International Symposium on Artificial Intelligence and Signal Processing,2011.
[18] HT Ho,R Chellappa. Pose-invariant face recognition using Markov random fields[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2013,22(4): 1573.
[19] Y.-S., Ryu.,S.-Y., O..Simple hybrid classifier for face recognition with adaptively generated virtual data[J]. Pattern Recognition Letters, 2012,23(7): 833-841.
[20] A Wagner,J Wright, A Ganesh,et al.Toward a Practical Face Recognition System: Robust Alignment and Illumination by Sparse Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012,34(2): 372-386.
[21] Z Liu,X Song,Z Tang.Integrating virtual samples and fuzzy discriminant analysis for sparse representation-based face classification[J]. Journal of Electronic Imaging, 2015,24(2): 23013.
[22] YJ Song,YG Kim,UD Chang,et al. Face recognition robust to left/right shadows; facial symmetry[J]. Pattern Recognition, 2006,39(8): 1542-1545.
[23] Z Liu, X Song, Z Tang.Fusing hierarchical multi-scale local binary patterns and virtual mirror samples to perform face recognition[J]. Neural Computing & Applications, 2015,26(8): 2013-2026.
[24] G Zhang,W Zou,X Zhang,et al. Singular value decomposition based sample diversity and adaptive weighted fusion for face recognition[J]. Digital Signal Processing, 2017,62: 150-156.
[25] K Chatfield,K Simonyan,A V edaldi,et al. Return of the devil in the details: Delving deep into convolutional nets[Z]. Computer science, 2014.
[26] H Yang, I Patras.Mirror, mirror on the wall, tell me, is the error small? [J]. Der Chirurg; Zeitschrift für alle Gebiete der,2015,69(12):235-240.
[27] A Krizhevsky, I Sutskever, GE Hinton. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012,25(2): 1097-1105.
[28] G Levi,T Hassner. Age and gender classification using convolutional neural networks[C].in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2015.
[29] S Xie, Z Tu. Holistically-nested edge detection[C]. in Proceedings of the IEEE International Conference on Computer Vision,2015.
[30] Y Sun, X Wang, X Tang.Deep Learning Face Representation from Predicting 10,000 Classes[C]. in Computer Vision and Pattern Recognition,2014.
[31] M Jaderberg, K Simonyan,A Vedaldi,et al.Synthetic data and artificial neural networks for natural scene text recognition[Z]. Eprint Arxiv, 2014.
[32] I Goodfellow,J Pougetabadie, M Mirza, et al. Generative adversarial nets[Z]. in Advances in neural information processing systems, 2014.
[33] E Denton,S Chintala,A Szlam. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[Z]. Computer science,2015.
[34] S Reed,Z Akata, X Yan,et al. Generative adversarial text to image synthesis[C]. in Proceedings of The 33rd International Conference on Machine Learning,2016.
AI從誕生到現(xiàn)在已經(jīng)有60年的時間,期間經(jīng)歷兩輪起落,呈階梯式進化,走到今天進入第三個黃金期。如果按照其智能科技水平劃分,今天的人工智能尚處在狹義智能向廣義智能進階的階段,還是一名不折不扣的“少年”,未來擁有無限的可能和巨大的上升空間。
AI是一門交叉的學(xué)科:人工智能由不同的技術(shù)領(lǐng)域組成,如機器學(xué)習(xí)、語言識別、圖像識別、自然語言處理等。而同時,它也是一門交叉學(xué)科,屬于自然科學(xué)和社會科學(xué)的交叉,涉及到哲學(xué)和認知科學(xué)、數(shù)學(xué)、神經(jīng)生理學(xué)、心理學(xué)、計算機科學(xué)、信息論、控制論、不定性論等學(xué)科。人工智能領(lǐng)域的技術(shù)壁壘是比較高的,并且會涉及到多學(xué)科協(xié)作的問題,對任何公司來說,想做好人工智能將是一門大工程。未來不大可能出現(xiàn)一個公司能包攬整個人工智能產(chǎn)業(yè)每一個部分的工作,更可能的模式將是一個公司專注于一個相對細分的領(lǐng)域,通過模塊化協(xié)作的形式實現(xiàn)人工智能領(lǐng)域的不同應(yīng)用。
進化史呈階梯狀,以階段突破式為成長模式:人工智能的發(fā)展經(jīng)歷了兩次黃金和低谷期,
現(xiàn)在正經(jīng)歷著第三個黃金期。1956年,麥卡賽、明斯基、羅切斯特和申農(nóng)等年輕科學(xué)家在達特茅斯一起聚會,并首次提出了“人工智能”這一術(shù)語,標志著人工智能的誕生。第二年,由 Rosenblatt 提出 Perceptron 感知機,標志著第一款神經(jīng)網(wǎng)絡(luò)誕生。1970年,因為計算能力沒能突破完成大規(guī)模數(shù)據(jù)訓(xùn)練,人工智能的第一個黃金期到此結(jié)束。
后直到1982年德普霍爾德神經(jīng)網(wǎng)絡(luò)的提出,人工智能進入第二個黃金期,之后BP算法的出現(xiàn)使大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練成為可能,人工智能的發(fā)展又一次進入。1990年,因為人工智能計算機和DARPA沒能實現(xiàn),政府撤資,人工智能又一次進入低估。2006年,隨著“深度學(xué)習(xí)”神經(jīng)網(wǎng)絡(luò)取得突破性進展,人工智能又一次進入黃金時期。
AI將由狹義智能向廣義智能進化,雖然人工智能的誕生已經(jīng)有60年的時間但如果把它比喻成一個人的話,當前的他應(yīng)該還未成年。按照人工智能的“智能”程度,可以將其分成狹義智能、廣義智能、超級智能三個大的發(fā)展階段,現(xiàn)階段的圖像與語音識別水平標志著人類已經(jīng)基本實現(xiàn)狹義智能,正在向廣義智能的階段邁進。
狹義智能:即當前的技術(shù)已經(jīng)實現(xiàn)的智能水平,包括計算智能與感知智能兩個子階段,計算智能指的機器開始具備計算與傳遞信息的功能,感知智能指機器開始具備“眼睛”和“耳朵”,即具備圖像識別與語音識別的能力,并能以此為判斷采取一些行動。
廣義智能:指的是機器開始具備認知能力,能像人類一樣獲取信息后主動思考并主動采取行動。在這個階段,機器可以全面輔助或代替人類工作。
超級智能:這個階段的機器幾乎在所有領(lǐng)域都比人類聰明,包括科學(xué)創(chuàng)新、通識和社交技能等。這個階段目前離我們還比較遙遠,到時候人類的文明進步和跨越或許將有賴于機器,而機器人意識的倫理問題也許將在這個階段成為主要問題。
推薦引擎及協(xié)同過濾可以分析更多的數(shù)據(jù)
智能助手并不只局限于Siri等手機語音助手。微軟率先在win10 系統(tǒng)中加入個人智能助理Cortana,標志著個人PC端智能助理的出現(xiàn);圖靈機器人以云服務(wù)的方式進入海爾智能家居、博世m(xù)ySPIN車載系統(tǒng),預(yù)示著多場景人工智能解決方案的潮流。初步實現(xiàn)人機交互的智能助手系統(tǒng),已經(jīng)被應(yīng)用于智能客服、聊天機器人、家用機器人、微信管理平臺、車載系統(tǒng)、智能家居系統(tǒng)、智能手機助理等多個軟硬件領(lǐng)域。
垂直類網(wǎng)站及社交平臺可以借助智能助手系統(tǒng)打造高專業(yè)度的“在線專家”以提升平臺價值;企業(yè)可以借助以“語義識別”為基礎(chǔ)的智能助手系統(tǒng),打造智能客服,效率遠高于傳統(tǒng)的以“關(guān)鍵詞對應(yīng)”為技術(shù)支持的客服系統(tǒng)。
推薦引擎,是主動發(fā)現(xiàn)用戶當前或潛在需求,并主動推送信息給用戶的信息網(wǎng)絡(luò)。挖掘用戶的喜好和需求,主動向用戶推薦其感興趣或者需要的對象。傳統(tǒng)推薦引擎通常利用用戶在平臺上的歷史記錄進行推薦,效率低、匹配度不高。目前隨著大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的推進,推薦引擎及協(xié)同過濾可以分析更多的數(shù)據(jù),乃至全網(wǎng)數(shù)據(jù),并模擬用戶的需求,真正達到按需推薦。全球最大的正版流媒體音樂服務(wù)平臺Spotify也利用卷積神經(jīng)網(wǎng)絡(luò)參與建設(shè)其音樂推薦引擎;谷歌也提出利用深度學(xué)習(xí)方法來學(xué)習(xí)標簽進行推薦建設(shè)。出品紙牌屋的全球最大在線影片租賃公司Netflix 也利用深度學(xué)習(xí)網(wǎng)絡(luò)分析客戶消費的大數(shù)據(jù),還計劃構(gòu)建一個在AWS云上的以GPU為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)。
“餐廳推薦引擎”Nara,便是一個利用AI技術(shù)的推薦引擎。在上線之初,Nara 就取得了400萬美元的投資。Nara 的數(shù)據(jù)庫中有超過100000家餐廳的信息,并利用特有的“Nara神經(jīng)網(wǎng)絡(luò)”,學(xué)習(xí)使用者的偏好,最終達到“電腦幫你點餐”的目的。
而今年3月22日,國內(nèi)AI領(lǐng)軍企業(yè)阿里巴巴旗下的阿里云數(shù)加啟動“個性化推薦”引擎對外公測,該引擎用于幫助創(chuàng)業(yè)者可以快速獲得媲美淘寶天貓的個性化服務(wù)能力。阿里云數(shù)加上的推薦引擎能夠以更低的成本完成開發(fā),節(jié)省程序量達到90%,推薦引擎的搭建時間將由幾個月縮短到幾天。
對于不了解算法的人,只能實現(xiàn)標簽規(guī)則類的推薦,但如果要做成機械化、類似協(xié)同過濾的算法,創(chuàng)業(yè)公司需要配置大量的算法工程師,人力成本很高?,F(xiàn)在用了數(shù)加的推薦引擎,商家只需要做數(shù)據(jù)的ETL加工,推薦的結(jié)果集、訓(xùn)練集都不用處理,只需要調(diào)整參加即可得到推薦結(jié)果。
AI帶給人們新的視覺???
醫(yī)療:為健康診斷和藥品研發(fā)插上高飛的翅膀
健康診斷有望迎來新紀元,海量的病歷數(shù)據(jù)和醫(yī)學(xué)界的新研究成果,單靠人工很難及時篩選并利用,而引入人工智能技術(shù)將充分發(fā)揮這些信息的價值。例如著名的個人健康管理產(chǎn)品公司W(wǎng)elltok將 IBM的Watson功能融入旗下產(chǎn)品 CafeWell Concierge APP中,借助 Watson 的認知計算能力理解人類語言,實現(xiàn)與用戶溝通的能力,從大量數(shù)據(jù)中進行分析并為用戶提供健康管理相關(guān)的答案和建議,實現(xiàn)健康管理、慢病恢復(fù)訓(xùn)練、健康食譜等功能,這一領(lǐng)域的良好前景使 Wellltok公司近年的融資額連創(chuàng)新高。另外,2015年IBM斥資10億美元收購醫(yī)療影像與臨床系統(tǒng)提供商Merge,將研究如何實現(xiàn) Watson的“辨讀”醫(yī)學(xué)影像功能。此外,AI 還可以從醫(yī)療中心獲得的健康數(shù)據(jù),通過大數(shù)據(jù)分析,實現(xiàn)根據(jù)分析患者行為來制定個性化治療方案的功能。
智能家居:天花板尚遠,AI有望成為核心
行業(yè)天花板尚遠,增速有望保持在 50%左右, 《鋼鐵俠》中的“Jarvis”作為智能管家,除了起到鋼鐵俠的小秘書的作用,還幫主人打理著日常生活,向我們展示了一個理想中的智能家居系統(tǒng)。雖然我們目前可能離那個無所不能的智能管家還很遙遠,但智能家居對我們生活的變革確實已經(jīng)開始了。根據(jù)《2012-2020 年中國智能家居市場發(fā)展趨勢及投資機會分析報告》的預(yù)測,我國智能家居市場在 2016年將達到605.7億的規(guī)模,同比增長50.15%,到2020年市場規(guī)模將達到3294億,年均增速將保持在50%左右,具備充足的向上延伸空間。而智能家居想達到“Jarvis”般的終極效果,必然需要引入AI技術(shù),實現(xiàn)家居的感應(yīng)式控制甚至自我學(xué)習(xí)能力。
AI有望成為智能家居的核心,實現(xiàn)家居自我學(xué)習(xí)與控制。按照智能家居的發(fā)展進度,大致可以分為四個階段:手機控制、多控制結(jié)合、感應(yīng)式控制、系統(tǒng)自我學(xué)習(xí)。當前的發(fā)展水平還處在手機控制向多控制結(jié)合的過度階段。而從多控制結(jié)合向感應(yīng)式控制甚至自我學(xué)習(xí)階段進化時,AI將發(fā)揮主要功能。到今天為止,家居的實體功能已經(jīng)較為全面,未來的發(fā)展重點可能在于如何使之升級改造,實現(xiàn)家居的自我行為及協(xié)作,因此未來AI在智能家居領(lǐng)域的應(yīng)用有望成為其核心價值。AI對智能家居的重構(gòu)可以深入到方方面面,包括:控制主機、照明系統(tǒng)、影音系統(tǒng)、環(huán)境監(jiān)控、防盜監(jiān)控、門窗控制、能源管理、空調(diào)系統(tǒng)、花草澆灌、寵物看管等等。
無人駕駛:政策漸萌芽,AI決定可靠性
優(yōu)點多、動機足、政策漸萌芽。據(jù)麥肯錫的調(diào)查顯示,如果能解放駕駛員的雙手,一輛無人駕駛汽車內(nèi)的乘客通過移動互聯(lián)網(wǎng)使用數(shù)字媒體服務(wù)的時間多一分鐘,每年全球數(shù)字媒體業(yè)務(wù)產(chǎn)生的利潤將增加 50億歐元。此外,由于自動泊車無須為乘客下車預(yù)留開門空間,使得停車位空間可縮減至少15%。
如果無人駕駛汽車以及ADAS系統(tǒng)能夠?qū)⑹鹿拾l(fā)生率降低90%,即可挽回全美每年的損失約1千900億美金??梢哉f諸多的優(yōu)點使得無人駕駛技術(shù)的研發(fā)動機還是相當充分的,因此未來無人駕駛推行的力度應(yīng)該還會保持在一個比較高的水平。美國勒克斯研究公司曾預(yù)計無人駕駛汽車的市場規(guī)模在2030年將達到870億美元。
到目前為止,各國政府對于無人駕駛技術(shù)在政策上的支持正逐步放開,美國政府在年初剛剛宣布了40億美元的資助計劃;英國目前已經(jīng)不需要獲得額外批準和履約保證即可進行實際道路的無人駕駛汽車測試;而德國也在去年宣布將計劃設(shè)立無人駕駛汽車測試路段,供安裝有駕駛輔助系統(tǒng)或全自動駕駛系統(tǒng)車輛行駛;歐盟總部正在就如何修改現(xiàn)行有關(guān)駕駛的法律法規(guī)從而支持自動駕駛的發(fā)展展開討論和研究工作;日本也提出要在2020年之前實現(xiàn)自動駕駛汽車方面的立法,并將自動駕駛作為 2016年9月七國集團交通部長會議的議題。
“無人汽車大腦”AI的智能程度決定了無人駕駛的可靠性。由于無人駕駛完全交由汽車的內(nèi)置程序負責(zé),因此AI就是無人汽車的大腦,而測距儀、雷達、傳感器、GPS等。設(shè)備都是AI的“眼睛”。AI的智能程度直接決定了無人駕駛汽車在不同的路況、不同的天氣、甚至一些探測設(shè)備出現(xiàn)故障的突況下能否及時做出正確的判斷并靈活調(diào)整行駛策略,最終決定了無人駕駛汽車當前最亟待突破的可靠性。
NVIDIA 在2016年的 CES大會上了“Drive PX 2”車載計算機,以及一套與之搭配的具有學(xué)習(xí)功能的自動駕駛系統(tǒng)。該系統(tǒng)的亮點在于“自我學(xué)習(xí)”,通過讓車輛自行分析路面狀況,而不是在數(shù)據(jù)庫中尋找預(yù)先儲存的策略實現(xiàn)自動駕駛,系統(tǒng)背后連接著名為NVIDIA DIGITS的深度學(xué)習(xí)訓(xùn)練平臺,最終連接到NVIDIA DRIVENET神經(jīng)網(wǎng)絡(luò),為車輛的自我學(xué)習(xí)和完善提供支持。并且由于它是通過判斷物體的行進軌跡而不是物體本身去計算路徑,因此在駕駛時受天氣影響較小。
AI 成必爭之地
目前全球AI主戰(zhàn)場依舊在歐美。Venture Scanner的統(tǒng)計顯示,根據(jù)從事 AI相關(guān)業(yè)務(wù)的公司數(shù)量來看,目前全球 AI的主戰(zhàn)場還是集中在北美和西歐地區(qū)。美國數(shù)量最多,達到450家左右的水平。而中國從事相關(guān)業(yè)務(wù)的公司數(shù)量還比較少,和俄羅斯、澳洲、部分歐洲國家及非洲南部國家水平接近,相比起歐美國家的AI公司數(shù)量,還有很大的提高空間。
Google:投資未來的人工智能帝國
建立Alphabet帝國,具備品牌背書效應(yīng)。2015年,谷歌成立母公司 Alphabet, 搜索、廣告、地圖、App、Youtube、安卓以及與之相關(guān)的技術(shù)基礎(chǔ)部門”仍屬于谷歌,而Calico、Nest、Google Fiber、Google Venture、Google Capital 及 Google X 都將獨立出來,成為 Alphabet 旗下的獨立公司。通過建立 Alphabet集團,谷歌將不同業(yè)務(wù)的研發(fā)獨立出來,以子公司的形式進行業(yè)務(wù)開展,保留在Google這個品牌下的基本都是原有的傳統(tǒng)強勢業(yè)務(wù)。
而其它公司負責(zé)在各自的領(lǐng)域“打頭陣”,一旦業(yè)務(wù)研發(fā)成功,母公司連帶著google這個品牌都可以受益,而如果研發(fā)失敗,也不會公司的品牌造成多大的不良影響,建立了良好的品牌背書效應(yīng)。將機器學(xué)習(xí)技術(shù)應(yīng)用到所有產(chǎn)品之中,我們不難發(fā)現(xiàn),谷歌近年幾乎將人工智能滲透到了旗下的各類產(chǎn)品中,可謂是全線鋪開。正應(yīng)了谷歌 CEO的那句話:“我們將小心謹慎地將機器學(xué)習(xí)技術(shù)應(yīng)用到我們所有的產(chǎn)品之中?!备鶕?jù)當前Alphabet 的集團架構(gòu),我們將涉及到AI應(yīng)用的子公司情況以及相應(yīng)的業(yè)務(wù)開展情況羅列如下:
Nest:從事智能家居生態(tài)系統(tǒng)建設(shè)。2014 年谷歌以32億美元收購 Nest。Nest 生產(chǎn)智能恒溫器,它能夠?qū)W習(xí)用戶的行為習(xí)慣,并且根據(jù)他們的喜好去調(diào)節(jié)溫度。同時,Nest 也提供火警探測器和家庭安全攝像頭等智能家居。
Google X:谷歌各類創(chuàng)新技術(shù)的“孵化池”。Google X開展的與AI有關(guān)的項目有:無人駕駛汽車、Project Wing 無人機送貨項目、對抗帕金森氏癥的 Liftware“反抖”湯匙、用于疾病預(yù)警和健康監(jiān)控的可穿戴設(shè)備、Project Titan 太陽能無人機項目、以及 Replicant 團隊負責(zé)的機器人項目等。
Verily:從事生命科學(xué)業(yè)務(wù),即原來的 Google Life Science。代表產(chǎn)品有可以收集佩戴者體溫和血液酒精含量等生物數(shù)據(jù)的智能隱形眼鏡,以及監(jiān)控血液中納米粒子的智能腕表。
DeepMind:深度學(xué)習(xí)算法公司。2014年谷歌以4億美元收購了DeepMind。
DeepMind的算法源于兩種機器學(xué)習(xí)方法的結(jié)合:第一種是深度學(xué)習(xí),是受人腦啟發(fā)的一種結(jié)構(gòu)。深度學(xué)習(xí)系統(tǒng)能夠從大量的非結(jié)構(gòu)數(shù)據(jù)中獲取復(fù)雜信息。第二種是增強學(xué)習(xí),靈感源自動物大腦中的神經(jīng)遞質(zhì)多巴胺獎勵系統(tǒng),算法不斷通過試錯來進行學(xué)習(xí)。目前,DeepMind在深度學(xué)習(xí)上面的研究成果已經(jīng)開始用在谷歌的機器人項目中。