前言:想要寫(xiě)出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇語(yǔ)音識(shí)別范文,相信會(huì)為您的寫(xiě)作帶來(lái)幫助,發(fā)現(xiàn)更多的寫(xiě)作思路和靈感。
【關(guān)鍵詞】語(yǔ)音識(shí)別 語(yǔ)言模型 聲學(xué)模型 人工智能
使用智能手機(jī)的朋友們都會(huì)對(duì)語(yǔ)音助手產(chǎn)生極大的興趣,不管是微軟的Cortana,還是蘋(píng)果的Siri,都是將語(yǔ)音識(shí)別融入現(xiàn)代技術(shù)的典范。Z音識(shí)別是解決機(jī)器“聽(tīng)懂”人類語(yǔ)言的一項(xiàng)技術(shù),也是人工智能重要部分。
語(yǔ)音識(shí)別技術(shù)(speech recognition),也被稱為自動(dòng)語(yǔ)音識(shí)別 (ASR),其目標(biāo)是將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說(shuō)話人識(shí)別及說(shuō)話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說(shuō)話人而前者的目標(biāo)是語(yǔ)音中所包含的詞匯內(nèi)容。
探究語(yǔ)音識(shí)別技術(shù)的框架、應(yīng)用與發(fā)展有利于全面了解語(yǔ)音識(shí)別。本文將從語(yǔ)音識(shí)別簡(jiǎn)介、主流語(yǔ)言識(shí)別框架以及語(yǔ)言識(shí)別近年來(lái)的發(fā)展三個(gè)方面探究語(yǔ)音識(shí)別。
1 語(yǔ)音識(shí)別簡(jiǎn)介
1.1 傳統(tǒng)語(yǔ)言識(shí)別技術(shù)發(fā)展
對(duì)語(yǔ)音識(shí)別技術(shù)的研究可以追述到上世紀(jì)五十年代,1952年貝爾研究所Davis等人研究成功了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),開(kāi)創(chuàng)了語(yǔ)音識(shí)別的先河。上世紀(jì)六十年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語(yǔ)音識(shí)別。上世紀(jì)七十年代以后,大規(guī)模的語(yǔ)音識(shí)別在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。傳統(tǒng)語(yǔ)音識(shí)別技術(shù)最大突破是隱式馬爾可夫模型的應(yīng)用,這一模型極大提高了語(yǔ)音識(shí)別的準(zhǔn)確率[1]。
1.2 語(yǔ)言識(shí)別的應(yīng)用
作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語(yǔ)音通信的關(guān)鍵技術(shù),語(yǔ)音識(shí)別一直受到各國(guó)科學(xué)界的廣泛關(guān)注。如今,隨著語(yǔ)音識(shí)別技術(shù)的研究的突破,其對(duì)計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來(lái)。在現(xiàn)實(shí)生活中,語(yǔ)音識(shí)別技術(shù)的應(yīng)用相當(dāng)廣泛,它改變了人與計(jì)算機(jī)交互的方式,使計(jì)算機(jī)更加智能。和鍵盤(pán)輸入相比,語(yǔ)音識(shí)別更符合人的日常習(xí)慣;使用語(yǔ)言控制系統(tǒng),相比手動(dòng)控制,語(yǔ)音識(shí)別更加方便快捷,可以用在工業(yè)控制、智能家電等設(shè)備;通過(guò)智能對(duì)話查詢系統(tǒng),企業(yè)可以根據(jù)用戶的語(yǔ)音進(jìn)行操作,為用戶提供自然、友好的數(shù)據(jù)檢索服務(wù)。
2 語(yǔ)音識(shí)別框架
目前主流的語(yǔ)音識(shí)別框架可以分為以下幾個(gè)模塊:信號(hào)處理,特征提取,聲學(xué)模型,語(yǔ)言模型,解碼器。
2.1 信號(hào)處理
信號(hào)處理模塊是對(duì)語(yǔ)音文件進(jìn)行預(yù)處理。聲音是一種縱波,在識(shí)別語(yǔ)音時(shí),輸入為WMV,MP3等格式的文件會(huì)被轉(zhuǎn)換成非壓縮的純波文件wav格式。然后在進(jìn)行語(yǔ)音識(shí)別前,需要檢測(cè)該文件中的語(yǔ)音信號(hào),該技術(shù)被稱之為語(yǔ)音活性檢測(cè)[2]。使用語(yǔ)言活性檢測(cè)技術(shù)可以有效降低噪音,去除非語(yǔ)音片段,提高語(yǔ)音識(shí)別的準(zhǔn)確率。經(jīng)典的語(yǔ)音活性檢測(cè)算法由如下步驟組成:
(1)使用spectral subtraction等方法對(duì)語(yǔ)言序列進(jìn)行降噪。(2)將輸入信號(hào)的分成區(qū)塊并提取特征。(3)設(shè)計(jì)分類器判斷該區(qū)塊是否為語(yǔ)音信號(hào)。
2.2 特征提取
特征提取目的是提取出語(yǔ)音文件的特征,以一定的數(shù)學(xué)方式表達(dá),從而可以參與到后續(xù)模塊處理中。在這一模塊,首先要將連續(xù)的聲音分成離散的幀。每一幀的時(shí)間既要足夠長(zhǎng),使得我們能夠判斷它屬于哪個(gè)聲韻母的信息,若過(guò)短則包含信息過(guò)少;每一幀時(shí)間也要盡量短,語(yǔ)音信號(hào)需要足夠平穩(wěn),能夠通過(guò)短時(shí)傅里葉分析進(jìn)行特征提取,過(guò)長(zhǎng)則會(huì)使信號(hào)不夠平穩(wěn)。分幀時(shí)使用如下改進(jìn)技術(shù)可以有效提高識(shí)別準(zhǔn)確率:相鄰的兩幀有所重疊減少分割誤差,將與臨近幀之間的差分作為額外特征,將多個(gè)語(yǔ)音幀堆疊起來(lái)。通過(guò)分幀處理,連續(xù)的語(yǔ)音被分為離散的小段,但還缺乏數(shù)學(xué)上的描述能力,因此需要對(duì)波形作特征提取。常見(jiàn)的方法是根據(jù)人耳的生理特征,把每一幀波形變換成一個(gè)多維向量。因此,這些向量包含了這些語(yǔ)音的內(nèi)容信息。該過(guò)程被稱為聲學(xué)特征提取,常見(jiàn)的聲學(xué)特征有MFCC、CPE、LPC等。
MFCC是目前最常用、最基本的聲學(xué)特征,提取MFCC特征可以分為如下四個(gè)步驟:首先對(duì)每一幀進(jìn)行傅里葉變換,取得每一幀的頻譜。再把頻譜與圖1中每個(gè)三角形相乘并積分,求出頻譜在每一個(gè)三角形下的能量,這樣處理可以減少數(shù)據(jù)量,并模仿人耳在低頻處分辨率高的特性。然后取上一步得到結(jié)果的對(duì)數(shù),這可以放大低能量處的能量差異。最后對(duì)得到的對(duì)數(shù)進(jìn)行離散余弦變換,并保留前12~20個(gè)點(diǎn)進(jìn)一步壓縮數(shù)據(jù)。通過(guò)特征提取,聲音序列就被轉(zhuǎn)換為有特征向量組成的矩陣。
2.3 聲學(xué)模型
聲學(xué)模型是語(yǔ)音識(shí)別中最重要的組成部分之一,其用于語(yǔ)音到音節(jié)概率的計(jì)算。目前主流的方法多數(shù)采用隱馬爾科夫模型,隱馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動(dòng)機(jī)。
隱馬爾可夫模型HMM如圖2所示,是指這一馬爾可夫模型的內(nèi)部狀態(tài)x1,x2,x3外界不可見(jiàn),外界只能看到各個(gè)時(shí)刻的輸出值y1,y2,y3。對(duì)語(yǔ)音識(shí)別系統(tǒng),輸出值通常就是從各個(gè)幀計(jì)算而得的聲學(xué)特征,輸入是由特征提取模塊提取的特征。用HMM刻畫(huà)語(yǔ)音信號(hào)需作出兩個(gè)假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值Y只與當(dāng)前狀態(tài)X(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個(gè)假設(shè)大大降低了模型的復(fù)雜度。HMM的打分、解碼和訓(xùn)練相應(yīng)的算法是前向算法、維特比算法和前向后向算法。
早期的聲學(xué)模型使用矢量量化(Vector Quantification)的方法,使其性能受到VQ算法的極大影響。對(duì)于連續(xù)取值的特征應(yīng)當(dāng)采用連續(xù)的概率分布如高斯混合模型或混合拉普拉斯模型等。為了解決模型參數(shù)過(guò)多的問(wèn)題,可以使用某些聚類方法來(lái)減小模型中的參數(shù)數(shù)量,提高模型的可訓(xùn)練性。聚類可以在模型層次,狀態(tài)層次乃至混合高斯模型中每個(gè)混合的層次進(jìn)行。
2.4 語(yǔ)言模型
語(yǔ)言模型音節(jié)到字概率的計(jì)算。 語(yǔ)言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種。相比于統(tǒng)計(jì)模型,規(guī)則模型魯棒性較差,對(duì)非本質(zhì)錯(cuò)誤過(guò)于嚴(yán)苛,泛化能力較差,研究強(qiáng)度更大。因此主流語(yǔ)音識(shí)別技術(shù)多采用統(tǒng)計(jì)模型。統(tǒng)計(jì)模型采用概率統(tǒng)計(jì)的方法來(lái)揭示語(yǔ)言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡(jiǎn)單有效,被廣泛使用。
N-Gram基于如下假設(shè):第N個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率即為各個(gè)詞出現(xiàn)概率的乘積。詞與詞之間的概率可以直接從語(yǔ)料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到??紤]計(jì)算量和效果之間的平衡,N取值一般較小,常用的是二元的Bi-Gram和三元的Tri-Gram。
2.5 解碼器
解碼器是語(yǔ)音識(shí)別系統(tǒng)的核心之一,其任務(wù)是對(duì)輸入信號(hào),根據(jù)聲學(xué)、語(yǔ)言模型及詞典,尋找能夠以最大概率輸出該信號(hào)的詞串。在實(shí)踐中較多采用維特比算法[3]搜索根據(jù)聲學(xué)、語(yǔ)言模型得出的最優(yōu)詞串。
基于動(dòng)態(tài)規(guī)劃的維特比算法在每個(gè)時(shí)間點(diǎn)上的各個(gè)狀態(tài),計(jì)算解碼狀態(tài)序列對(duì)觀察序列的后驗(yàn)概率,保留概率最大的路徑,并在每個(gè)節(jié)點(diǎn)記錄下相應(yīng)的狀態(tài)信息以便最后反向獲取詞解碼序列。維特比算法在不喪失最優(yōu)解的條件下,同時(shí)解決了連續(xù)語(yǔ)音識(shí)別中HMM模型狀態(tài)序列與聲學(xué)觀察序列的非線性時(shí)間對(duì)準(zhǔn)、詞邊界檢測(cè)和詞的識(shí)別,從而使這一算法成為語(yǔ)音識(shí)別搜索的基本策略。
維特比(Viterbi)算法的時(shí)齊特性使得同一時(shí)刻的各條路徑對(duì)應(yīng)于同樣的觀察序列,因而具有可比性,Beam搜索在每一時(shí)刻只保留概率最大的前若干條路徑,大幅度的剪枝提高了搜索的效率。Viterbi-Beam算法是當(dāng)前語(yǔ)音識(shí)別搜索中最有效的算法。
3 語(yǔ)音識(shí)別技術(shù)的發(fā)展
近幾年來(lái),特別是2009年以來(lái),借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展,以及大數(shù)據(jù)語(yǔ)料的積累,語(yǔ)音識(shí)別技術(shù)得到突飛猛進(jìn)的發(fā)展。
在模型方面,傳統(tǒng)語(yǔ)音識(shí)別模型逐步被神經(jīng)網(wǎng)絡(luò)替代,使用神經(jīng)網(wǎng)絡(luò)可以更好地提取特征,擬合曲線。使用人工神經(jīng)網(wǎng)絡(luò)來(lái)提高語(yǔ)音識(shí)別性能的概念最早在80年代就提出了,但當(dāng)時(shí)高斯混合模型在大詞匯語(yǔ)音識(shí)別上表現(xiàn)得更好,因此人工神經(jīng)網(wǎng)絡(luò)并沒(méi)有進(jìn)行商業(yè)應(yīng)用。隨著相關(guān)技術(shù)的進(jìn)一步發(fā)展,微軟研究院利用深度神經(jīng)網(wǎng)絡(luò)建立了數(shù)千個(gè)音素的模型,比傳統(tǒng)方法減少了16%的相對(duì)誤差。其在建立起有超過(guò)660萬(wàn)神經(jīng)聯(lián)系的網(wǎng)絡(luò)后,將總的語(yǔ)音識(shí)別錯(cuò)誤率降低了30%,實(shí)現(xiàn)了語(yǔ)音識(shí)別巨大的突破[4]。
同時(shí)目前多數(shù)主流語(yǔ)言識(shí)別解碼器采用了基于有限狀態(tài)機(jī)的解碼網(wǎng)絡(luò),該網(wǎng)絡(luò)將語(yǔ)音模型、詞典、聲學(xué)共享音字集統(tǒng)一為大的解碼網(wǎng)絡(luò),大幅度提高了解碼速度。
在數(shù)據(jù)量上,由于移動(dòng)互聯(lián)網(wǎng)的急速發(fā)展,從多個(gè)渠道獲取的海量語(yǔ)言原料為聲學(xué)模型和語(yǔ)言模型的訓(xùn)練提供了豐富的資源,不斷提升語(yǔ)音識(shí)別的準(zhǔn)確率。
4 結(jié)語(yǔ)
語(yǔ)音是人們工作生活中最自然的交流媒介,所以語(yǔ)音識(shí)別技術(shù)在人機(jī)交互中成為非常重要的方式,語(yǔ)音識(shí)別技術(shù)具有非常廣泛的應(yīng)用領(lǐng)域和非常廣闊的市場(chǎng)前景。而隨著深度神經(jīng)網(wǎng)絡(luò)發(fā)展,硬件計(jì)算能力的提高,以及海量數(shù)據(jù)積累,語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確率和實(shí)用性將得到持續(xù)提高。
參考文獻(xiàn):
[1]S基百科編者.語(yǔ)音識(shí)別[G/OL].維基百科,2016(20160829)[2016-08-29].
[2]維基百科編者.語(yǔ)音活性檢測(cè)[G/OL].維基百科,2016(20160629)[2016-06-29].
[3]維基百科編者.維特比算法[G/OL].維基百科,2016(20160920)[2016-09-20].
[4] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1):30-42.
>> Linux平臺(tái)下的ALSA聲音編程 基于Sphinx的機(jī)器人語(yǔ)音識(shí)別系統(tǒng)構(gòu)建與研究 linux平臺(tái)下智能卡的支持方案 Linux平臺(tái)下的MySQL存儲(chǔ)管理技術(shù)研究 Linux平臺(tái)下FTP客戶端的設(shè)計(jì)思路 自主學(xué)習(xí)平臺(tái)下英語(yǔ)語(yǔ)音教學(xué)模式的構(gòu)建 TensorFlow平臺(tái)下的手寫(xiě)字符識(shí)別 Linux平臺(tái)下數(shù)據(jù)包過(guò)濾防火墻的研究與實(shí)踐 基于SkyEye的虛擬嵌式平臺(tái)下Linux內(nèi)核移植技術(shù)的研究 Windows和Linux平臺(tái)下的腰椎治療儀實(shí)時(shí)仿真 嵌入式Linux平臺(tái)下隨機(jī)序列算法的設(shè)計(jì) IP多播技術(shù)在Linux平臺(tái)下電子教室中的應(yīng)用與研究 基于ARM11在Linux平臺(tái)下網(wǎng)絡(luò)通信的設(shè)計(jì)與實(shí)現(xiàn) Linux系統(tǒng)平臺(tái)下會(huì)計(jì)軟件的發(fā)展前景展望 虛擬機(jī)linux平臺(tái)下基于Xshell的遠(yuǎn)程登錄服務(wù)的設(shè)計(jì)與實(shí)現(xiàn) 在Linux平臺(tái)下基于MPI的并行PC集群搭建的實(shí)現(xiàn) 基于Sphinx4的語(yǔ)音解碼模塊設(shè)計(jì) 云服務(wù)安全平臺(tái)研究開(kāi)發(fā)與語(yǔ)音識(shí)別應(yīng)用 基于車(chē)聯(lián)網(wǎng)平臺(tái)下自然語(yǔ)音辨識(shí)系統(tǒng)的研發(fā) .NET平臺(tái)下中文語(yǔ)音合成技術(shù)的研究與實(shí)踐 常見(jiàn)問(wèn)題解答 當(dāng)前所在位置:l。提交文件后,會(huì)產(chǎn)生由4個(gè)數(shù)字和后綴名組成的文件,假設(shè)其中包括的兩個(gè)文件為8521.dic字典文件和8521.lm語(yǔ)言模型文件即我們所需要的文件??梢杂脙蓚€(gè)線程處理這一過(guò)程,從而提高程序的性能:一個(gè)線程用來(lái)監(jiān)聽(tīng)和處理語(yǔ)音命令,一個(gè)線程用來(lái)執(zhí)行命令對(duì)應(yīng)的應(yīng)用程序,如圖1所示。
假設(shè)C語(yǔ)言源程序名為hello_ps.c則可以編寫(xiě)如下的Makefile文件:
#Makefile for hello_ps.c
obj=hello_ps
modeldir=$(shell pkg-config--variable=modeldir pocketsphinx)
flags=$(shell pkg-config--cflags--libs pocketsphinx sphinxbase)
$(obj):$(obj).c
gcc $(obj).c-o $(obj)-DMODELDIR=\"$(modeldir)\"$(flags)
運(yùn)行make命令編譯即可產(chǎn)生hello_ps文件。然后運(yùn)行./hello_ps-lm 8521.lm -dict 8521.dic就可以測(cè)試了。
五、結(jié)束語(yǔ)
本文介紹了語(yǔ)音識(shí)別引擎pocketsphinx在Linux環(huán)境下的應(yīng)用程序編程,語(yǔ)音識(shí)別有著廣泛的應(yīng)用。如我們常見(jiàn)的聲控?fù)芴?hào)電話,語(yǔ)音識(shí)別鎖等等。語(yǔ)音識(shí)別技術(shù)是非常重要的人機(jī)交互技術(shù),有著非常廣泛的應(yīng)用領(lǐng)域和市場(chǎng)前景色。
參考文獻(xiàn):
[1]Carnegie Mellon University./wiki/
[2]/wiki/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB
關(guān)鍵詞:連續(xù)語(yǔ)音識(shí)別;關(guān)鍵技術(shù);創(chuàng)新
談到語(yǔ)音識(shí)別,就不得不提到李開(kāi)復(fù)------前微軟研究院院長(zhǎng),他在哥倫比亞大學(xué)時(shí)主攻的就是語(yǔ)音識(shí)別,即通過(guò)機(jī)器來(lái)識(shí)別語(yǔ)音。語(yǔ)音識(shí)別是現(xiàn)代社會(huì)背景下的一門(mén)新興學(xué)科,它最主要的功能就是可以讓計(jì)算機(jī)聽(tīng)懂人說(shuō)的話,進(jìn)而為人們提供更高效且方便的服務(wù)。它是人類和計(jì)算機(jī)之間利用語(yǔ)言進(jìn)行交流 的橋梁,也是一門(mén)與多種學(xué)科緊密聯(lián)系的實(shí)用技術(shù)?,F(xiàn)階段,人們對(duì)連續(xù)語(yǔ)音識(shí)別的研究已經(jīng)取得了一定的成就。目前,我們研究語(yǔ)音識(shí)別的重點(diǎn)正在向特定應(yīng)用領(lǐng)域口語(yǔ)的識(shí)別和理解方面轉(zhuǎn)變。在這個(gè)研究中,有幾種關(guān)鍵技術(shù),下面我們就對(duì)其中幾種關(guān)鍵技術(shù)進(jìn)行簡(jiǎn)單的分析。
1、詞語(yǔ)定位技術(shù)
詞語(yǔ)定位技術(shù),在語(yǔ)音識(shí)別技術(shù)中非常重要的技術(shù)。主要通過(guò)對(duì)關(guān)鍵詞進(jìn)行定位,這種技術(shù)跟語(yǔ)言的語(yǔ)法特點(diǎn)有很大關(guān)系,是將語(yǔ)句中的關(guān)鍵詞語(yǔ)提取出來(lái)的一種定位技術(shù)。比如主語(yǔ),謂語(yǔ),賓語(yǔ)就是關(guān)鍵語(yǔ)素,先將這些語(yǔ)素定位對(duì)于完善整句話有著非常重要的意義,因?yàn)檫@些語(yǔ)素已經(jīng)勾勒出了語(yǔ)句的骨架。打個(gè)比方,蓋個(gè)房子要加鋼筋,來(lái)增加建筑物的強(qiáng)度和支撐作用,關(guān)鍵語(yǔ)素就是語(yǔ)句意群的鋼筋。通常詞語(yǔ)定位是通過(guò)設(shè)置并及時(shí)更新關(guān)鍵詞庫(kù)來(lái)實(shí)現(xiàn)的。
2、關(guān)聯(lián)搜索技術(shù)
在確定完基本語(yǔ)素后,就要根據(jù)語(yǔ)素之間的關(guān)聯(lián)性,進(jìn)行搜索,那些語(yǔ)素是一個(gè)意群,同在一個(gè)意群中的語(yǔ)素如何排列。利用相關(guān)性確定意群非常重要,因?yàn)樵~語(yǔ)詞之間不是任意搭配的,而是有規(guī)律的,這種規(guī)律就是語(yǔ)法,包括書(shū)面語(yǔ)語(yǔ)法和口語(yǔ)的語(yǔ)法。語(yǔ)法是語(yǔ)音識(shí)別的規(guī)則,因此是非常重要的。關(guān)聯(lián)的方式在語(yǔ)法的約束下主要有以下幾種:1.相關(guān)詞語(yǔ)出現(xiàn)的概率;2.相關(guān)詞語(yǔ)的詞性;3.相關(guān)詞語(yǔ)出現(xiàn)的語(yǔ)境的重復(fù)率等等。
連接詞識(shí)別就是說(shuō),系統(tǒng)中存儲(chǔ)的HMM針對(duì)的是孤立詞,但識(shí)別的語(yǔ)音是由這些詞組成的詞串。由于這一技術(shù)是一個(gè)連接序列,即根據(jù)給定發(fā)音序列來(lái)找到與其最匹配的參考模塊詞,所以,下面的問(wèn)題必須得到解決:(1)在序列中,有些時(shí)候即使知道詞長(zhǎng)度的大概范圍,也不知道詞的具體數(shù)量;(2)除整個(gè)序列的首末端點(diǎn)之外,序列之中每個(gè)詞的邊界位置并不知道。
3、抗阻礙性
在語(yǔ)音識(shí)別系統(tǒng)中,阻礙無(wú)處不在,具體說(shuō)來(lái),阻礙包括以下幾個(gè)方面:1.方言帶來(lái)的語(yǔ)音識(shí)別的阻礙;2.口音帶來(lái)的語(yǔ)音識(shí)別的阻礙;3.外界干擾(噪聲)帶來(lái)的語(yǔ)音識(shí)別的阻礙;4.系統(tǒng)設(shè)備局限性帶來(lái)的語(yǔ)音識(shí)別的阻礙等等。
一般情況下,在實(shí)驗(yàn)室(環(huán)境相對(duì)安靜)中訓(xùn)練合格的語(yǔ)音識(shí)別系統(tǒng)用在實(shí)際環(huán)境(環(huán)境與訓(xùn)練的實(shí)驗(yàn)室環(huán)境不相匹配)的時(shí)候性能就會(huì)明顯下降。所以,運(yùn)用頑健語(yǔ)音識(shí)別技術(shù)就是為了研究一些補(bǔ)償技術(shù)借以提高系統(tǒng)在不同環(huán)境中的性能。
根據(jù)語(yǔ)音系統(tǒng)中噪聲的特點(diǎn),我們研究出了一些抑制噪聲的方法,如根據(jù)信號(hào)與噪聲在各個(gè)尺度上的小波譜表現(xiàn)不一樣的特點(diǎn),可以運(yùn)用小波變換的噪聲抑制;根據(jù)含噪語(yǔ)音信號(hào)能量譜就是噪聲信號(hào)和語(yǔ)音信號(hào)能量譜之和這一特點(diǎn),可以運(yùn)用EVRC編碼噪聲抑制方法,等等。
4、搜索策略技術(shù)
在利用計(jì)算機(jī)來(lái)識(shí)別語(yǔ)音的時(shí)候,未知的模式,即從輸入語(yǔ)音中求出的特征參數(shù),與事前所定的標(biāo)準(zhǔn)模式是否一致,這個(gè)問(wèn)題必須檢查。目前語(yǔ)音識(shí)別的實(shí)現(xiàn)主要是通過(guò)聲音識(shí)別芯片分析聲音的波形來(lái)實(shí)現(xiàn)的,人的說(shuō)話聲音有音調(diào)、音色的不同,因而所形成的生意的波形也不同,芯片通過(guò)比對(duì)聲音圖譜來(lái)確定語(yǔ)音內(nèi)容,達(dá)到聲音識(shí)別的目的,這也就是聲音識(shí)別的原理。然而,在實(shí)際情況中,由于語(yǔ)音具有許多的不確定的因素,想達(dá)到完全一致比較困難。搜索策略是連續(xù)語(yǔ)音識(shí)別研究中的一個(gè)是否重要的課題。它的基本思路是,把幀作為搜索單位,在每一時(shí)刻對(duì)每一條路徑都假定當(dāng)前幀有可能是這一路徑的后續(xù),借此進(jìn)行一個(gè)完整的搜索。
總體來(lái)說(shuō),搜索策略技術(shù)受到容量的限制。所以,我們必須確定應(yīng)該保留哪些路徑,這就要求我們確定一定閥值,這個(gè)閥值既不能過(guò)嚴(yán)也不能過(guò)寬。對(duì)于這個(gè)問(wèn)題,我們一定要采用合適的算法,如傳統(tǒng)的幀同步算法、基于統(tǒng)計(jì)知識(shí)的幀同步搜索算法原理和受詞法約束的詞搜索樹(shù)等算法都是比較適合這一部分的。
結(jié)論:
本文總結(jié)了連續(xù)語(yǔ)音識(shí)別中幾種關(guān)鍵技術(shù),并對(duì)它們進(jìn)行了簡(jiǎn)單的介紹和分析。目前連續(xù)語(yǔ)音識(shí)別技術(shù)的研究并不成熟,它要向正確的方向健康發(fā)展就必須把詞語(yǔ)定位技術(shù)、關(guān)聯(lián)搜索技術(shù)、抗阻礙性技術(shù)、搜索策略技術(shù)等技術(shù)都正確運(yùn)用于實(shí)際工作中。
參考文獻(xiàn):
[1]馮麗娟,吾守爾·斯拉木.維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別技術(shù)研究[J].現(xiàn)代計(jì)算機(jī):下半月,2010,(1)
2、進(jìn)入控制面板后,將查看的類別設(shè)置為大圖標(biāo)或者小圖標(biāo),語(yǔ)音識(shí)別功能就會(huì)顯現(xiàn)出來(lái)。
3、在所有控制面板項(xiàng)的最下方選擇語(yǔ)音識(shí)別功能,會(huì)進(jìn)入語(yǔ)音識(shí)別功能設(shè)置的頁(yè)面。
4、啟動(dòng)語(yǔ)音識(shí)別,啟動(dòng)的步驟按照電腦的提示走即可。
調(diào)試不可少
連接好麥克風(fēng),然后打開(kāi)“控制面板輕松訪問(wèn)語(yǔ)音識(shí)別”,打開(kāi)“語(yǔ)音識(shí)別設(shè)置”(如圖1)。在正式使用語(yǔ)音識(shí)別功能前,我們需要對(duì)相關(guān)設(shè)備進(jìn)行調(diào)試。
1.單擊“設(shè)置麥克風(fēng)”啟動(dòng)麥克風(fēng)設(shè)置向?qū)?,按向?qū)崾就瓿甥溈孙L(fēng)的設(shè)置,這里主要配置麥克風(fēng)的音量和靈敏度。
2.單擊“學(xué)習(xí)語(yǔ)音教程”啟動(dòng)學(xué)習(xí)向?qū)А,F(xiàn)在按照屏幕的提示一步步使用語(yǔ)音操作電腦即可。比如屏幕提示“說(shuō)出‘下一步’以繼續(xù)”,我們只要對(duì)著麥克風(fēng)說(shuō)出“下一步”,向?qū)У牟僮骶蜁?huì)自動(dòng)進(jìn)入下一步。這里可以對(duì)“聽(tīng)寫(xiě)”、“命令”和“操作Windows”進(jìn)行全方位的訓(xùn)練,整個(gè)教程也設(shè)計(jì)得十分漂亮(如圖2)。
系統(tǒng)操作,“聽(tīng)”我的
完成上述設(shè)置后,返回圖1所示的窗口,單擊“啟動(dòng)語(yǔ)音識(shí)別”。語(yǔ)音識(shí)別啟動(dòng)后會(huì)在屏幕上方出現(xiàn)語(yǔ)音識(shí)別狀態(tài)欄?,F(xiàn)在對(duì)著麥克風(fēng)說(shuō)出“開(kāi)始聆聽(tīng)”,語(yǔ)音識(shí)別顯示框會(huì)出現(xiàn)“正在聽(tīng)”的字樣。接下來(lái),我們就能用嘴給計(jì)算機(jī)下達(dá)命令了。
例如我們要啟動(dòng)Vista的側(cè)邊欄,就需要依次說(shuō)出“開(kāi)始”“所有程序”“附件”“Windows邊欄”。不過(guò)很多時(shí)候,語(yǔ)音識(shí)別在初次使用時(shí)并不能準(zhǔn)確識(shí)別所有命令,比如在說(shuō)出“Windows邊欄”時(shí),語(yǔ)音識(shí)別會(huì)將類似的識(shí)別項(xiàng)目全部標(biāo)注出來(lái),只要按提示說(shuō)出正確項(xiàng)目的序號(hào)并確定即可(說(shuō)“4”,然后再說(shuō)“確定”,如圖3)。
經(jīng)過(guò)一段時(shí)間試用,筆者發(fā)現(xiàn)無(wú)論是用普通話還是用筆者的本地方言(重慶話),系統(tǒng)都能做出比較準(zhǔn)確的判斷。但操作的效率還是不高,而且一些特定的指令也需要慢慢熟悉。
語(yǔ)音實(shí)訓(xùn)總結(jié) 語(yǔ)音識(shí)別技術(shù) 語(yǔ)音教學(xué)論文 紀(jì)律教育問(wèn)題 新時(shí)代教育價(jià)值觀
部級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)
中國(guó)語(yǔ)言學(xué)會(huì)語(yǔ)音學(xué)分會(huì)