所屬欄目:自動(dòng)化論文 發(fā)布日期:2010-08-31 14:38 熱度:
摘要:矢量量化(VQ)是語音識(shí)別中廣泛采用的數(shù)據(jù)壓縮和編碼方法。在實(shí)現(xiàn)孤立詞識(shí)別系統(tǒng)時(shí)VQ算法能簡(jiǎn)單、快速、有效地實(shí)現(xiàn)語音命令的實(shí)時(shí)識(shí)別。本文討論了VQ(vectorquantization)算法與語音遙控系統(tǒng)設(shè)計(jì),實(shí)驗(yàn)結(jié)果表明基于VQ的語音識(shí)別獲得了較好的識(shí)別結(jié)果。
關(guān)鍵詞:語音識(shí)別,矢量量化,LPC,數(shù)字信號(hào)處理
中圖分類號(hào):C91
1.引言
家用電器領(lǐng)域發(fā)展的一個(gè)重要趨勢(shì)是人機(jī)交互將更加友好,使用更為簡(jiǎn)便。提高家電產(chǎn)品人機(jī)交互能力的一個(gè)重要手段是采用語音識(shí)別和語音合成實(shí)現(xiàn)語音交互,其中,語音識(shí)別技術(shù)實(shí)現(xiàn)技術(shù)難度相對(duì)更大。
語音識(shí)別(SpeechRecognition,SR)主要指讓機(jī)器聽懂人說的話,即準(zhǔn)確識(shí)別出語音的內(nèi)容,從而根據(jù)其信息,執(zhí)行人的意圖。它輸入多維模式識(shí)別和智能接口的范疇。[7]目前,語音識(shí)別廣泛應(yīng)用于軍事領(lǐng)域、安全領(lǐng)域、娛樂領(lǐng)域等。
語音識(shí)別領(lǐng)域發(fā)展很迅速,目前語音識(shí)別方法有:基于VQ的方法;隨機(jī)模型法,比如HMM方法;基于人工神經(jīng)網(wǎng)絡(luò)的方法等,其中基于VQ的方法利用離散數(shù)值表示矢量,能夠大大壓縮信息量,減少數(shù)據(jù)存儲(chǔ)量;同時(shí)無需考慮復(fù)雜的統(tǒng)計(jì)模型和復(fù)雜的時(shí)間歸整問題,運(yùn)算相對(duì)簡(jiǎn)單,因此得到了廣泛應(yīng)用。尤其在識(shí)別小詞匯表孤立詞時(shí)VQ算法優(yōu)點(diǎn)更為突出。
家電領(lǐng)域是小詞匯表孤立詞識(shí)別系統(tǒng),適合家用電器應(yīng)用的語音識(shí)別算法需要滿足兩個(gè)基本條件:一、簡(jiǎn)單,就是該算法所需要的硬件資源較少,以節(jié)約硬件成本。二、快速,就是能夠做到實(shí)時(shí)識(shí)別,沒有遲滯性。VQ算法恰好能夠滿足這兩個(gè)要求。
本文將以語音遙控系統(tǒng)設(shè)計(jì)為例探討基于VQ算法的語音識(shí)別算法。文章的第一部分是引言,簡(jiǎn)單介紹背景,第二部分介紹VQ算法的背景知識(shí);第三部分介紹基于VQ算法的語音識(shí)別系統(tǒng)的設(shè)計(jì),包括硬件設(shè)計(jì)和軟件設(shè)計(jì);第四部分是實(shí)驗(yàn)部分。
2.VQ語音識(shí)別算法
2.1矢量量化(VQ)算法原理
基于VQ的語音識(shí)別采用模式匹配原理。矢量量化是一種高效的數(shù)據(jù)壓縮技術(shù),它將n維歐氏空間Rn中的模擬矢量X依據(jù)某種準(zhǔn)則用n維空間中的有限個(gè)點(diǎn){Yi|i=1,2,…,M}表示。在矢量量化理論中,X稱為輸入矢量,Yi稱為量化矢量,{Yi|i=1,2,…,M}稱為碼本或碼書,碼字的數(shù)目M稱為碼本容量。矢量量化的準(zhǔn)則是在給定碼本大小M時(shí)使量化所造成的失真最小,如果所有的n維矢量都用有限的M個(gè)碼字表示,并將所有的碼字進(jìn)行編號(hào),那么所有的n維矢量都可以用這些碼字的碼號(hào)表示,從而可以有效的實(shí)現(xiàn)數(shù)據(jù)壓縮。
2.2VQ碼本的設(shè)計(jì)
碼本的設(shè)計(jì)決定了VQ算法能否給出較低的畸變值和較高的質(zhì)量。設(shè)d(X,Y)為X和Y之間的畸變,碼本設(shè)計(jì)的規(guī)則為:第一,X選擇碼字Yl時(shí)遵循“最近鄰原則”,即 ;第二,設(shè)所有選擇碼字Yl的輸入矢量X的集合為Sl,那么Yl應(yīng)使此集合中所有矢量與Yl之間的畸變平均值為最小。X與Y之間的畸變等于它們的歐氏距離,則Yl等于Sl中所有矢量的“質(zhì)心”,即:
其中Nl是Sl中所包含的矢量個(gè)數(shù)。
碼本的形成一般采用LBG算法,這是一種最優(yōu)的矢量量化器設(shè)計(jì)方法。LBG算法的基本原理是:對(duì)所有語音幀向量以初始碼本作最短距離分類,即將各語音幀向量歸類到初始碼本中距離最近的碼字中去。所有訓(xùn)練向量歸類結(jié)束后,分別對(duì)歸類于某一類的所有語音向量求重心,將對(duì)每一類求得的重心代替該類原來的初始碼字,得到一個(gè)新的碼本。再以此碼本替代原來的初始碼本,重新再進(jìn)行歸類。重復(fù)上述過程直至新舊碼本間的距離小于給定閾值為止。
2.3VQ語音識(shí)別流程
采用基于無記憶VQ的語音識(shí)別流程如下:
1) 訓(xùn)練時(shí),將同一字音的各訓(xùn)練序列的各幀特征,進(jìn)行聚類,可以得到含有規(guī)定數(shù)目(M)碼字的一個(gè)標(biāo)本,稱為該字音的碼本。對(duì)于整個(gè)識(shí)別系統(tǒng),詞匯表內(nèi)每個(gè)字音具有其單獨(dú)的碼本。
2) 通過統(tǒng)計(jì)確定拒識(shí)閾,即如果待識(shí)音對(duì)某碼本的標(biāo)志距離超過該距離,則將不是該碼本相應(yīng)的字音。拒識(shí)閾的選擇通常通過大量統(tǒng)計(jì)事先確定。過大或者過小將導(dǎo)致誤識(shí)或者拒識(shí)。
3) 識(shí)別時(shí),待識(shí)音幀序列的每幀特征與某字音碼本的M個(gè)碼字依次作比較,記下M個(gè)距離中的最小距離。整個(gè)語音幀序列的各最小幀距離之和作為“判別距離”(標(biāo)志距離)。經(jīng)過逐一計(jì)算,對(duì)與每個(gè)字音碼本,該待識(shí)音都有一個(gè)標(biāo)志距離。如果最小標(biāo)志距離值小于拒識(shí)閾,則最小標(biāo)志距離所對(duì)應(yīng)的字音作為識(shí)別結(jié)果。
3.語音遙控系統(tǒng)設(shè)計(jì)
本系統(tǒng)由三個(gè)部分組成:第一部分為模/數(shù)轉(zhuǎn)換部分,接收輸入的語音信號(hào),并將其轉(zhuǎn)化成數(shù)字采樣信號(hào);第二部分為語音識(shí)別部分,對(duì)輸入的數(shù)字語音詞條信號(hào)進(jìn)行分析,識(shí)別出詞條信號(hào)所代表的命令,由DSP完成;第三部分是系統(tǒng)控制部分,將語音識(shí)別結(jié)果轉(zhuǎn)換成相應(yīng)的控制信號(hào),完成具體控制功能。下面對(duì)語音識(shí)別算法的軟件實(shí)現(xiàn)及遙控系統(tǒng)控制部分作詳細(xì)的討論。
3.1 硬件設(shè)計(jì)
語音遙控的硬件框圖如圖1所示。它由兩個(gè)獨(dú)立的子模塊組成:語音信號(hào)處理模塊和系統(tǒng)控制模塊。語音信號(hào)處理模塊由LM324、ADSP2181、存儲(chǔ)器28F020組成。其中LM324對(duì)麥克風(fēng)輸入信號(hào)進(jìn)行放大,28F020為存儲(chǔ)器,存儲(chǔ)的數(shù)據(jù)為語音識(shí)別所需的參數(shù)、語音識(shí)別算法產(chǎn)生的中間數(shù)據(jù)、訓(xùn)練后的碼本數(shù)據(jù)、DSP系統(tǒng)的應(yīng)用程序。ADSP2181是AD公司的16位的定點(diǎn)DSP芯片,是整個(gè)語音識(shí)別模塊的核心,負(fù)責(zé)語音識(shí)別、以及存儲(chǔ)器的讀寫控制。
系統(tǒng)控制模塊由AT89C52單片機(jī)、紅外接收發(fā)送器、電源管理電路、鍵盤和LCD液晶屏組成。AT89C52是主控芯片,負(fù)責(zé)整個(gè)系統(tǒng)控制,通過掃描用戶通過鍵盤輸入的指令,分別完成訓(xùn)練遙控碼;控制DSP進(jìn)行語音訓(xùn)練、識(shí)別;將識(shí)別結(jié)果轉(zhuǎn)換成相應(yīng)的遙控碼,通過紅外發(fā)光管發(fā)射出去。LCD液晶屏的作用是:提示用戶操作、顯示訓(xùn)練/識(shí)別是否成功以及待識(shí)音與最近的碼本的距離。單片機(jī)與DSP之間通過標(biāo)準(zhǔn)的RS232串口協(xié)議通訊。系統(tǒng)運(yùn)行流程如下:
訓(xùn)練操作如下:1)按下A鍵,LCD顯示“說一個(gè)命令”;2)用戶說一個(gè)命令;3)訓(xùn)練成功,LCD顯示“重復(fù)命令”;4)用戶重復(fù)所說命令;5)訓(xùn)練成功,LCD重復(fù)1-4,用戶接著訓(xùn)練命令;
識(shí)別操作如下:1)按下B鍵,LCD顯示“說一個(gè)命令”;2)用戶說一個(gè)已訓(xùn)練過的命令;3)識(shí)別成功,LCD顯示“識(shí)別成功”,同時(shí)相應(yīng)的遙控碼通過紅外模塊發(fā)射出去。
在訓(xùn)練或者識(shí)別過程中,如果用戶說話太大或者太小,或者說的太快導(dǎo)致訓(xùn)練或者識(shí)別失敗,則LCD顯示“訓(xùn)練失敗”或者“此為非法命令”,表示訓(xùn)練或者識(shí)別失敗,用戶必須重新進(jìn)行訓(xùn)練或者識(shí)別。
圖1 語音遙控系統(tǒng)硬件框圖
3.2 軟件設(shè)計(jì)
語音遙控系統(tǒng)的軟件部分中語音識(shí)別模塊主要由四個(gè)子模塊組成:端點(diǎn)檢測(cè)模塊、LPC特征參數(shù)的提取模塊、似然比計(jì)算模塊、LBG算法識(shí)別模塊等構(gòu)成。端點(diǎn)檢測(cè)模塊將短時(shí)能頻值作為端點(diǎn)檢測(cè)的特征參數(shù),從背景噪聲中找出語音的起止點(diǎn)。LPC特征參數(shù)的提取模塊完成LPC參數(shù)的計(jì)算。似然比計(jì)算模塊完成似然比距離的計(jì)算。LBG算法識(shí)別模塊實(shí)現(xiàn)識(shí)別功能。下面先介紹一下軟件控制流程,然后介紹兩個(gè)關(guān)鍵的模塊:LPC特征參數(shù)的提取模塊與LBG算法模塊。這兩個(gè)模塊有大量的乘法和除法計(jì)算,并且需要完成浮點(diǎn)運(yùn)算和數(shù)據(jù)精度的處理。因此這兩個(gè)模塊的設(shè)計(jì)好壞決定了語音識(shí)別的精度。最后介紹一下數(shù)據(jù)的精度處理。
3.2.1語音識(shí)別控制流程
語音識(shí)別程序流程圖如圖2所示。訓(xùn)練時(shí):按“A鍵”進(jìn)入訓(xùn)練狀態(tài),用戶訓(xùn)練與遙控碼型相對(duì)應(yīng)的語音命令。使用時(shí):按“B鍵”,進(jìn)入語音識(shí)別狀態(tài),等待語音處理模塊返回結(jié)果,若返回正確的識(shí)別結(jié)果,則把相應(yīng)的遙控碼發(fā)射出去。若連續(xù)60秒無正確的命令則系統(tǒng)進(jìn)入休眠狀態(tài),單片機(jī)控制電源電路切斷DSP和FLASH的電源,單片機(jī)本身也進(jìn)入休眠狀態(tài),直至用戶按鍵,喚醒單片機(jī),系統(tǒng)恢復(fù)工作。
圖2 語音識(shí)別流程圖
3.2.2LPC特征參數(shù)的提取
本文使用Durbin算法,預(yù)測(cè)階數(shù)為P=12,為加窗后的數(shù)據(jù),N為窗長(zhǎng)。
首先計(jì)算自相關(guān)
LPC特征參數(shù)的提取的偽代碼描述如下:
I(0)=R(0);K(1)=R(1)/R(0);α(1,1)=K(1);//初始化
fori=2toP
I(i-1)=(1-K(i-1)*K(i-1))*I(i-2);//第一循環(huán)運(yùn)算
K(i)=[R(i)-]/I(i-1);
α(i,i)=K(i);
forj=1toi-1
α(j,i)=α(j,i-1)-K(i)*α(i-j,i-1);//第二循環(huán)運(yùn)算
end
end
forj=1toP
A(j)=-α(j,P);//輸出結(jié)果
end
A(j)的輸出就是LPC系數(shù)(A(0)=1)。
3.2.2LBG算法的軟件流程
LBG算法的實(shí)現(xiàn)流程是軟件設(shè)計(jì)中最關(guān)鍵的部分,因?yàn)樯傻拇a本是識(shí)別階段的參考模板,直接關(guān)系到識(shí)別的效果,圖3為該算法實(shí)現(xiàn)的軟件流程圖。
3.2.3數(shù)據(jù)精度的處理
用16位的定點(diǎn)DSP實(shí)現(xiàn)語音識(shí)別算法時(shí),雖然程序的運(yùn)行速度很快,但是數(shù)據(jù)精度比較低。這是由于中間過程的累計(jì)誤差導(dǎo)致了運(yùn)算結(jié)果不正確。為了提高數(shù)據(jù)的運(yùn)算精度,在程序中采用了擴(kuò)展精度處理方法,即在精度要求比較高的地方,中間變量采用32位甚至48位來表示。這樣,在指令條數(shù)增加不多的情況下運(yùn)算精度大大提高了。
語音識(shí)別中采用大量浮點(diǎn)運(yùn)算操作,采用定點(diǎn)DSP需要解決利用定點(diǎn)數(shù)來表示浮點(diǎn)的問題。本文采用數(shù)的定標(biāo)方法來實(shí)現(xiàn)。數(shù)的定標(biāo)就是決定小數(shù)點(diǎn)在定點(diǎn)數(shù)中的位置。Q表示法是一種常用的定標(biāo)方法,設(shè)定點(diǎn)數(shù)是X,浮點(diǎn)數(shù)是Y,則Q法表示的定點(diǎn)數(shù)與浮點(diǎn)數(shù)的轉(zhuǎn)換關(guān)系為:
浮點(diǎn)數(shù)Y轉(zhuǎn)換為定點(diǎn)數(shù)X:X=(int)Y*(2^Q);2^Q表示2的Q次方
定點(diǎn)數(shù)X轉(zhuǎn)換為浮點(diǎn)數(shù)Y:Y=(float)X*(2^-Q);2^-Q表示2的-Q次方
4.實(shí)驗(yàn)
家電遙控系統(tǒng)不需要很大的詞匯表,因此選擇了面向空調(diào)遙控的六個(gè)常用命令單詞進(jìn)行測(cè)試,每個(gè)命令進(jìn)行六次識(shí)別,這里碼本和待識(shí)別音來自同一人。實(shí)驗(yàn)結(jié)果如下:
中間對(duì)應(yīng)方格內(nèi)的小數(shù)表示待識(shí)音與碼本庫中最近的一個(gè)碼本的距離,在對(duì)“取暖”命令進(jìn)行第三次識(shí)別時(shí)出現(xiàn)錯(cuò)誤(error信息),是由于該最近距離大于預(yù)定的閾值。
實(shí)驗(yàn)表明,基于VQ的語音識(shí)別算法識(shí)別正確率為97.2%,VQ識(shí)別算法完全可以實(shí)現(xiàn)語音遙控的要求。基于VQ的語音識(shí)別技術(shù)在智能化家電網(wǎng)絡(luò)中具有廣泛的應(yīng)用前景。
參考文獻(xiàn)
1桂蘋,吳鎮(zhèn)揚(yáng),趙力,王維新基于VQ的說話人自動(dòng)識(shí)別系統(tǒng)的實(shí)現(xiàn)電聲技術(shù)2003年第10期
2.楊行峻,遲惠生語音信號(hào)數(shù)字處理北京電子工業(yè)出版社1995
3.萬春基于DTW的語音識(shí)別應(yīng)用系統(tǒng)研究與實(shí)現(xiàn)集美大學(xué)學(xué)報(bào)2002年第2期
4.梁虹語音識(shí)別中的VQ聚類方法云南大學(xué)學(xué)報(bào)(自然科學(xué)版)1998年第6期
5.龐雄昌,樓順天語音識(shí)別及其定點(diǎn)DSP實(shí)現(xiàn)現(xiàn)代電子技術(shù)2003年第19期
6.趙力編著語音信號(hào)處理機(jī)械工業(yè)出版社2005年
7.魏艷娜,王社國一種新的基于遺傳算法的VQ碼本優(yōu)化方法現(xiàn)代電子技術(shù)2006年第13期
8.周季華,史媛媛,劉潤(rùn)生語音識(shí)別在家電遙控器中的應(yīng)用電子技術(shù)應(yīng)用2002年第8期
文章標(biāo)題:基于VQ的語音遙控系統(tǒng)設(shè)計(jì)
轉(zhuǎn)載請(qǐng)注明來自:http://m.anghan.cn/fblw/ligong/zidonghua/3241.html
攝影藝術(shù)領(lǐng)域AHCI期刊推薦《Phot...關(guān)注:105
Nature旗下多學(xué)科子刊Nature Com...關(guān)注:152
中小學(xué)教師值得了解,這些教育學(xué)...關(guān)注:47
2025年寫管理學(xué)論文可以用的19個(gè)...關(guān)注:192
測(cè)繪領(lǐng)域科技核心期刊選擇 輕松拿...關(guān)注:64
及時(shí)開論文檢索證明很重要關(guān)注:52
中國水產(chǎn)科學(xué)期刊是核心期刊嗎關(guān)注:54
國際出書需要了解的問題解答關(guān)注:58
合著出書能否評(píng)職稱?關(guān)注:48
電信學(xué)有哪些可投稿的SCI期刊,值...關(guān)注:66
通信工程行業(yè)論文選題關(guān)注:73
SCIE、ESCI、SSCI和AHCI期刊目錄...關(guān)注:121
評(píng)職稱發(fā)論文好還是出書好關(guān)注:68
復(fù)印報(bào)刊資料重要轉(zhuǎn)載來源期刊(...關(guān)注:51
英文期刊審稿常見的論文狀態(tài)及其...關(guān)注:69
Web of Science 核心合集期刊評(píng)估...關(guān)注:59
理工論文范文
建筑設(shè)計(jì)論文 城市規(guī)劃論文 礦業(yè)論文 機(jī)電一體化論文 包裝論文 交通運(yùn)輸論文 化工論文 電力論文 水力論文 自動(dòng)化論文 車輛論文 冶金論文 工業(yè)設(shè)計(jì)論文 機(jī)械論文
SCI期刊分析
copyright © m.anghan.cn, All Rights Reserved
搜論文知識(shí)網(wǎng) 冀ICP備15021333號(hào)-3