說話人辨認中的特征參數(shù)提取和魯棒性技術研究.pdf_第1頁
已閱讀1頁,還剩104頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、語音是人類獲取信息的主要來源之一,也是最方便、最有效、最自然的交流工具。語音識別是研究使機器能準確地聽出人的語音內容的問題,其目的是方便人與機器的交流。說話人識別技術是語音識別的一種特殊形式,其目的不是識別說話人講的內容,而是識別說話人是誰。說話人識別技術在近三十多年的時間里取得了很大的進步,這種技術的應用為人類的日常生活帶來很大的便利。但是,隨著說話人識別技術實用化的不斷深入,不同應用領域對該技術的要求越來越高。一方面,說話人發(fā)音的多

2、變性,要求提取適合說話人識別的特征以保證系統(tǒng)的性能;另一方面,噪聲環(huán)境、訓練與測試數(shù)據(jù)的時長以及通信信道的失真等問題都嚴重影響到說話人識別系統(tǒng)在實際應用中的性能。本論文針對文本無關的說話人辨認任務,在說話人個性特征提取和噪聲魯棒性技術兩個方面進行了研究,主要內容包括:
   1.提出基于特征變換和模糊最小二乘支持向量機的辨認算法。針對最小二乘支持向量機模型在語音數(shù)據(jù)大樣本輸入下的局限性,一方面對傳統(tǒng)的梅爾倒譜特征MFCC進行基于

3、高斯混合模型的特征變換,解決訓練最小二乘支持向量機的過程中需要求解的線性方程組的變量數(shù)目與特征數(shù)量緊密相關的問題;另一方面,通過引入模糊隸屬度函數(shù),處理了最小二乘支持向量機從二分類擴展到說話人辨認的多分類時存在的不可分數(shù)據(jù)問題。高斯混合模型作為一種經(jīng)典的生成式模型,不但能有效減少數(shù)據(jù)量,起到壓縮數(shù)據(jù)的作用,而且由于聚類變換后的結果是高斯混合模型的均值矢量集,能夠很好地代表說話人的特征,起到突出說話人信息的作用?;谔卣髯儞Q和模糊最小二乘

4、支持向量機的辨認算法結合了高斯混合模型在擬合數(shù)據(jù)方面的優(yōu)勢和最小二乘支持向量機在分類辨別方面的優(yōu)勢,從而改善系統(tǒng)系統(tǒng)的性能。
   2.提出基于高斯混合模型的感知特征補償變換的抗噪聲算法。從人類聽覺感知特性出發(fā),基于感知線性預測模型從不同層次模擬了人耳的聽覺特性,從語音的頻譜細節(jié)考慮,去除了會引起說話人信息平滑的臨界帶頻譜分析,提取改進的感知對數(shù)面積比系數(shù)MPLAR作為說話人特征,具有良好的可分性;并在此基礎上,根據(jù)說話人識別的

5、聲學特性,從匹配得分的整體考慮,對模型輸出的似然得分引入非線性變換,拉大目標模型與非目標模型的得分比,拉近同一模型各幀得分值,使得各模型的得分值不僅與當前時刻的似然概率有關,還與之前的K個時刻的似然概率有關,解決了MPLAR在不同類型噪聲條件下的抗噪性能問題?;诟兄卣骱湍P脱a償?shù)恼f話人辨認算法不僅提供了可分性更好的特征,并且在模型匹配階段從整體得分的統(tǒng)計特性出發(fā),得到穩(wěn)定的模型得分,增強了系統(tǒng)在噪聲環(huán)境下的識別能力。
  

6、3.提出基于自適應頻率規(guī)整的魯棒性辨認算法。經(jīng)典的梅爾倒譜特征和感知線性預測特征從人類的聽覺感知機理出發(fā),模擬了人類聽覺系統(tǒng)對聲音頻率的感知特性,改進了說話人的識別性能,但是這種處理方式并沒有對語義特征和說話人個性特征區(qū)別對待,而是在特征提取階段籠統(tǒng)地降低了高頻信息的比重。自適應頻率規(guī)整算法是基于說話人信息在不同頻帶呈不均勻分布的原理,從語音生成的生理學角度分析人類在發(fā)音過程中的結構變化,從中獲取攜帶說話人信息的生理特征,進而從頻譜分析

7、的層次對不同頻帶對說話人信息的貢獻進行量化,指導設計了與Mel頻率尺度不同的自適應頻率尺度變換,在說話人信息貢獻大的區(qū)域分配的濾波器個數(shù)增多,帶寬變小,頻率分辨率提高,而貢獻小的區(qū)域分配的濾波器個數(shù)減少,帶寬變大,頻率分辨率降低,從而進行自適應的頻譜濾波,提取區(qū)分性特征DFCC。并且針對應用到實際使用環(huán)境時存在的訓練語音與測試語音失配的問題,對語音頻譜進行逐幀逐頻率點的預增強處理,去除噪聲的干擾,進一步提高系統(tǒng)的魯棒性。
  

8、4.提出基于漢語元音映射的說話人辨認方法。該方法從漢語語音的特點出發(fā),對基于漢語的說話人識別進行研究。由于漢語具有相對穩(wěn)定的音節(jié)結構,并且其中的元音部分占據(jù)了主要的能量和時長,基于此,從漢語語音的特點出發(fā),對漢語拼音的結構、發(fā)音特點進行分析,并且通過元音頻譜對比、音素滑動分析、韻母分解實驗和共振峰分析等,從短時幀角度將韻母中的元音部分分解為單元音音素的組合,結合大量語音學知識構建了漢語元音映射表,通過漢語元音映射,能夠有效地分離語音信號

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論