一種基于小樣本的機艙人聲識別方法、介質及設備與流程

文檔序號：42298878發(fā)布日期：2025-06-27 18:39閱讀：20來源：國知局

本發(fā)明涉及語音識別，特別是涉及一種基于小樣本的機艙人聲識別方法、介質及設備。

背景技術：

1、語音識別技術在飛行員考核中至關重要，通過語音識別技術對飛行過程中機艙內的人聲進行識別，不僅能夠確定飛行員是否遵守了操作規(guī)程和標準喊話流程，還能評估飛行員的語言清晰度，提供了一種客觀、系統(tǒng)的方法來評估飛行員的表現(xiàn)，有助于提升飛行安全和服務質量；在現(xiàn)有技術中，通過語音識別技術對飛行過程中機艙內的人聲進行識別主要依賴于經過訓練的語音識別模型，通常使用單一的交叉熵損失函數(shù)對語音識別模型進行訓練，將在機艙內采集到的包含人聲的音頻輸入到經過訓練的語音識別模型中獲取語音識別模型輸出的預測文本，將預測文本與標準文本進行對比，基于對比結果評估飛行員的表現(xiàn)。

2、但是上述方法也存在以下技術問題：

3、交叉熵損失函數(shù)主要關注每個時間步上的分類準確性，可以理解為只關注局部概率分布的匹配，因此使用單一的交叉熵損失函數(shù)訓練的語音識別模型可能會在小樣本情況下過度擬合訓練數(shù)據(jù)中的噪聲或細節(jié)特征，導致泛化能力不足，需要基于大量的樣本數(shù)據(jù)對語音識別模型進行訓練，并且交叉熵損失函數(shù)提供的梯度信號僅來自每個時間步的分類誤差，這導致模型在訓練過程中難以快速收斂，此外，交叉熵損失函數(shù)的目標是最小化預測分布與真實分布之間的差異，因此使用單一的交叉熵損失函數(shù)訓練的語音識別模型傾向于選擇在上下文中概率最高的候選詞，可以理解為會根據(jù)上下文信息推測缺失或模糊的部分內容，例如，在音頻中出現(xiàn)吞字或連字現(xiàn)象時，語音識別模型可能會根據(jù)前后文推斷出最可能的字符或單詞，可能導致吞字或連字被錯誤地識別為其他更常見的詞匯，從而導致語音識別模型輸出的文本與實際內容存在差異，不能夠精確的反映音頻中的實際內容。

技術實現(xiàn)思路

1、針對上述技術問題，本發(fā)明采用的技術方案為：

2、根據(jù)本發(fā)明的第一方面，提供了一種基于小樣本的機艙人聲識別方法，方法包括如下步驟：

3、s1、使用目標樣本數(shù)據(jù)集d對初始語音識別模型進行訓練以獲取目標語音識別模型，其中，d中包括若干個目標樣本音頻和每一目標樣本音頻對應的實際文本，用于訓練初始語音識別模型的復合損失函數(shù)l符合如下條件：

4、l=α×lnum+β×lcer+γ×lcross-entroy+μ×lctc，lnum為長度損失函數(shù)，lcer為強化學習損失函數(shù)，lcross-entroy為交叉熵損失函數(shù)，lctc為ctc損失函數(shù)，α為lnum對應的權重參數(shù)，β為lcer對應的權重參數(shù)，γ為lcross-entroy對應的權重參數(shù)，μ為lctc對應的權重參數(shù)；lcer符合如下條件：

5、lcer=ex-d[ep(y1|x)[cer(y1，y)]]，x為d中的目標樣本音頻，y為x對應的實際文本，y1為目標語音識別模型預測的文本，ex-d[?]表示對d中的所有x進行期望值計算；ep(y1|x)[cer(y1，y)]表示在給定輸入x的條件下，根據(jù)目標語音識別模型輸出的概率分布，計算y1和y之間的字符錯誤率的期望值；p(y1|x)為給定輸入x的條件下，目標語音識別模型輸出y1的概率；cer(y1，y)為y1和y之間的字符錯誤率。

6、s2、將目標艙音輸入到目標語音識別模型中以獲取目標艙音對應的預測文本，預測文本為目標語音識別模型輸出的文本，目標艙音為初始艙音中包含人聲的音頻片段，初始艙音為從目標航空器的機艙中采集到的音頻。

7、根據(jù)本發(fā)明的第二方面，提供了一種非瞬時性計算機可讀存儲介質，存儲介質中存儲有計算機程序，計算機程序由處理器加載并執(zhí)行以實現(xiàn)前述的方法。

8、根據(jù)本發(fā)明的第三方面，提供了一種電子設備，包括：處理器、存儲器及存儲在存儲器上并可在處理器上運行的計算機程序，處理器執(zhí)行計算機程序時實現(xiàn)前述的方法。

9、本發(fā)明至少具有以下有益效果：

10、本發(fā)明提供了一種基于小樣本的機艙人聲識別方法、介質及設備，所述方法基于復合損失函數(shù)對初始語音識別模型進行訓練以獲取目標語音識別模型，將目標艙音輸入到目標語音識別模型中以獲取目標艙音對應的預測文本，復合損失函數(shù)由長度損失函數(shù)，強化學習損失函數(shù)，交叉熵損失函數(shù)和ctc損失函數(shù)這四種損失函數(shù)及這四種損失函數(shù)對應的權重參數(shù)構成；可知，本發(fā)明能夠從多個維度對模型進行優(yōu)化，這種多目標聯(lián)合優(yōu)化的方式能夠在小樣本情況下實現(xiàn)更高的數(shù)據(jù)利用率，只需使用少量的樣本數(shù)據(jù)對模型進行訓練，無需使用大量的樣本數(shù)據(jù)對模型進行訓練，降低對大數(shù)據(jù)量的依賴，從而提高模型的泛化能力，并且復合損失函數(shù)通過結合多個損失函數(shù)，提供了更加豐富和多樣化的梯度信號，使得模型在每次更新時能夠從多個方向進行調整，從而加速收斂過程，此外，相較于使用單一的交叉熵損失函數(shù)，復合損失函數(shù)引入了其他類型的損失，能夠為模型提供額外的約束條件，避免模型完全依賴上下文進行預測，并且，復合損失函數(shù)中的強化學習損失函數(shù)是基于模型預測分布和字符錯誤率確定的損失函數(shù)，通過最小化字符錯誤率，能夠更好地處理吞字或連字等現(xiàn)象，使模型生成更貼近實際輸出的序列，減少了因上下文推測而導致的誤差，從而使模型輸出的文本更接近音頻中的實際內容，不僅顯著地提高了機艙人聲識別的速度還確保了預測文本能夠精確反映艙音中的實際內容。

技術特征：

1.一種基于小樣本的機艙人聲識別方法，其特征在于，所述方法包括如下步驟：

2.根據(jù)權利要求1所述的基于小樣本的機艙人聲識別方法，其特征在于，長度損失函數(shù)為能夠衡量模型預測的序列長度與真實序列長度之間的差異的損失函數(shù)。

3.根據(jù)權利要求1所述的基于小樣本的機艙人聲識別方法，其特征在于，在d中，目標樣本音頻為輸入特征，所述目標樣本音頻對應的實際文本為所述輸入特征對應的標簽。

4.根據(jù)權利要求1所述的基于小樣本的機艙人聲識別方法，其特征在于，目標語音識別模型包括：音頻特征融合模塊、編碼模塊、字數(shù)識別模塊和解碼模塊，其中，編碼模塊包括若干個cnn層和若干個編碼器，字數(shù)識別模塊包括卷積層和全連接神經網絡，解碼模塊包括若干個非自回歸解碼器。

5.根據(jù)權利要求4所述的基于小樣本的機艙人聲識別方法，其特征在于，編碼模塊中的編碼器為transformer架構中的編碼器。

6.根據(jù)權利要求4所述的基于小樣本的機艙人聲識別方法，其特征在于，在目標語音識別模型生成目標艙音對應的預測文本的過程中，將目標艙音的fbank特征輸入到音頻特征融合模塊中以獲取目標艙音對應的中間音頻特征，音頻特征融合模塊用于將fbank特征中每a幀連續(xù)的fbank特征向量拼接成一個特征向量，且拼接時不重疊，其中，a為預設的拼接幀數(shù)。

7.根據(jù)權利要求6所述的基于小樣本的機艙人聲識別方法，其特征在于，將目標艙音對應的中間音頻特征輸入到編碼模塊中，先經過若干個cnn層處理再經過若干個編碼器處理以獲取目標艙音對應的特征向量矩陣。

8.根據(jù)權利要求7所述的基于小樣本的機艙人聲識別方法，其特征在于，將目標艙音對應的特征向量矩陣輸入到字數(shù)識別模塊中以獲取目標艙音對應的字符數(shù)量；將目標艙音對應的特征向量矩陣和目標艙音對應的字符數(shù)量輸入到解碼模塊中以獲取目標艙音對應的預測文本。

9.一種非瞬時性計算機可讀存儲介質，其特征在于，所述存儲介質中存儲有計算機程序，所述計算機程序由處理器加載并執(zhí)行以實現(xiàn)如權利要求1-8中任意一項所述的基于小樣本的機艙人聲識別方法。

10.一種電子設備，包括：處理器、存儲器及存儲在存儲器上并可在處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權利要求1-8中任意一項所述的基于小樣本的機艙人聲識別方法。

技術總結
本發(fā)明提供了一種基于小樣本的機艙人聲識別方法、介質及設備，涉及語音識別技術領域，所述方法基于復合損失函數(shù)對初始語音識別模型進行訓練以獲取目標語音識別模型，能從多個維度對模型進行優(yōu)化，只需使用少量的樣本數(shù)據(jù)對模型進行訓練，并且復合損失函數(shù)結合了多個損失函數(shù)，使模型在每次更新時能夠從多個方向進行調整，從而加速收斂過程，此外，復合損失函數(shù)中的強化學習損失函數(shù)是基于模型預測分布和字符錯誤率確定的損失函數(shù)，能夠更好地處理吞字或連字等現(xiàn)象，使模型生成更貼近實際輸出的序列；將目標艙音輸入到目標語音識別模型中以獲取目標艙音對應的預測文本，提高了機艙人聲識別的速度還確保預測文本能夠精確反映艙音中的實際內容。

技術研發(fā)人員：籍焱,尚亞南,栗滕,張江東,王超,張麗穎
受保護的技術使用者：中航信移動科技有限公司
技術研發(fā)日：
技術公布日：2025/6/26

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：籍焱,尚亞南,栗滕,張江東,王超,張麗穎
技術所有人：中航信移動科技有限公司
我是此專利的發(fā)明人

上一篇：一種房屋吊頂安裝結構的制作方法
下一篇：一種橡皮艇用水下探照系統(tǒng)的制作方法

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

殴美成人在线视频,亚州中文字幕,日韩精品视频大全,99久久亚洲精品,aa国产视频一区二区,天天爱夜夜,日韩夜精品精品免费观看

一種基于小樣本的機艙人聲識別方法、介質及設備與流程

一種基于小樣本的機艙人聲識別方法、介質及設備與流程