殴美成人在线视频,亚州中文字幕,日韩精品视频大全,99久久亚洲精品,aa国产视频一区二区,天天爱夜夜,日韩夜精品精品免费观看

一種用于上下文語(yǔ)音識(shí)別的熱詞排序與選擇方法

文檔序號(hào):42298434發(fā)布日期:2025-06-27 18:38閱讀:23來(lái)源:國(guó)知局

本發(fā)明涉及語(yǔ)音識(shí)別,尤其涉及一種用于上下文語(yǔ)音識(shí)別的熱詞排序與選擇方法。


背景技術(shù):

1、隨著語(yǔ)音識(shí)別技術(shù)不斷發(fā)展,端到端自動(dòng)語(yǔ)音識(shí)別(asr)系統(tǒng)取得顯著成果,主要包含連接主義時(shí)間分類(lèi)(ctc)模型、基于注意力的編碼器-解碼器模型和基于變換器的模型這三類(lèi),在各類(lèi)asr任務(wù)中廣泛應(yīng)用。不過(guò),標(biāo)準(zhǔn)asr系統(tǒng)在識(shí)別罕見(jiàn)詞、專有名詞等低頻詞匯時(shí),存在較大困難,主要原因是訓(xùn)練數(shù)據(jù)里低頻詞匯呈長(zhǎng)尾分布,致使轉(zhuǎn)錄結(jié)果不準(zhǔn)確。

2、為解決這些問(wèn)題,上下文熱詞技術(shù)得以應(yīng)用,像淺層融合與深度融合技術(shù),通過(guò)把上下文信息融入asr過(guò)程,有效提高了asr性能。淺層融合在解碼時(shí)將預(yù)訓(xùn)練語(yǔ)言模型(lm)和聲學(xué)模型結(jié)合,先由聲學(xué)模型生成候選轉(zhuǎn)錄,再由lm依據(jù)語(yǔ)言可能性對(duì)其重新評(píng)分;深度融合則是聯(lián)合訓(xùn)練聲學(xué)模型和lm,在推理階段讓二者更深度交互,通過(guò)合并最終預(yù)測(cè)層前的中間表示,強(qiáng)化聲學(xué)和語(yǔ)言信息的融合,進(jìn)而提升asr準(zhǔn)確率。近年來(lái),不少研究聚焦于將大規(guī)?;A(chǔ)模型與上下文asr技術(shù)融合,期望借助這些先進(jìn)模型的能力,在上下文場(chǎng)景中更好地識(shí)別罕見(jiàn)詞、特定領(lǐng)域術(shù)語(yǔ),更精準(zhǔn)地處理各種語(yǔ)言細(xì)節(jié)。

3、雖然上下文自動(dòng)語(yǔ)音識(shí)別(asr)系統(tǒng)有了很大進(jìn)步,但在處理大量熱詞時(shí)仍面臨挑戰(zhàn)。當(dāng)熱詞數(shù)量眾多(比如超過(guò)1000個(gè)),上下文asr模型常常難以應(yīng)對(duì),無(wú)法高效處理。尤其是基于大規(guī)模基礎(chǔ)模型構(gòu)建的模型,對(duì)熱詞數(shù)量非常敏感。這是由于上下文長(zhǎng)度有限,限制了模型處理和整合大量熱詞的能力;同時(shí),計(jì)算效率方面的限制,也使得模型難以處理因大量熱詞導(dǎo)致的指數(shù)級(jí)增長(zhǎng)的復(fù)雜度,最終影響了上下文asr系統(tǒng)的整體性能。

4、因此,本領(lǐng)域的技術(shù)人員致力于開(kāi)發(fā)一種用于上下文語(yǔ)音識(shí)別的熱詞排序與選擇方法。提出打分器網(wǎng)絡(luò),綜合利用tts模型、音頻編碼器、交叉注意力機(jī)制和cnn(卷積神經(jīng)網(wǎng)絡(luò))等技術(shù),精準(zhǔn)篩選和排序熱詞,提升模型識(shí)別熱詞的能力。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問(wèn)題是上下文asr模型處理大量熱詞時(shí)的性能瓶頸問(wèn)題。

2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種用于上下文語(yǔ)音識(shí)別的熱詞排序與選擇方法,包括打分器網(wǎng)絡(luò),對(duì)熱詞進(jìn)行篩選,在將熱詞融入asr系統(tǒng)前減少熱詞總數(shù)。

3、進(jìn)一步地,借助tts模型把熱詞轉(zhuǎn)為熱詞音頻,與語(yǔ)音音頻融合;利用預(yù)訓(xùn)練音頻編碼器分別從語(yǔ)音和熱詞音頻提取特征,通過(guò)交叉注意力機(jī)制捕捉跨模態(tài)關(guān)系;再用cnn提取局部特征,經(jīng)全局池化層得到全局特征;最后由softmax層為熱詞打分,依據(jù)分?jǐn)?shù)篩選熱詞。

4、進(jìn)一步地,設(shè)置不同的熱詞排列方式,用打分器網(wǎng)絡(luò)生成熱詞分?jǐn)?shù),按不同順序輸入熱詞到模型,觀察模型性能變化,選擇最佳熱詞排序方式。

5、進(jìn)一步地,所述熱詞排列方式包括隨機(jī)順序排列方式、升序排列方式、降序排列方式。

6、進(jìn)一步地,所述升序排列方式,高概率熱詞放末尾。

7、進(jìn)一步地,所述降序排列方式,高概率熱詞放開(kāi)頭。

8、進(jìn)一步地,使用命名實(shí)體識(shí)別模型生成貼近現(xiàn)實(shí)場(chǎng)景的專有名詞熱詞列表。

9、進(jìn)一步地,所述命名實(shí)體識(shí)別模型對(duì)文本中的詞匯逐個(gè)篩選,識(shí)別出其中的專有名詞,構(gòu)建全面的熱詞列表。

10、進(jìn)一步地,所述專有名詞包括聯(lián)系人姓名、電話號(hào)碼、個(gè)人名字、位置名稱。

11、進(jìn)一步地,包括以下步驟:

12、步驟1、數(shù)據(jù)準(zhǔn)備;

13、步驟2、模型構(gòu)建與訓(xùn)練;

14、步驟3、熱詞排序與選擇;

15、步驟4、對(duì)比與分析。

16、現(xiàn)有上下文asr模型面對(duì)大量熱詞時(shí),受限于上下文長(zhǎng)度和計(jì)算效率,難以有效處理,導(dǎo)致整體性能下降。本發(fā)明設(shè)計(jì)新型打分器網(wǎng)絡(luò),對(duì)熱詞進(jìn)行篩選,在將熱詞融入asr系統(tǒng)前減少熱詞總數(shù)。本發(fā)明借助tts模型把熱詞轉(zhuǎn)為熱詞音頻,與語(yǔ)音音頻融合。利用預(yù)訓(xùn)練音頻編碼器分別從語(yǔ)音和熱詞音頻提取特征,通過(guò)交叉注意力機(jī)制捕捉跨模態(tài)關(guān)系,讓模型更好關(guān)聯(lián)熱詞與語(yǔ)音內(nèi)容。再用cnn提取局部特征,經(jīng)全局池化層得到全局特征,最后由softmax層為熱詞打分,依據(jù)分?jǐn)?shù)篩選熱詞。本發(fā)明在librispeech數(shù)據(jù)集結(jié)合is21熱詞列表測(cè)試,熱詞錯(cuò)誤率(b-wer)相對(duì)降低超40%,提升了模型識(shí)別熱詞性能,增強(qiáng)了上下文asr模型處理大量熱詞的可擴(kuò)展性和效率,在不同模型和熱詞列表中泛化性良好。

17、現(xiàn)有未探究熱詞在輸入模型時(shí)的順序?qū)ι舷挛腶sr性能的影響,缺乏優(yōu)化熱詞輸入順序的方法。本發(fā)明研究熱詞排序?qū)δP托阅艿挠绊懀瑢?duì)比不同排序方式下模型的表現(xiàn)。本發(fā)明針對(duì)is21熱詞列表,設(shè)置隨機(jī)順序、升序(高概率熱詞放末尾)、降序(高概率熱詞放開(kāi)頭)三種排列方式,用提出的打分器網(wǎng)絡(luò)生成熱詞分?jǐn)?shù),按不同順序輸入熱詞到whisper模型,觀察模型性能變化。本發(fā)明發(fā)現(xiàn)將真實(shí)熱詞按升序輸入whisper模型時(shí),模型性能最佳。為優(yōu)化熱詞輸入模型的順序提供了參考,有助于提升上下文asr系統(tǒng)性能。

18、現(xiàn)有熱詞列表構(gòu)建方式不夠貼近實(shí)際應(yīng)用場(chǎng)景,導(dǎo)致asr系統(tǒng)在處理真實(shí)場(chǎng)景中的熱詞時(shí)效果不佳。本發(fā)明使用命名實(shí)體識(shí)別(ner)模型生成更貼近現(xiàn)實(shí)場(chǎng)景的專有名詞熱詞列表。本發(fā)明利用ner模型對(duì)librispeech文本中的詞匯逐個(gè)篩選,識(shí)別出其中的專有名詞,如聯(lián)系人姓名、電話號(hào)碼、個(gè)人名字、位置名稱等,構(gòu)建全面的熱詞列表。本發(fā)明實(shí)驗(yàn)結(jié)果顯示,使用該熱詞列表結(jié)合提出的方法,在whisper-turbo模型中選擇得分最高的前50個(gè)熱詞,b-wer可顯著降低30%,更有效地提升了模型在實(shí)際場(chǎng)景下處理熱詞的能力。

19、本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下顯而易見(jiàn)的實(shí)質(zhì)性特點(diǎn)和顯著優(yōu)點(diǎn):

20、1、技術(shù)優(yōu)勢(shì):本發(fā)明通過(guò)創(chuàng)新的熱詞排序與選擇技術(shù),有效解決了上下文asr模型處理大量熱詞時(shí)的性能瓶頸問(wèn)題。所提出的打分器網(wǎng)絡(luò),綜合利用tts模型、音頻編碼器、交叉注意力機(jī)制和cnn等技術(shù),能夠精準(zhǔn)篩選和排序熱詞,顯著提升模型識(shí)別熱詞的能力。相比傳統(tǒng)方法,在處理相同熱詞任務(wù)時(shí),b-wer大幅降低,這意味著在實(shí)際應(yīng)用中,語(yǔ)音識(shí)別的準(zhǔn)確性得到極大提高,可有效減少因熱詞識(shí)別錯(cuò)誤導(dǎo)致的信息誤差,為語(yǔ)音交互相關(guān)產(chǎn)業(yè)提供更可靠的技術(shù)支持。

21、2、指標(biāo)方面:實(shí)驗(yàn)結(jié)果有力證明了本發(fā)明技術(shù)方案的優(yōu)越性。在librispeech數(shù)據(jù)集上,無(wú)論是使用is21熱詞列表還是ner生成的熱詞列表,都能實(shí)現(xiàn)b-wer的顯著降低,最高相對(duì)減少超過(guò)40%。同時(shí),在不同的上下文asr模型,如whisper和tcpgen-based?biasingwhisper中,本發(fā)明都能取得良好效果,提升模型性能。這表明本發(fā)明技術(shù)方案在不同數(shù)據(jù)集和模型上具有廣泛的適用性和穩(wěn)定性,為其產(chǎn)業(yè)化應(yīng)用提供了堅(jiān)實(shí)的性能保障。

22、3、實(shí)施角度:本發(fā)明所采用的技術(shù)組件,如tts模型(edge-tts)、asr模型(whisper-turbo)等均有成熟的開(kāi)源實(shí)現(xiàn),降低了技術(shù)實(shí)施的門(mén)檻和成本。在實(shí)驗(yàn)中詳細(xì)給出的模型參數(shù)設(shè)置,如線性層投影維度、交叉注意力機(jī)制的頭數(shù)和dropout率、cnn各層的輸出通道數(shù)和內(nèi)核大小等,為實(shí)際應(yīng)用中的模型構(gòu)建和優(yōu)化提供了明確的指導(dǎo),便于企業(yè)和開(kāi)發(fā)者快速將該技術(shù)集成到現(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)中,加速產(chǎn)品的迭代升級(jí),具有較高的可實(shí)施性。

23、4、本發(fā)明的技術(shù)方案具有顯著的技術(shù)優(yōu)勢(shì)、優(yōu)異的指標(biāo)表現(xiàn)和良好的實(shí)施可行性,在語(yǔ)音識(shí)別相關(guān)產(chǎn)業(yè),如智能語(yǔ)音助手、語(yǔ)音轉(zhuǎn)寫(xiě)、智能客服等領(lǐng)域具有廣闊的產(chǎn)業(yè)化應(yīng)用前景,具備極高的轉(zhuǎn)化價(jià)值。

24、以下將結(jié)合附圖對(duì)本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進(jìn)一步說(shuō)明,以充分地了解本發(fā)明的目的、特征和效果。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1