本發(fā)明涉及語音翻譯,具體涉及一種基于對比學習的端到端蒙漢語音翻譯方法、系統(tǒng)、存儲介質和電子設備。
背景技術:
1、語音翻譯技術旨在將源語言的語音直接翻譯成目標語言的文本,克服語言障礙,實現(xiàn)跨語言交流。傳統(tǒng)語音翻譯采用級聯(lián)方法,即先進行自動語音識別(automatic?speechrecognition,簡稱:asr),再通過機器翻譯(machine?translation,簡稱:mt)進行文本翻譯。然而,這種方法會因為錯誤傳播問題影響整體翻譯效果。
2、近年來,端到端語音翻譯(end-to-end?speech?translation,簡稱:e2e?st)逐漸成為研究熱點,其目標是通過一個統(tǒng)一的模型直接將源語言語音映射到目標語言文本,從而避免了錯誤傳播的問題?,F(xiàn)有的端到端語音翻譯技術雖然在部分語言對上取得了顯著進展,但在處理資源稀缺語言(如蒙古語到漢語)時仍面臨巨大挑戰(zhàn)。數(shù)據(jù)稀缺、跨模態(tài)特征空間的差異以及模型訓練的難度是主要障礙。
技術實現(xiàn)思路
1、(一)解決的技術問題
2、針對現(xiàn)有技術的不足,本發(fā)明提供了一種基于對比學習的端到端蒙漢語音翻譯方法、系統(tǒng)、存儲介質和電子設備,解決了現(xiàn)有的端到端語音翻譯技術如何處理資源稀缺語言的技術問題。
3、(二)技術方案
4、為實現(xiàn)以上目的,本發(fā)明通過以下技術方案予以實現(xiàn):
5、一種基于對比學習的端到端蒙漢語音翻譯方法,基于端到端蒙漢語音翻譯基線模型,模型包括語音編碼器、文本嵌入層、對比學習模塊以及transformer編解碼器;方法包括:
6、構建由一系列語音轉錄翻譯三元組構成蒙漢語音翻譯語料庫,得到并行的asr任務數(shù)據(jù)集、mt任務數(shù)據(jù)集以及st任務數(shù)據(jù)集;
7、引入預先獲取的mt并行數(shù)據(jù)集預訓練模型,并基于所述asr任務數(shù)據(jù)集、mt任務數(shù)據(jù)集以及st任務數(shù)據(jù)集,采用漸進式多任務策略交替執(zhí)行如下步驟:
8、采用所述mt并行數(shù)據(jù)集預訓練模型;
9、將所述asr任務數(shù)據(jù)中的蒙語語音作為所述語音編碼器的輸入,獲取第一音頻特征表示,并經(jīng)所述transformer編解碼器,生成第一單詞序列,構建asr損失以微調模型;
10、將所述mt任務數(shù)據(jù)集中的蒙語文本分別作為所述文本嵌入層的輸入,獲取相應的第一文本特征表示,并經(jīng)所述transformer編解碼器,生成第二單詞序列,構建mt損失以微調模型;
11、將所述st任務數(shù)據(jù)集中的蒙語語音作為所述語音編碼器的輸入,獲取第二音頻特征表示,并經(jīng)所述transformer編解碼器,生成第三單詞序列,構建st損失以微調模型;
12、設計融合對比學習損失的總損失,優(yōu)化模型直至收斂,包括如下步驟:
13、按照時間維度,對所述蒙漢語音翻譯語料庫的蒙語語音及其轉錄蒙語文本進行平均,以獲取第一正樣本對和第一負樣本對,并基于所述對比學習模塊構建第一對比學習損失;
14、按照時間維度,對所述蒙漢語音翻譯語料庫的蒙語語音及其翻譯漢語文本進行平均,以獲取第二正樣本對和第二負樣本對,并基于所述對比學習模塊構建第二對比學習損失;
15、基于所述asr損失、所述mt損失、所述st損失、所述第一對比學習損失以及所述第二對比學習損失,構建總損失函數(shù)并優(yōu)化模型直至收斂;
16、將待翻譯的蒙語語音作為收斂后的模型的輸入,獲取翻譯后的漢語單詞序列。
17、優(yōu)選的,在構建第一對比學習損失和第二對比學習損失之前,還包括:
18、對所述蒙漢語音翻譯語料庫的蒙語語音,采用跨度掩碼增強方法執(zhí)行音頻增強;
19、對所述蒙漢語音翻譯語料庫的蒙語文本,采用單詞重復方法執(zhí)行文本增強;
20、以及對所述蒙漢語音翻譯語料庫的蒙語語音,采用序列截止與特征截止方法分別執(zhí)行序列及特征維度增強。
21、優(yōu)選的,所述第一對比學習損失表示為:
22、
23、其中,i表示索引;n表示批量大小;log表示對比函數(shù);exp表示指數(shù)函數(shù);sim(·)表示相似度函數(shù);
24、si表示任一批次中的第i條蒙語語音或相應的增強語音,xi表示si的轉錄蒙語文本或相應的增強文本,(si,xi)為一個第一正樣本對;
25、sj為同一批次中除了si的第j條蒙語語音或相應的增強語音,xj表示sj的轉錄蒙語文本或相應的增強文本,(sj,xj)為一個第一負樣本對;
26、f(·)表示音頻特征表示提取函數(shù),f′(·)表示文本特征表示提取函數(shù);τ表示溫度參數(shù)。
27、優(yōu)選的,所述第二對比學習損失表示為:
28、
29、其中,yi表示si的翻譯漢語文本,(si,yi)為一個第二正樣本對,(sj,yj)為一個第二負樣本對。
30、優(yōu)選的,所述總損失函數(shù)表示為:
31、l=lasr+lst+lmt+λ1lcll1+λ2lcll2
32、其中,λ1、λ2分別表示加權對比損失項的調諧超參數(shù);lasr、lst、lmt分別表示asr損失、mt損失和st損失;且
33、
34、
35、
36、其中,條件概率p(a|b)是指事件a在另外一個事件b已經(jīng)發(fā)生條件下的發(fā)生概率;xn、yn、sn分別表示所在批次中第n條蒙語語音及其轉錄蒙文文本、翻譯漢語文本。
37、優(yōu)選的,采用adam優(yōu)化器最小化所述總損失函數(shù)進行模型參數(shù)更新。
38、一種基于對比學習的端到端蒙漢語音翻譯系統(tǒng),基于端到端蒙漢語音翻譯基線模型,模型包括語音編碼器、文本嵌入層、對比學習模塊以及transformer編解碼器;系統(tǒng)包括:
39、構建模塊,用于構建由一系列語音轉錄翻譯三元組構成蒙漢語音翻譯語料庫,得到并行的asr任務數(shù)據(jù)集、mt任務數(shù)據(jù)集以及st任務數(shù)據(jù)集;
40、微調模塊,用于引入預先獲取的mt并行數(shù)據(jù)集預訓練模型,并基于所述asr任務數(shù)據(jù)集、mt任務數(shù)據(jù)集以及st任務數(shù)據(jù)集,采用漸進式多任務策略交替執(zhí)行如下步驟:
41、采用所述mt并行數(shù)據(jù)集預訓練模型;
42、將所述asr任務數(shù)據(jù)中的蒙語語音作為所述語音編碼器的輸入,獲取第一音頻特征表示,并經(jīng)所述transformer編解碼器,生成第一單詞序列,構建asr損失以微調模型;
43、將所述mt任務數(shù)據(jù)集中的蒙語文本分別作為所述文本嵌入層的輸入,獲取相應的第一文本特征表示,并經(jīng)所述transformer編解碼器,生成第二單詞序列,構建mt損失以微調模型;
44、將所述st任務數(shù)據(jù)集中的蒙語語音作為所述語音編碼器的輸入,獲取第二音頻特征表示,并經(jīng)所述transformer編解碼器,生成第三單詞序列,構建st損失以微調模型;
45、優(yōu)化模塊,用于設計融合對比學習損失的總損失,優(yōu)化模型直至收斂,包括如下步驟:
46、按照時間維度,對所述蒙漢語音翻譯語料庫的蒙語語音及其轉錄蒙語文本進行平均,以獲取第一正樣本對和第一負樣本對,并基于所述對比學習模塊構建第一對比學習損失;
47、按照時間維度,對所述蒙漢語音翻譯語料庫的蒙語語音及其翻譯漢語文本進行平均,以獲取第二正樣本對和第二負樣本對,并基于所述對比學習模塊構建第二對比學習損失;
48、基于所述asr損失、所述mt損失、所述st損失、所述第一對比學習損失以及所述第二對比學習損失,構建總損失函數(shù)并優(yōu)化模型直至收斂;
49、翻譯模塊,用于將待翻譯的蒙語語音作為收斂后的模型的輸入,獲取翻譯后的漢語單詞序列。
50、一種存儲介質,其存儲有用于基于對比學習的端到端蒙漢語音翻譯的計算機程序,其中,所述計算機程序使得計算機執(zhí)行如上所述的端到端蒙漢語音翻譯方法。
51、一種電子設備,包括:
52、一個或多個處理器;存儲器;以及一個或多個程序,其中所述一個或多個程序被存儲在所述存儲器中,并且被配置成由所述一個或多個處理器執(zhí)行,所述程序包括用于執(zhí)行如上所述的端到端蒙漢語音翻譯方法。
53、(三)有益效果
54、本發(fā)明提供了一種基于對比學習的端到端蒙漢語音翻譯方法、系統(tǒng)、存儲介質和電子設備。與現(xiàn)有技術相比,具備以下有益效果:
55、1、采用漸進式多任務策略使模型能夠同時處理asr任務、mt任務和st任務等多個任務,通過聯(lián)合優(yōu)化這些任務,提高了模型在語音翻譯任務中的性能,多任務學習過程中,模型能夠從多個任務中獲取更豐富的語義和句法信息,有助于提高模型對語音和文本之間關系的理解能力,進而提高翻譯質量。此外,在多任務學習中,不同任務之間可以共享數(shù)據(jù)和參數(shù),使得模型能夠更好地利用數(shù)據(jù),減少了數(shù)據(jù)稀疏性帶來的問題,并且提高了模型的泛化能力。
56、2、使用對比學習方法可以減小模態(tài)之間的差距,有助于提高模型更好地捕捉語音特征,相較于直接端到端訓練可以提升翻譯效果。并且,在前者基礎上聯(lián)合使用外部的mt并行數(shù)據(jù)集進行訓練,使得模型能夠更全面地學習語音到文本的映射。