本發(fā)明涉及語音處理,尤其涉及一種基于知識(shí)蒸餾的文本轉(zhuǎn)語音方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、在醫(yī)療健康業(yè)務(wù)領(lǐng)域,tts技術(shù)正逐步應(yīng)用于智能醫(yī)療助手、遠(yuǎn)程醫(yī)療咨詢、電子病歷閱讀輔助等場(chǎng)景,以提升醫(yī)療服務(wù)的可及性和交互體驗(yàn)。然而,當(dāng)前的tts方案在醫(yī)療行業(yè)的應(yīng)用仍然存在多方面的局限性。醫(yī)療領(lǐng)域的語音合成需求通常涉及復(fù)雜的醫(yī)學(xué)術(shù)語、病歷內(nèi)容和患者咨詢記錄,而現(xiàn)有的tts模型在處理專業(yè)性強(qiáng)的醫(yī)療文本時(shí),往往無法準(zhǔn)確表達(dá)醫(yī)學(xué)術(shù)語,容易造成信息傳遞的誤解。此外,遠(yuǎn)程醫(yī)療和智能健康助手等應(yīng)用需要實(shí)時(shí)語音生成,以確保醫(yī)生與患者之間的流暢溝通。然而,由于現(xiàn)有tts模型的推理速度較慢,語音生成過程可能出現(xiàn)卡頓或延遲,影響醫(yī)療服務(wù)的效率。同時(shí),醫(yī)療行業(yè)中的設(shè)備多樣性較高,tts系統(tǒng)需要適應(yīng)醫(yī)院信息系統(tǒng)、移動(dòng)健康設(shè)備、語音交互終端等不同平臺(tái),而現(xiàn)有模型在設(shè)備適配性方面仍存在不足。由于醫(yī)療環(huán)境對(duì)語音質(zhì)量的要求較高,現(xiàn)有的tts方案在噪聲環(huán)境下的語音合成質(zhì)量可能下降,影響醫(yī)生和患者的有效溝通。此外,醫(yī)療行業(yè)對(duì)數(shù)據(jù)安全和隱私保護(hù)有嚴(yán)格要求,現(xiàn)有的tts方案大多依賴云端計(jì)算,而醫(yī)療數(shù)據(jù)涉及患者隱私,直接使用云端tts可能帶來數(shù)據(jù)安全風(fēng)險(xiǎn),限制了其在醫(yī)療場(chǎng)景中的推廣應(yīng)用。
2、在金融科技業(yè)務(wù)領(lǐng)域,tts技術(shù)被廣泛應(yīng)用于智能客服、語音播報(bào)、自動(dòng)交易提醒等交互場(chǎng)景,以提供高效的信息傳遞和用戶服務(wù)。然而,現(xiàn)有的tts方案在金融業(yè)務(wù)的應(yīng)用中仍然存在明顯的局限性。首先,許多金融服務(wù)場(chǎng)景需要實(shí)時(shí)響應(yīng),如智能語音客服系統(tǒng)、風(fēng)控預(yù)警播報(bào)等,而當(dāng)前的tts解決方案由于推理速度較慢,難以滿足高并發(fā)、低延遲的業(yè)務(wù)需求。此外,金融領(lǐng)域的語音交互系統(tǒng)往往涉及高度個(gè)性化的信息,如用戶的賬戶數(shù)據(jù)、交易詳情等,現(xiàn)有tts模型在語音生成過程中缺乏對(duì)業(yè)務(wù)專屬術(shù)語的自適應(yīng)優(yōu)化,導(dǎo)致語音輸出的專業(yè)性和準(zhǔn)確性不足。同時(shí),金融系統(tǒng)需要在不同平臺(tái)和設(shè)備上部署語音合成系統(tǒng),而當(dāng)前的tts模型在跨平臺(tái)適配性方面仍存在問題。例如,現(xiàn)有模型在服務(wù)器端能夠提供高質(zhì)量語音合成,但在移動(dòng)端、atm終端或其他嵌入式設(shè)備上運(yùn)行時(shí),由于計(jì)算資源受限,往往難以保持同等質(zhì)量的語音輸出。此外,金融行業(yè)對(duì)數(shù)據(jù)安全和隱私保護(hù)要求極高,傳統(tǒng)的tts方案通常依賴云端計(jì)算,這可能增加用戶數(shù)據(jù)泄露的風(fēng)險(xiǎn)。由于語音生成涉及敏感信息,當(dāng)前基于云端的tts方案難以完全滿足金融業(yè)務(wù)對(duì)隱私和合規(guī)性的嚴(yán)格要求。
3、在無障礙服務(wù)領(lǐng)域,文本轉(zhuǎn)語音(tts)技術(shù)被廣泛應(yīng)用于為視障人士、閱讀障礙人群和老年用戶提供語音輔助。然而,現(xiàn)有的tts系統(tǒng)在實(shí)際應(yīng)用中仍然面臨諸多挑戰(zhàn)。主流的tts解決方案,如google?tts、amazon?polly、microsoftazure?tts以及開源系統(tǒng)(如tacotron、fastspeech),盡管在語音合成質(zhì)量方面已達(dá)到較高水平,但在部署于資源受限設(shè)備或?qū)崟r(shí)交互場(chǎng)景時(shí)仍存在以下不足之處。首先,當(dāng)前高質(zhì)量tts模型通常依賴大規(guī)模神經(jīng)網(wǎng)絡(luò),參數(shù)量龐大,計(jì)算需求高,難以在移動(dòng)設(shè)備或嵌入式終端上高效運(yùn)行。這使得設(shè)備端的實(shí)時(shí)語音生成受到極大限制,難以滿足低功耗、高響應(yīng)速度的應(yīng)用需求。此外,許多端到端tts系統(tǒng)在推理過程中仍然依賴逐步解碼或復(fù)雜的后處理步驟,導(dǎo)致系統(tǒng)響應(yīng)速度較慢,無法提供足夠流暢的交互體驗(yàn)。對(duì)于需要即時(shí)反饋的語音輔助系統(tǒng)而言,這種延遲可能影響用戶體驗(yàn),甚至降低系統(tǒng)的可用性。同時(shí),現(xiàn)有tts模型通常針對(duì)大規(guī)模訓(xùn)練數(shù)據(jù)進(jìn)行優(yōu)化,但在適應(yīng)低資源環(huán)境時(shí)存在穩(wěn)定性不足的問題。當(dāng)部署至不同類型的終端設(shè)備或面臨復(fù)雜環(huán)境(如背景噪聲、設(shè)備計(jì)算能力差異)時(shí),合成語音的質(zhì)量可能下降,影響無障礙用戶的語音理解和信息獲取。此外,高性能tts系統(tǒng)的計(jì)算和存儲(chǔ)需求較高,不僅增加了云端計(jì)算的能耗和成本,也限制了大規(guī)模推廣的可行性,使得低成本、低功耗的無障礙應(yīng)用難以普及。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種基于知識(shí)蒸餾的文本轉(zhuǎn)語音方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),旨在解決現(xiàn)有文本轉(zhuǎn)語音技術(shù)模型龐大、適配性差且能耗高,難以在低資源環(huán)境下實(shí)現(xiàn)高效、低延遲的語音生成的技術(shù)問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于知識(shí)蒸餾的文本轉(zhuǎn)語音方法,包括:
3、對(duì)輸入文本進(jìn)行標(biāo)準(zhǔn)化處理,生成標(biāo)準(zhǔn)文本序列;
4、通過輕量化文本編碼器對(duì)所述標(biāo)準(zhǔn)文本序列進(jìn)行編碼,生成文本隱向量;
5、通過非自回歸聲學(xué)特征預(yù)測(cè)模塊將所述文本隱向量映射為學(xué)生聲學(xué)特征序列;
6、通過預(yù)訓(xùn)練的教師模型對(duì)所述標(biāo)準(zhǔn)文本序列進(jìn)行編碼和聲學(xué)特征預(yù)測(cè)處理,生成教師聲學(xué)特征序列;
7、通過知識(shí)蒸餾模塊確定所述學(xué)生聲學(xué)特征序列與所述教師聲學(xué)特征序列之間的對(duì)齊損失;
8、根據(jù)所述對(duì)齊損失對(duì)所述輕量化文本編碼器和所述非自回歸聲學(xué)特征預(yù)測(cè)模塊進(jìn)行結(jié)構(gòu)化剪枝處理;
9、對(duì)剪枝處理后的輕量化文本編碼器和非自回歸聲學(xué)特征預(yù)測(cè)模塊進(jìn)行參數(shù)量化處理;
10、通過參數(shù)量化處理后的輕量化文本編碼器對(duì)所述標(biāo)準(zhǔn)文本序列進(jìn)行編碼,生成壓縮文本隱向量;
11、通過參數(shù)量化處理后的非自回歸聲學(xué)特征預(yù)測(cè)模塊將所述壓縮文本隱向量映射為優(yōu)化聲學(xué)特征序列;
12、通過聲碼器將所述優(yōu)化聲學(xué)特征序列轉(zhuǎn)換為語音波形。
13、進(jìn)一步地,為實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于知識(shí)蒸餾的文本轉(zhuǎn)語音裝置,包括:
14、文本預(yù)處理模塊,用于對(duì)輸入文本進(jìn)行標(biāo)準(zhǔn)化處理,生成標(biāo)準(zhǔn)文本序列;
15、輕量化文本編碼模塊,用于通過輕量化文本編碼器對(duì)所述標(biāo)準(zhǔn)文本序列進(jìn)行編碼,生成文本隱向量;
16、非自回歸聲學(xué)特征預(yù)測(cè)模塊,用于通過非自回歸聲學(xué)特征預(yù)測(cè)模塊將所述文本隱向量映射為學(xué)生聲學(xué)特征序列;
17、教師模型模塊,用于通過預(yù)訓(xùn)練的教師模型對(duì)所述標(biāo)準(zhǔn)文本序列進(jìn)行編碼和聲學(xué)特征預(yù)測(cè)處理,生成教師聲學(xué)特征序列;
18、知識(shí)蒸餾模塊,用于通過知識(shí)蒸餾模塊確定所述學(xué)生聲學(xué)特征序列與所述教師聲學(xué)特征序列之間的對(duì)齊損失;
19、結(jié)構(gòu)化剪枝模塊,用于根據(jù)所述對(duì)齊損失對(duì)所述輕量化文本編碼器和所述非自回歸聲學(xué)特征預(yù)測(cè)模塊進(jìn)行結(jié)構(gòu)化剪枝處理;
20、參數(shù)量化模塊,用于對(duì)剪枝處理后的輕量化文本編碼器和非自回歸聲學(xué)特征預(yù)測(cè)模塊進(jìn)行參數(shù)量化處理;
21、量化后的輕量化文本編碼模塊,用于通過參數(shù)量化處理后的輕量化文本編碼器對(duì)所述標(biāo)準(zhǔn)文本序列進(jìn)行編碼,生成壓縮文本隱向量;
22、量化后的非自回歸聲學(xué)特征預(yù)測(cè)模塊,用于通過參數(shù)量化處理后的非自回歸聲學(xué)特征預(yù)測(cè)模塊將所述壓縮文本隱向量映射為優(yōu)化聲學(xué)特征序列;
23、聲碼器模塊,用于通過聲碼器將所述優(yōu)化聲學(xué)特征序列轉(zhuǎn)換為語音波形。
24、進(jìn)一步地,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器、處理器以及存儲(chǔ)至所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的基于知識(shí)蒸餾的文本轉(zhuǎn)語音程序,所述基于知識(shí)蒸餾的文本轉(zhuǎn)語音程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述所述的基于知識(shí)蒸餾的文本轉(zhuǎn)語音方法的步驟。
25、進(jìn)一步地,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)上存儲(chǔ)有基于知識(shí)蒸餾的文本轉(zhuǎn)語音程序,所述基于知識(shí)蒸餾的文本轉(zhuǎn)語音程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的基于知識(shí)蒸餾的文本轉(zhuǎn)語音方法的步驟。
26、有益效果:本發(fā)明涉及語音處理技術(shù)領(lǐng)域,可應(yīng)用于醫(yī)療健康、金融科技及無障礙服務(wù)領(lǐng)域等業(yè)務(wù)場(chǎng)景中,公開了一種基于知識(shí)蒸餾的文本轉(zhuǎn)語音方法,包括:對(duì)輸入文本進(jìn)行標(biāo)準(zhǔn)化處理,生成標(biāo)準(zhǔn)文本序列;通過輕量化文本編碼器對(duì)標(biāo)準(zhǔn)文本序列進(jìn)行編碼,生成文本隱向量;通過非自回歸聲學(xué)特征預(yù)測(cè)模塊將文本隱向量映射為學(xué)生聲學(xué)特征序列;預(yù)訓(xùn)練的教師模型對(duì)標(biāo)準(zhǔn)文本序列進(jìn)行編碼和聲學(xué)特征預(yù)測(cè)處理,生成教師聲學(xué)特征序列;知識(shí)蒸餾模塊確定學(xué)生聲學(xué)特征序列與教師聲學(xué)特征序列之間的對(duì)齊損失;根據(jù)對(duì)齊損失對(duì)輕量化文本編碼器和非自回歸聲學(xué)特征預(yù)測(cè)模塊進(jìn)行結(jié)構(gòu)化剪枝處理;對(duì)剪枝處理后的輕量化文本編碼器和非自回歸聲學(xué)特征預(yù)測(cè)模塊進(jìn)行參數(shù)量化處理;參數(shù)量化處理后的輕量化文本編碼器對(duì)標(biāo)準(zhǔn)文本序列進(jìn)行編碼,生成壓縮文本隱向量;參數(shù)量化處理后的非自回歸聲學(xué)特征預(yù)測(cè)模塊將壓縮文本隱向量映射為優(yōu)化聲學(xué)特征序列;聲碼器將優(yōu)化聲學(xué)特征序列轉(zhuǎn)換為語音波形。本發(fā)明通過知識(shí)蒸餾、結(jié)構(gòu)化剪枝和參數(shù)量化,在保持語音生成質(zhì)量的同時(shí),有效減少模型體積和計(jì)算開銷。通過非自回歸聲學(xué)特征預(yù)測(cè)提高推理速度,降低語音生成延遲。優(yōu)化的輕量化文本編碼器和輕量化聲碼器提升跨設(shè)備適配性,使得tts系統(tǒng)能夠在資源受限環(huán)境下實(shí)現(xiàn)高效、低功耗、實(shí)時(shí)語音合成,滿足無障礙服務(wù)、金融科技、醫(yī)療健康等領(lǐng)域?qū)Φ脱舆t、高質(zhì)量語音輸出的需求。