實(shí)時(shí)語音的變音方法、終端設(shè)備和存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：42226498發(fā)布日期：2025-06-20 19:14閱讀：18來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明屬于音頻處理領(lǐng)域，尤其涉及一種實(shí)時(shí)語音的變音方法、終端設(shè)備和存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、隨著科技的發(fā)展，互聯(lián)網(wǎng)用戶日益增多，通過市場(chǎng)調(diào)研以及近一年以來的用戶反饋，可以知道人們對(duì)變聲是有強(qiáng)烈需求的，市場(chǎng)也是非常可觀的，因此變聲的質(zhì)量對(duì)我們而言就是極其重要的。

2、傳統(tǒng)實(shí)時(shí)語音變聲技術(shù)通常根據(jù)單一模型提取語音特征，該方式對(duì)說話人音色特征的嵌入處理較為粗糙，難以實(shí)現(xiàn)靈活的音色轉(zhuǎn)換、多樣性擴(kuò)展，缺乏對(duì)張量信息的優(yōu)化處理，進(jìn)而導(dǎo)致實(shí)時(shí)語音的變音真實(shí)性差。需要一種新的技術(shù)手段解決上述技術(shù)問題。

技術(shù)實(shí)現(xiàn)思路

1、鑒于此，本發(fā)明實(shí)施例提供一種實(shí)時(shí)語音的變音方法、終端設(shè)備和存儲(chǔ)介質(zhì)，可以解決相關(guān)技術(shù)中實(shí)時(shí)語音的變音真實(shí)性差的問題。

2、本發(fā)明第一方面提供了一種實(shí)時(shí)語音的變音方法，包括：

3、根據(jù)實(shí)時(shí)對(duì)話音頻，生成原始語音數(shù)據(jù)，并根據(jù)原始語音數(shù)據(jù)，確定條件特征、多樣性特征、填充數(shù)據(jù)掩碼；

4、根據(jù)所述條件特征、多樣性特征、填充數(shù)據(jù)掩碼，確定第一張量信息，并根據(jù)所述原始語音數(shù)據(jù)，確定說話人嵌入向量；

5、根據(jù)所述第一張量信息、所述說話人嵌入向量、所述填充數(shù)據(jù)掩碼，確定第二張量信息；

6、根據(jù)所述第二張量信息、所述說話人嵌入向量和所述原始語音數(shù)據(jù)的音高頻率，生成目標(biāo)音色音頻。

7、可選的，在本發(fā)明第一方面的第一種實(shí)現(xiàn)方式中，所述根據(jù)所述條件特征、多樣性特征、填充數(shù)據(jù)掩碼，確定第一張量信息，并根據(jù)所述原始語音數(shù)據(jù)，確定說話人嵌入向量的步驟包括：

8、將所述條件特征與所述多樣性特征進(jìn)行特征融合，生成中間張量；

9、對(duì)所述中間張量施加所述填充數(shù)據(jù)掩碼的遮蔽操作，得到所述第一張量信息；

10、通過預(yù)訓(xùn)練的說話人嵌入層對(duì)所述原始語音數(shù)據(jù)進(jìn)行映射，得到128維的所述說話人嵌入向量。

11、可選的，在本發(fā)明第一方面的第二種實(shí)現(xiàn)方式中，所述根據(jù)所述第一張量信息、所述說話人嵌入向量、所述填充數(shù)據(jù)掩碼，確定第二張量信息的步驟包括：

12、將所述第一張量信息與所述說話人嵌入向量進(jìn)行交叉注意力計(jì)算，生成融合特征；

13、對(duì)所述融合特征施加填充數(shù)據(jù)掩碼的時(shí)序?qū)R操作，得到對(duì)齊特征；

14、通過流式解碼器對(duì)所述對(duì)齊特征進(jìn)行上采樣，得到所述第二張量信息。

15、可選的，在本發(fā)明第一方面的第三種實(shí)現(xiàn)方式中，所述根據(jù)所述第二張量信息、所述說話人嵌入向量和所述原始語音數(shù)據(jù)的音高頻率，生成目標(biāo)音色音頻的步驟包括：

16、將所述第二張量信息與所述原始語音數(shù)據(jù)的音高頻率進(jìn)行相位對(duì)齊，得到對(duì)齊后的頻譜特征；

17、將所述頻譜特征與所述說話人嵌入向量輸入hifi-gan聲碼器，得到目標(biāo)音色的波形數(shù)據(jù)；

18、根據(jù)所述波形數(shù)據(jù)，生成所述目標(biāo)音色音頻。

19、可選的，在本發(fā)明第一方面的第四種實(shí)現(xiàn)方式中，所述根據(jù)所述波形數(shù)據(jù)，生成所述目標(biāo)音色音頻的步驟包括：

20、根據(jù)所述波形數(shù)據(jù)，生成中間音頻；

21、根據(jù)sola算法對(duì)所述中間音頻執(zhí)行，音頻時(shí)間對(duì)齊與音頻拼接，得到所述目標(biāo)音色音頻。

22、可選的，在本發(fā)明第一方面的第五種實(shí)現(xiàn)方式中，所述根據(jù)sola算法對(duì)所述中間音頻執(zhí)行，音頻時(shí)間對(duì)齊與音頻拼接，得到所述目標(biāo)音色音頻的步驟包括：

23、分割所述中間音頻，得到音頻片段集。

24、使用一維卷積神經(jīng)網(wǎng)絡(luò)，對(duì)所述音頻片段集進(jìn)行卷積，得到目標(biāo)音色音頻片段集；

25、調(diào)用所述sola算法尋找所述目標(biāo)音色音頻片段集的最佳對(duì)齊點(diǎn)，并根據(jù)所述最佳對(duì)齊點(diǎn)拼接所述目標(biāo)音色音頻片段集，得到所述目標(biāo)音色音頻。

26、可選的，在本發(fā)明第一方面的第六種實(shí)現(xiàn)方式中，所述根據(jù)原始語音數(shù)據(jù)，確定條件特征、多樣性特征、填充數(shù)據(jù)掩碼的步驟包括：

27、根據(jù)原始語音數(shù)據(jù)，確定語音特征和音高信息；

28、根據(jù)所述語音特征所述音高信息和textencoder模型，確定所述條件特征、所述多樣性特征、所述填充數(shù)據(jù)掩碼。

29、可選的，在本發(fā)明第一方面的第七種實(shí)現(xiàn)方式中，所述根據(jù)實(shí)時(shí)對(duì)話音頻，生成原始語音數(shù)據(jù)的步驟還包括：

30、對(duì)實(shí)時(shí)對(duì)話音頻進(jìn)行降噪處理，得到所述原始語音數(shù)據(jù)。

31、第二方面，本發(fā)明實(shí)施例提供了一種終端設(shè)備，包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中并可在處理器上運(yùn)行的計(jì)算機(jī)程序，處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述實(shí)時(shí)語音的變音方法的步驟。

32、第三方面，本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述實(shí)時(shí)語音的變音方法的步驟。

33、第四方面，本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品，當(dāng)計(jì)算機(jī)程序產(chǎn)品在終端設(shè)備上運(yùn)行時(shí)，使得終端設(shè)備執(zhí)行上述實(shí)時(shí)語音的變音方法。

34、本發(fā)明實(shí)施例與現(xiàn)有技術(shù)相比的有益效果是：通過條件特征與多樣性特征的協(xié)同提取機(jī)制，實(shí)現(xiàn)了對(duì)語音內(nèi)容與音色屬性的解耦表征，使得說話人嵌入向量能夠精準(zhǔn)表征目標(biāo)音色的核心特征；根據(jù)填充數(shù)據(jù)掩碼對(duì)張量信息進(jìn)行動(dòng)態(tài)遮蔽，在保證特征完整性的同時(shí)消除了無效數(shù)據(jù)干擾；通過音高頻率與張量信息的深度融合處理，在頻域特征層面實(shí)現(xiàn)了音調(diào)轉(zhuǎn)換與音色保持的動(dòng)態(tài)平衡。上述步驟的協(xié)同，顯著提升了變聲過程對(duì)原始音色特征的重構(gòu)精度，使生成語音在音色相似度、語調(diào)自然度等感知維度達(dá)到類真人水平，提高了實(shí)時(shí)語音的變音真實(shí)性。

技術(shù)特征：

1.一種實(shí)時(shí)語音的變音方法，其特征在于，包括：

2.如權(quán)利要求1所述的實(shí)時(shí)語音的變音方法，其特征在于，所述根據(jù)所述條件特征、多樣性特征、填充數(shù)據(jù)掩碼，確定第一張量信息，并根據(jù)所述原始語音數(shù)據(jù)，確定說話人嵌入向量的步驟包括：

3.如權(quán)利要求1所述的實(shí)時(shí)語音的變音方法，其特征在于，所述根據(jù)所述第一張量信息、所述說話人嵌入向量、所述填充數(shù)據(jù)掩碼，確定第二張量信息的步驟包括：

4.如權(quán)利要求1所述的實(shí)時(shí)語音的變音方法，其特征在于，所述根據(jù)所述第二張量信息、所述說話人嵌入向量和所述原始語音數(shù)據(jù)的音高頻率，生成目標(biāo)音色音頻的步驟包括：

5.如權(quán)利要求4所述的實(shí)時(shí)語音的變音方法，其特征在于，所述根據(jù)所述波形數(shù)據(jù)，生成所述目標(biāo)音色音頻的步驟包括：

6.如權(quán)利要求5所述的實(shí)時(shí)語音的變音方法，其特征在于，所述根據(jù)sola算法對(duì)所述中間音頻執(zhí)行，音頻時(shí)間對(duì)齊與音頻拼接，得到所述目標(biāo)音色音頻的步驟包括：

7.如權(quán)利要求1所述的實(shí)時(shí)語音的變音方法，其特征在于，所述根據(jù)原始語音數(shù)據(jù)，確定條件特征、多樣性特征、填充數(shù)據(jù)掩碼的步驟包括：

8.如權(quán)利要求7所述的實(shí)時(shí)語音的變音方法，其特征在于，所述根據(jù)實(shí)時(shí)對(duì)話音頻，生成原始語音數(shù)據(jù)的步驟還包括：

9.一種終端設(shè)備，其特征在于，包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述實(shí)時(shí)語音的變音方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述實(shí)時(shí)語音的變音方法的步驟。

技術(shù)總結(jié)
本發(fā)明適用于音頻處理領(lǐng)域，公開了一種實(shí)時(shí)語音的變音方法、終端設(shè)備和存儲(chǔ)介質(zhì)。實(shí)時(shí)語音的變音方法包括：根據(jù)實(shí)時(shí)對(duì)話音頻，生成原始語音數(shù)據(jù)，并根據(jù)原始語音數(shù)據(jù)，確定條件特征、多樣性特征、填充數(shù)據(jù)掩碼；根據(jù)條件特征、多樣性特征、填充數(shù)據(jù)掩碼，確定第一張量信息，并根據(jù)原始語音數(shù)據(jù)，確定說話人嵌入向量；根據(jù)第一張量信息、說話人嵌入向量、填充數(shù)據(jù)掩碼，確定第二張量信息；根據(jù)第二張量信息、說話人嵌入向量和原始語音數(shù)據(jù)的音高頻率，生成目標(biāo)音色音頻。本發(fā)明顯著提升了變聲過程對(duì)原始音色特征的重構(gòu)精度，使生成語音在音色相似度、語調(diào)自然度等感知維度達(dá)到類真人水平，提高了實(shí)時(shí)語音的變音真實(shí)性。

技術(shù)研發(fā)人員：許明義,陳子文
受保護(hù)的技術(shù)使用者：深圳麥風(fēng)科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/6/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許明義,陳子文
技術(shù)所有人：深圳麥風(fēng)科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

殴美成人在线视频,亚州中文字幕,日韩精品视频大全,99久久亚洲精品,aa国产视频一区二区,天天爱夜夜,日韩夜精品精品免费观看

實(shí)時(shí)語音的變音方法、終端設(shè)備和存儲(chǔ)介質(zhì)與流程

實(shí)時(shí)語音的變音方法、終端設(shè)備和存儲(chǔ)介質(zhì)與流程