本發(fā)明屬于音頻處理領(lǐng)域,尤其涉及一種實(shí)時(shí)語音的變音方法、終端設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著科技的發(fā)展,互聯(lián)網(wǎng)用戶日益增多,通過市場(chǎng)調(diào)研以及近一年以來的用戶反饋,可以知道人們對(duì)變聲是有強(qiáng)烈需求的,市場(chǎng)也是非常可觀的,因此變聲的質(zhì)量對(duì)我們而言就是極其重要的。
2、傳統(tǒng)實(shí)時(shí)語音變聲技術(shù)通常根據(jù)單一模型提取語音特征,該方式對(duì)說話人音色特征的嵌入處理較為粗糙,難以實(shí)現(xiàn)靈活的音色轉(zhuǎn)換、多樣性擴(kuò)展,缺乏對(duì)張量信息的優(yōu)化處理,進(jìn)而導(dǎo)致實(shí)時(shí)語音的變音真實(shí)性差。需要一種新的技術(shù)手段解決上述技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、鑒于此,本發(fā)明實(shí)施例提供一種實(shí)時(shí)語音的變音方法、終端設(shè)備和存儲(chǔ)介質(zhì),可以解決相關(guān)技術(shù)中實(shí)時(shí)語音的變音真實(shí)性差的問題。
2、本發(fā)明第一方面提供了一種實(shí)時(shí)語音的變音方法,包括:
3、根據(jù)實(shí)時(shí)對(duì)話音頻,生成原始語音數(shù)據(jù),并根據(jù)原始語音數(shù)據(jù),確定條件特征、多樣性特征、填充數(shù)據(jù)掩碼;
4、根據(jù)所述條件特征、多樣性特征、填充數(shù)據(jù)掩碼,確定第一張量信息,并根據(jù)所述原始語音數(shù)據(jù),確定說話人嵌入向量;
5、根據(jù)所述第一張量信息、所述說話人嵌入向量、所述填充數(shù)據(jù)掩碼,確定第二張量信息;
6、根據(jù)所述第二張量信息、所述說話人嵌入向量和所述原始語音數(shù)據(jù)的音高頻率,生成目標(biāo)音色音頻。
7、可選的,在本發(fā)明第一方面的第一種實(shí)現(xiàn)方式中,所述根據(jù)所述條件特征、多樣性特征、填充數(shù)據(jù)掩碼,確定第一張量信息,并根據(jù)所述原始語音數(shù)據(jù),確定說話人嵌入向量的步驟包括:
8、將所述條件特征與所述多樣性特征進(jìn)行特征融合,生成中間張量;
9、對(duì)所述中間張量施加所述填充數(shù)據(jù)掩碼的遮蔽操作,得到所述第一張量信息;
10、通過預(yù)訓(xùn)練的說話人嵌入層對(duì)所述原始語音數(shù)據(jù)進(jìn)行映射,得到128維的所述說話人嵌入向量。
11、可選的,在本發(fā)明第一方面的第二種實(shí)現(xiàn)方式中,所述根據(jù)所述第一張量信息、所述說話人嵌入向量、所述填充數(shù)據(jù)掩碼,確定第二張量信息的步驟包括:
12、將所述第一張量信息與所述說話人嵌入向量進(jìn)行交叉注意力計(jì)算,生成融合特征;
13、對(duì)所述融合特征施加填充數(shù)據(jù)掩碼的時(shí)序?qū)R操作,得到對(duì)齊特征;
14、通過流式解碼器對(duì)所述對(duì)齊特征進(jìn)行上采樣,得到所述第二張量信息。
15、可選的,在本發(fā)明第一方面的第三種實(shí)現(xiàn)方式中,所述根據(jù)所述第二張量信息、所述說話人嵌入向量和所述原始語音數(shù)據(jù)的音高頻率,生成目標(biāo)音色音頻的步驟包括:
16、將所述第二張量信息與所述原始語音數(shù)據(jù)的音高頻率進(jìn)行相位對(duì)齊,得到對(duì)齊后的頻譜特征;
17、將所述頻譜特征與所述說話人嵌入向量輸入hifi-gan聲碼器,得到目標(biāo)音色的波形數(shù)據(jù);
18、根據(jù)所述波形數(shù)據(jù),生成所述目標(biāo)音色音頻。
19、可選的,在本發(fā)明第一方面的第四種實(shí)現(xiàn)方式中,所述根據(jù)所述波形數(shù)據(jù),生成所述目標(biāo)音色音頻的步驟包括:
20、根據(jù)所述波形數(shù)據(jù),生成中間音頻;
21、根據(jù)sola算法對(duì)所述中間音頻執(zhí)行,音頻時(shí)間對(duì)齊與音頻拼接,得到所述目標(biāo)音色音頻。
22、可選的,在本發(fā)明第一方面的第五種實(shí)現(xiàn)方式中,所述根據(jù)sola算法對(duì)所述中間音頻執(zhí)行,音頻時(shí)間對(duì)齊與音頻拼接,得到所述目標(biāo)音色音頻的步驟包括:
23、分割所述中間音頻,得到音頻片段集。
24、使用一維卷積神經(jīng)網(wǎng)絡(luò),對(duì)所述音頻片段集進(jìn)行卷積,得到目標(biāo)音色音頻片段集;
25、調(diào)用所述sola算法尋找所述目標(biāo)音色音頻片段集的最佳對(duì)齊點(diǎn),并根據(jù)所述最佳對(duì)齊點(diǎn)拼接所述目標(biāo)音色音頻片段集,得到所述目標(biāo)音色音頻。
26、可選的,在本發(fā)明第一方面的第六種實(shí)現(xiàn)方式中,所述根據(jù)原始語音數(shù)據(jù),確定條件特征、多樣性特征、填充數(shù)據(jù)掩碼的步驟包括:
27、根據(jù)原始語音數(shù)據(jù),確定語音特征和音高信息;
28、根據(jù)所述語音特征所述音高信息和textencoder模型,確定所述條件特征、所述多樣性特征、所述填充數(shù)據(jù)掩碼。
29、可選的,在本發(fā)明第一方面的第七種實(shí)現(xiàn)方式中,所述根據(jù)實(shí)時(shí)對(duì)話音頻,生成原始語音數(shù)據(jù)的步驟還包括:
30、對(duì)實(shí)時(shí)對(duì)話音頻進(jìn)行降噪處理,得到所述原始語音數(shù)據(jù)。
31、第二方面,本發(fā)明實(shí)施例提供了一種終端設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述實(shí)時(shí)語音的變音方法的步驟。
32、第三方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述實(shí)時(shí)語音的變音方法的步驟。
33、第四方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)計(jì)算機(jī)程序產(chǎn)品在終端設(shè)備上運(yùn)行時(shí),使得終端設(shè)備執(zhí)行上述實(shí)時(shí)語音的變音方法。
34、本發(fā)明實(shí)施例與現(xiàn)有技術(shù)相比的有益效果是:通過條件特征與多樣性特征的協(xié)同提取機(jī)制,實(shí)現(xiàn)了對(duì)語音內(nèi)容與音色屬性的解耦表征,使得說話人嵌入向量能夠精準(zhǔn)表征目標(biāo)音色的核心特征;根據(jù)填充數(shù)據(jù)掩碼對(duì)張量信息進(jìn)行動(dòng)態(tài)遮蔽,在保證特征完整性的同時(shí)消除了無效數(shù)據(jù)干擾;通過音高頻率與張量信息的深度融合處理,在頻域特征層面實(shí)現(xiàn)了音調(diào)轉(zhuǎn)換與音色保持的動(dòng)態(tài)平衡。上述步驟的協(xié)同,顯著提升了變聲過程對(duì)原始音色特征的重構(gòu)精度,使生成語音在音色相似度、語調(diào)自然度等感知維度達(dá)到類真人水平,提高了實(shí)時(shí)語音的變音真實(shí)性。
1.一種實(shí)時(shí)語音的變音方法,其特征在于,包括:
2.如權(quán)利要求1所述的實(shí)時(shí)語音的變音方法,其特征在于,所述根據(jù)所述條件特征、多樣性特征、填充數(shù)據(jù)掩碼,確定第一張量信息,并根據(jù)所述原始語音數(shù)據(jù),確定說話人嵌入向量的步驟包括:
3.如權(quán)利要求1所述的實(shí)時(shí)語音的變音方法,其特征在于,所述根據(jù)所述第一張量信息、所述說話人嵌入向量、所述填充數(shù)據(jù)掩碼,確定第二張量信息的步驟包括:
4.如權(quán)利要求1所述的實(shí)時(shí)語音的變音方法,其特征在于,所述根據(jù)所述第二張量信息、所述說話人嵌入向量和所述原始語音數(shù)據(jù)的音高頻率,生成目標(biāo)音色音頻的步驟包括:
5.如權(quán)利要求4所述的實(shí)時(shí)語音的變音方法,其特征在于,所述根據(jù)所述波形數(shù)據(jù),生成所述目標(biāo)音色音頻的步驟包括:
6.如權(quán)利要求5所述的實(shí)時(shí)語音的變音方法,其特征在于,所述根據(jù)sola算法對(duì)所述中間音頻執(zhí)行,音頻時(shí)間對(duì)齊與音頻拼接,得到所述目標(biāo)音色音頻的步驟包括:
7.如權(quán)利要求1所述的實(shí)時(shí)語音的變音方法,其特征在于,所述根據(jù)原始語音數(shù)據(jù),確定條件特征、多樣性特征、填充數(shù)據(jù)掩碼的步驟包括:
8.如權(quán)利要求7所述的實(shí)時(shí)語音的變音方法,其特征在于,所述根據(jù)實(shí)時(shí)對(duì)話音頻,生成原始語音數(shù)據(jù)的步驟還包括:
9.一種終端設(shè)備,其特征在于,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述實(shí)時(shí)語音的變音方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述實(shí)時(shí)語音的變音方法的步驟。