殴美成人在线视频,亚州中文字幕,日韩精品视频大全,99久久亚洲精品,aa国产视频一区二区,天天爱夜夜,日韩夜精品精品免费观看

基于韻律的語音轉(zhuǎn)換方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號:42229731發(fā)布日期:2025-06-20 19:21閱讀:18來源:國知局

本發(fā)明涉及語音轉(zhuǎn)換的,可應(yīng)用于金融等領(lǐng)域,尤其涉及一種基于韻律的語音轉(zhuǎn)換方法、裝置、設(shè)備及介質(zhì)。


背景技術(shù):

1、隨著科技進步,語音轉(zhuǎn)換技術(shù)成為音頻處理領(lǐng)域的新寵。其核心在于變換說話人身份,同時保持語音內(nèi)容完整準確。這項技術(shù)不僅在虛擬現(xiàn)實等領(lǐng)域大放光芒,也為金融行業(yè),尤其保險客服帶來新機遇。在保險客服工作中,語音轉(zhuǎn)換技術(shù)增加了服務(wù)的靈活性和高效性,能模擬不同客服聲音,提供個性化服務(wù)。但是現(xiàn)有技術(shù)中的語音轉(zhuǎn)換技術(shù)雖然可以實現(xiàn)句子級特征轉(zhuǎn)換,但幀級韻律調(diào)控仍是挑戰(zhàn),導(dǎo)致現(xiàn)有技術(shù)無法有效將語音進行幀級韻律的轉(zhuǎn)換。


技術(shù)實現(xiàn)思路

1、本發(fā)明實施例提供了一種基于韻律的語音轉(zhuǎn)換方法、裝置、設(shè)備及介質(zhì),旨在解決現(xiàn)有技術(shù)無法有效將語音進行幀級韻律的轉(zhuǎn)換的問題。

2、第一方面,本發(fā)明實施例提供了一種基于韻律的語音轉(zhuǎn)換方法,其包括:接收用戶輸入的源語音與所選擇的目標語音,通過預(yù)設(shè)特征提取方法分別從所述源語音與所述目標語音中提取幀級的韻律特征;將所述源語音與所述目標語音以及對應(yīng)的所述韻律特征通過編碼器與轉(zhuǎn)換器進行特征處理,獲取待輸入特征;將用戶調(diào)整后的待輸入特征輸入至預(yù)設(shè)解碼器模型中獲取語音頻譜圖;將所述語音頻譜圖通過聲碼器合成為目標語音波形,根據(jù)所述目標語音波形獲取轉(zhuǎn)換后的源語音。

3、第二方面,本發(fā)明實施例還提供了一種基于韻律的語音轉(zhuǎn)換裝置,其包括:提取單元,用于接收用戶輸入的源語音與所選擇的目標語音,通過預(yù)設(shè)特征提取方法分別從所述源語音與所述目標語音中提取幀級的韻律特征;編碼單元,用于將所述源語音與所述目標語音以及對應(yīng)的所述韻律特征通過編碼器與轉(zhuǎn)換器進行特征處理,獲取待輸入特征;輸入單元,用于將用戶調(diào)整后的待輸入特征輸入至預(yù)設(shè)解碼器模型中獲取語音頻譜圖;合成單元,用于將所述語音頻譜圖通過聲碼器合成為目標語音波形,根據(jù)所述目標語音波形獲取轉(zhuǎn)換后的源語音。

4、第三方面,本發(fā)明實施例還提供了一種計算機設(shè)備,其包括存儲器及處理器,所述存儲器上存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述方法。

5、第四方面,本發(fā)明實施例還提供了一種計算機可讀存儲介質(zhì),所述存儲介質(zhì)存儲有計算機程序,所述計算機程序包括程序指令,所述程序指令當(dāng)被處理器執(zhí)行時可實現(xiàn)上述方法。

6、本發(fā)明實施例提供了一種基于韻律的語音轉(zhuǎn)換方法、裝置、設(shè)備及介質(zhì)。其中,所述方法包括:接收用戶輸入的源語音與所選擇的目標語音,通過預(yù)設(shè)特征提取方法分別從所述源語音與所述目標語音中提取幀級的韻律特征;將所述源語音與所述目標語音以及對應(yīng)的所述韻律特征通過編碼器與轉(zhuǎn)換器進行特征處理,獲取待輸入特征;將用戶調(diào)整后的待輸入特征輸入至預(yù)設(shè)解碼器模型中獲取語音頻譜圖;將所述語音頻譜圖通過聲碼器合成為目標語音波形,根據(jù)所述目標語音波形獲取轉(zhuǎn)換后的源語音。本發(fā)明實施例通過從用戶所確定的源語音與目標語音中提取幀級的韻律特征,以便于完成對幀級韻律的調(diào)控。將語音與幀級的韻律特征進特征提取與轉(zhuǎn)換,使其能夠更好的輸入至預(yù)設(shè)解碼器模型中,并且通過訓(xùn)練過的解碼器模型根據(jù)幀級韻律特征生成語音頻譜圖,將語音頻譜圖進行調(diào)整后合成為目標語音波形,即根據(jù)目標語音波形將源語音的轉(zhuǎn)換為目標語音。通過根據(jù)幀級的韻律特征進行語音轉(zhuǎn)換,以更好的控制語句中的音調(diào)、能量和語速等韻律,實現(xiàn)了語音轉(zhuǎn)換時韻律的精細控制,使得現(xiàn)有技術(shù)中可以有效的將語音進行幀級韻律的轉(zhuǎn)換。



技術(shù)特征:

1.一種基于韻律的語音轉(zhuǎn)換方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述韻律特征中包括基頻、能量特征和語速特征,所述通過預(yù)設(shè)特征提取方法分別從所述源語音與所述目標語音中提取幀級的韻律特征的步驟,包括:

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述待輸入特征包括內(nèi)容信息與說話人向量,將所述源語音與所述目標語音通過編碼器進行特征處理,獲取待輸入特征的步驟,包括:

4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述待輸入特征包括目標韻律特征,將所述源語音與所述目標語音對應(yīng)的所述韻律特征通過編碼與韻律轉(zhuǎn)換處理,獲取獲取待輸入特征的步驟,包括:

5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述通過全局韻律轉(zhuǎn)換器將所述源語音的幀級韻律特征轉(zhuǎn)換為所述目標語音的幀級韻律特征,獲取所述目標韻律特征的步驟,包括:

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將用戶調(diào)整后的待輸入特征輸入至預(yù)設(shè)解碼器模型中獲取語音頻譜圖的步驟之前,包括:

7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述語音頻譜圖通過聲碼器合成為目標語音波形的步驟之前,還包括:

8.一種基于韻律的語音轉(zhuǎn)換裝置,其特征在于,包括:

9.一種計算機設(shè)備,其特征在于,所述計算機設(shè)備包括存儲器及處理器,所述存儲器上存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1-7中任一項所述的方法。

10.一種存儲介質(zhì),其特征在于,所述存儲介質(zhì)存儲有計算機程序,所述計算機程序包括程序指令,所述程序指令當(dāng)被處理器執(zhí)行時可實現(xiàn)如權(quán)利要求1-7中任一項所述的方法。


技術(shù)總結(jié)
本發(fā)明公開了一種基于韻律的語音轉(zhuǎn)換方法、裝置、設(shè)備及介質(zhì)。所述方法包括:接收用戶輸入的源語音與所選擇的目標語音,通過預(yù)設(shè)特征提取方法分別從所述源語音與所述目標語音中提取幀級的韻律特征;將所述源語音與所述目標語音以及對應(yīng)的所述韻律特征通過編碼器與轉(zhuǎn)換器進行特征處理,獲取待輸入特征;將用戶調(diào)整后的待輸入特征輸入至預(yù)設(shè)解碼器模型中獲取語音頻譜圖;將所述語音頻譜圖通過聲碼器合成為目標語音波形,根據(jù)所述目標語音波形獲取轉(zhuǎn)換后的源語音。通過實施本發(fā)明的方法可解決現(xiàn)有技術(shù)無法有效將語音進行幀級韻律的轉(zhuǎn)換的問題,增加了金融行業(yè),尤其保險客服服務(wù)的靈活性和高效性。

技術(shù)研發(fā)人員:張旭龍,王健宗
受保護的技術(shù)使用者:平安科技(深圳)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/6/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1