本申請涉及信號處理,尤其涉及一種語音通話變聲方法、裝置、存儲介質(zhì)及計算機設(shè)備。
背景技術(shù):
1、隨著即時通信工具的普及和語音交互場景的擴展,電話交流已深度滲透到大眾生活的各個層面。無論是日常社交、遠程辦公還是公共服務(wù)接入,語音通話都以其便捷性和情感傳遞優(yōu)勢成為首選溝通方式。但在一些場景中,如匿名舉報、咨詢敏感問題或與陌生號碼交流時,用戶的聲音特征極易被對方輕易識別,在這一背景下,語音通話的變聲功能應(yīng)運而生。
2、目前語音通話變聲方法主要采用音頻參數(shù)調(diào)節(jié)或基礎(chǔ)語音合成算法,通過調(diào)整音調(diào)、混響或疊加電子音效改變音色,這一類方法為了有效模糊聲紋特征,通常需要過度調(diào)整,從而導(dǎo)致變聲結(jié)果自然度較差,機械感嚴(yán)重,進而使得語音模糊失真。
技術(shù)實現(xiàn)思路
1、本申請的目的旨在至少能解決上述的技術(shù)缺陷之一,特別是現(xiàn)有技術(shù)中語音通話變聲方法容易導(dǎo)致語音模糊失真,導(dǎo)致變聲結(jié)果自然度較差,機械感嚴(yán)重,進而使得語音模糊失真的技術(shù)缺陷。
2、本申請?zhí)峁┝艘环N語音通話變聲方法,所述方法包括:
3、接聽其他用戶的通話來電,并在所述通話來電符合變聲標(biāo)準(zhǔn)時,啟動變聲模式;
4、實時采集當(dāng)前用戶的原始語音信號,并對所述原始語音信號進行分幀處理,得到語音分段;
5、基于共振峰修正模型確定所述語音分段的目標(biāo)共振峰,并利用所述目標(biāo)共振峰對所述語音分段進行變聲操作,得到變聲基礎(chǔ)信號;
6、通過殘差預(yù)測模型對所述語音分段進行參數(shù)分析,生成初始殘差信號,并利用殘差增強網(wǎng)絡(luò)對所述殘差信號進行殘差補償,得到目標(biāo)殘差信號;
7、將所述變聲基礎(chǔ)信號和所述目標(biāo)殘差信號進行信號疊加,得到變聲語音信號,并將所述變聲語音信號傳輸至所述通話來電對應(yīng)的移動終端。
8、可選地,所述在所述通話來電符合變聲標(biāo)準(zhǔn)時,啟動變聲模式,包括:
9、獲取所述通話來電的聯(lián)系號碼,并基于預(yù)設(shè)隱私策略判斷所述聯(lián)系號碼是否屬于陌生號碼;
10、若是,則確定所述通話來電符合變聲標(biāo)準(zhǔn),并啟動變聲模式;
11、若否,則確定所述通話來電不符合變聲標(biāo)準(zhǔn),并關(guān)閉變聲模式。
12、可選地,所述對所述原始語音信號進行分幀處理,得到語音分段,包括:
13、識別所述原始語音信號的信號能量,并根據(jù)所述信號能量對所述語音信號進行動態(tài)分幀,得到不同長度的語音分段。
14、可選地,所述基于共振峰修正模型確定所述語音分段的目標(biāo)共振峰,包括:
15、采用線性預(yù)測編碼提取所述語音分段的初始共振峰,并提取所述線性預(yù)測編碼中與所述語音分段對應(yīng)的預(yù)測系數(shù);
16、將所述預(yù)測系數(shù)輸入共振峰修正網(wǎng)絡(luò)中,得到所述共振峰修正網(wǎng)絡(luò)輸出的修正量;
17、根據(jù)所述修正量對所述初始共振峰進行參數(shù)修正,得到所述語音分段的目標(biāo)共振峰。
18、可選地,所述目標(biāo)共振峰包括目標(biāo)頻率和目標(biāo)振幅;
19、利用所述目標(biāo)共振峰對所述語音分段進行變聲操作,得到變聲基礎(chǔ)信號,包括:
20、根據(jù)所述目標(biāo)頻率對所述語音分段進行音色調(diào)整,并根據(jù)所述目標(biāo)振幅對調(diào)整后的語音分段進行飽滿度調(diào)整,得到變聲基礎(chǔ)信號。
21、可選地,所述殘差預(yù)測模型的計算表達式,包括:
22、
23、式中,表示第n個語音分段;表示第k個語音分段的預(yù)測系數(shù);p表示預(yù)測階數(shù);表示神經(jīng)網(wǎng)絡(luò)補償非線性殘差模型。
24、可選地,所述將所述變聲語音信號傳輸至所述通話來電對應(yīng)的移動終端,包括:
25、采用重疊相加法對相鄰的變聲語音信號進行信號拼接,形成連續(xù)信號,并將所述連續(xù)信號傳輸至所述通話來電對應(yīng)的移動終端。
26、本申請還提供了一種通話變聲裝置,包括:
27、來電接聽模塊,用于接聽其他用戶的通話來電,并在所述通話來電符合變聲標(biāo)準(zhǔn)時,啟動變聲模式;
28、分幀處理模塊,用于實時采集當(dāng)前用戶的原始語音信號,并對所述原始語音信號進行分幀處理,得到語音分段;
29、語音變聲模塊,用于基于共振峰修正模型確定所述語音分段的目標(biāo)共振峰,并利用所述目標(biāo)共振峰對所述語音分段進行變聲操作,得到變聲基礎(chǔ)信號;
30、殘差補償模塊,用于通過殘差預(yù)測模型對所述語音分段進行參數(shù)分析,生成初始殘差信號,并利用殘差增強網(wǎng)絡(luò)對所述殘差信號進行殘差補償,得到目標(biāo)殘差信號;
31、信號疊加模塊,用于將所述變聲基礎(chǔ)信號和所述目標(biāo)殘差信號進行信號疊加,得到變聲語音信號,并將所述變聲語音信號傳輸至所述通話來電對應(yīng)的移動終端。
32、本申請還提供了一種存儲介質(zhì),所述存儲介質(zhì)中存儲有計算機可讀指令,所述計算機可讀指令被一個或多個處理器執(zhí)行時,使得一個或多個處理器執(zhí)行如上述實施例中任一項所述語音通話變聲方法的步驟。
33、本申請還提供了一種計算機設(shè)備,包括:一個或多個處理器,以及存儲器;
34、所述存儲器中存儲有計算機可讀指令,所述計算機可讀指令被所述一個或多個處理器執(zhí)行時,執(zhí)行如上述實施例中任一項所述語音通話變聲方法的步驟。
35、從以上技術(shù)方案可以看出,本申請實施例具有以下優(yōu)點:
36、本申請?zhí)峁┑恼Z音通話變聲方法、裝置、存儲介質(zhì)及計算機設(shè)備,在接聽到其他用戶的通話來電后,若該通話來電符合變聲標(biāo)準(zhǔn),則啟動變聲模式,以保護當(dāng)前用戶的隱私;然后可以實時采集當(dāng)前用戶的原始語音信號,并對該原始語音信號進行分幀處理,得到語音分段,實現(xiàn)對語音信號的實時處理,降低延遲率;在獲取到語音分段后,可以基于共振峰修正模型確定語音分段的目標(biāo)共振峰,并利用目標(biāo)共振峰對語音分段進行變聲操作,得到變聲基礎(chǔ)信號,這里通過共振峰修正模型優(yōu)化得到的目標(biāo)共振峰,可以解決傳統(tǒng)方法的機械感問題;此外,在通過殘差預(yù)測模型對語音分段進行參數(shù)分析并生成初始殘差信號后,可以利用殘差增強網(wǎng)絡(luò)對殘差信號進行殘差補償,以增強高頻細節(jié)和非線性特征,得到目標(biāo)殘差信號。因此,將變聲基礎(chǔ)信號和目標(biāo)殘差信號進行信號疊加,可以得到高自然度的變聲語音信號,最后可以將該變聲語音信號傳輸至通話來電對應(yīng)的移動終端,為當(dāng)前用戶提供了高質(zhì)量的隱私保護。
1.一種語音通話變聲方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的語音通話變聲方法,其特征在于,所述在所述通話來電符合變聲標(biāo)準(zhǔn)時,啟動變聲模式,包括:
3.根據(jù)權(quán)利要求1所述的語音通話變聲方法,其特征在于,所述對所述原始語音信號進行分幀處理,得到語音分段,包括:
4.根據(jù)權(quán)利要求1所述的語音通話變聲方法,其特征在于,所述基于共振峰修正模型確定所述語音分段的目標(biāo)共振峰,包括:
5.根據(jù)權(quán)利要求1所述的語音通話變聲方法,其特征在于,所述目標(biāo)共振峰包括目標(biāo)頻率和目標(biāo)振幅;
6.根據(jù)權(quán)利要求1所述的語音通話變聲方法,其特征在于,所述殘差預(yù)測模型的計算表達式,包括:
7.根據(jù)權(quán)利要求1所述的語音通話變聲方法,其特征在于,所述將所述變聲語音信號傳輸至所述通話來電對應(yīng)的移動終端,包括:
8.一種通話變聲裝置,其特征在于,包括:
9.一種存儲介質(zhì),其特征在于:所述存儲介質(zhì)中存儲有計算機可讀指令,所述計算機可讀指令被一個或多個處理器執(zhí)行時,使得一個或多個處理器執(zhí)行如權(quán)利要求1至7中任一項所述語音通話變聲方法的步驟。
10.一種計算機設(shè)備,其特征在于,包括:一個或多個處理器,以及存儲器;