殴美成人在线视频,亚州中文字幕,日韩精品视频大全,99久久亚洲精品,aa国产视频一区二区,天天爱夜夜,日韩夜精品精品免费观看

音頻信號(hào)的處理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備與流程

文檔序號(hào):42227066發(fā)布日期:2025-06-20 19:16閱讀:20來源:國知局

本技術(shù)涉及計(jì)算機(jī)領(lǐng)域,具體而言,涉及一種音頻信號(hào)的處理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備。


背景技術(shù):

1、隨著音頻信號(hào)處理技術(shù)的不斷革新,語音增強(qiáng)降噪技術(shù)得以蓬勃發(fā)展。目前,語音增強(qiáng)技術(shù)廣泛應(yīng)用于通話、視頻會(huì)議、智能音箱、語音識(shí)別前端等場景,為人們的生產(chǎn)生活帶來了巨大的助力。

2、相關(guān)技術(shù)在對(duì)帶噪語音進(jìn)行處理的過程中,為了提升分析結(jié)果的準(zhǔn)確性,采用復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)對(duì)帶噪語音進(jìn)行建模分析,該過程雖然可以帶來較好的分析結(jié)果,但是產(chǎn)生了巨大的計(jì)算量,不利于該語音分析方法的廣泛使用。也就是說,相關(guān)技術(shù)提供的音頻信號(hào)的處理方法存在處理過程效率較低的問題。

3、針對(duì)上述的問題,目前尚未提出有效的解決方案。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例提供了一種音頻信號(hào)的處理方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備,以至少解決相關(guān)音頻信號(hào)的處理過程效率較低的技術(shù)問題。

2、根據(jù)本技術(shù)實(shí)施例的一個(gè)方面,提供了一種音頻信號(hào)的處理方法,包括:獲取第一音頻信號(hào)的第一頻譜特征,其中,上述第一音頻信號(hào)中包括參考音頻信號(hào)與待提取的第二音頻信號(hào);將上述第一頻譜特征輸入目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,得到與上述第一音頻信號(hào)匹配的參考相位估計(jì),其中,上述目標(biāo)神經(jīng)網(wǎng)絡(luò)模型根據(jù)第一樣本音頻信號(hào)和第二樣本音頻信號(hào)預(yù)先訓(xùn)練得到,上述參考相位估計(jì)用于指示上述第二音頻信號(hào)與上述第一音頻信號(hào)在多個(gè)上述頻率分量上的相位差異;根據(jù)上述第一頻譜特征所指示的第一相位正弦值和第一相位余弦值,以及上述參考相位估計(jì)所指示的參考相位正弦值和參考相位余弦值,確定與上述第二頻譜特征匹配的第二相位正弦值和第二相位余弦值;根據(jù)上述第二相位正弦值和上述第二相位余弦值確定上述第二頻譜特征,并根據(jù)上述第二頻譜特征確定上述第二音頻信號(hào)。

3、根據(jù)本技術(shù)實(shí)施例的另一個(gè)方面,還提供了一種音頻信號(hào)處理模型的訓(xùn)練方法,包括:獲取第一樣本音頻信號(hào)的第一頻譜特征以及與上述第一樣本音頻信號(hào)匹配的訓(xùn)練標(biāo)簽,其中,上述第一樣本音頻信號(hào)中包括參考樣本音頻信號(hào)和第二樣本音頻信號(hào),上述訓(xùn)練標(biāo)簽包括相位差異標(biāo)簽,上述幅度差異標(biāo)簽根據(jù)上述第一樣本音頻信號(hào)和上述第二樣本音頻信號(hào)在多個(gè)頻率分量上的幅度差異確定,上述相位差異標(biāo)簽根據(jù)上述第一樣本音頻信號(hào)的第一頻譜特征所指示的第一樣本向量余弦值與第一樣本向量正弦值,和上述第二樣本音頻信號(hào)的上述第二頻譜特征所指示的第二樣本向量余弦值與第二樣本向量正弦值確定;將上述第一頻譜特征輸入待訓(xùn)練的音頻信號(hào)處理模型,得到與上述第一樣本音頻信號(hào)匹配的參考相位估計(jì);根據(jù)上述參考相位估計(jì)和上述訓(xùn)練標(biāo)簽確定的訓(xùn)練損失對(duì)上述音頻信號(hào)處理模型進(jìn)行訓(xùn)練;在上述訓(xùn)練損失滿足目標(biāo)收斂條件的情況下,將訓(xùn)練完成的上述音頻信號(hào)處理模型確定為目標(biāo)神經(jīng)網(wǎng)絡(luò)模型。

4、根據(jù)本技術(shù)實(shí)施例的又一個(gè)方面,還提供了一種音頻信號(hào)的處理裝置,包括:獲取單元,用于獲取第一音頻信號(hào)的第一頻譜特征,其中,上述第一音頻信號(hào)中包括參考音頻信號(hào)與待提取的第二音頻信號(hào);處理單元,用于將上述第一頻譜特征輸入目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,得到與上述第一音頻信號(hào)匹配的參考相位估計(jì),其中,上述目標(biāo)神經(jīng)網(wǎng)絡(luò)模型根據(jù)第一樣本音頻信號(hào)和第二樣本音頻信號(hào)預(yù)先訓(xùn)練得到,上述參考相位估計(jì)用于指示上述第二音頻信號(hào)與上述第一音頻信號(hào)在多個(gè)上述頻率分量上的相位差異;第一確定單元,用于根據(jù)上述第一頻譜特征所指示的第一相位正弦值和第一相位余弦值,以及上述參考相位估計(jì)所指示的參考相位正弦值和參考相位余弦值,確定與上述第二頻譜特征匹配的第二相位正弦值和第二相位余弦值;第二確定單元,用于根據(jù)上述第二相位正弦值和上述第二相位余弦值確定上述第二頻譜特征,并根據(jù)上述第二頻譜特征確定上述第二音頻信號(hào)。

5、可選地,上述第一確定單元包括:獲取模塊,用于獲取上述目標(biāo)神經(jīng)網(wǎng)絡(luò)模型基于上述第一頻譜特征輸出的參考幅度估計(jì),其中,上述參考幅度估計(jì)用于指示上述第二音頻信號(hào)與上述第一音頻信號(hào)在多個(gè)頻率分量上的幅度差異;第一確定模塊,用于根據(jù)上述第一頻譜特征所指示的第一音頻幅度和上述參考幅度估計(jì),確定與上述第二頻譜特征匹配的第二音頻幅度;第二確定模塊,用于根據(jù)上述第二音頻幅度,上述第二相位正弦值和上述第二相位余弦值確定上述第二頻譜特征。

6、可選地,上述第三確定模塊,用于:在上述參考幅度估計(jì)用于指示上述第二音頻信號(hào)與上述第一音頻信號(hào)在n個(gè)上述頻率分量上的參考幅度比值的情況下,獲取上述第一頻譜特征所指示的n個(gè)上述頻率分量上的第一幅度值,以及上述參考幅度估計(jì)所指示的n個(gè)參考幅度比值,其中,上述n為大于1的整數(shù);將n個(gè)上述第一幅度值與各自對(duì)應(yīng)的上述參考幅度比值的乘積值,確定為與上述第二頻譜特征匹配的n個(gè)上述頻率分量上的第二幅度值。

7、可選地,上述第二確定模塊,用于:在上述參考幅度估計(jì)用于指示上述第二音頻信號(hào)與上述第一音頻信號(hào)在n個(gè)上述頻率分量上的相位差的情況下,從上述第一頻譜特征所指示的n個(gè)上述頻率分量中,獲取目標(biāo)頻率分量所對(duì)應(yīng)的上述第一相位正弦值和上述第一相位余弦值,其中,上述n為大于1的整數(shù);從上述參考相位估計(jì)中獲取與上述目標(biāo)頻率分量對(duì)應(yīng)的上述參考相位正弦值和上述參考相位余弦值;獲取上述第一相位正弦值與上述參考相位余弦值的第一乘積,以及上述第一相位余弦值和上述參考相位正弦值的第二乘積,并將上述第一乘積和上述第二乘積的和值確定為上述第二相位正弦值;獲取上述第一相位余弦值與上述參考相位余弦值的第三乘積,以及上述第一相位正弦值和上述參考相位正弦值的第四乘積,并根據(jù)上述第三乘積和上述第四乘積的差值確定上述第二相位余弦值;重復(fù)上述步驟,直至遍歷上述第一頻譜特征所指示的n個(gè)上述頻率分量。

8、可選地,上述第三確定模塊,用于:根據(jù)上述第二音頻幅度與上述第二相位余弦值確定上述第二頻譜特征中的實(shí)部表征;根據(jù)上述第二音頻幅度與上述第二相位正弦值確定上述第二頻譜特征中的虛部表征;根據(jù)上述實(shí)部表征和上述虛部表征確定上述第二頻譜特征。

9、可選地,上述處理單元,包括:第一處理模塊,用于在上述目標(biāo)神經(jīng)網(wǎng)絡(luò)模型中,通過編碼網(wǎng)絡(luò)對(duì)上述第一頻譜特征進(jìn)行編碼處理,得到第一編碼結(jié)果;第二處理模塊,用于通過基于門控循環(huán)單元所構(gòu)建的循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)上述第一編碼結(jié)果進(jìn)行分析,得到攜帶有時(shí)序信息的第一中間結(jié)果;第三處理模塊,用于將上述第一編碼結(jié)果與上述第一中間結(jié)果輸入上述目標(biāo)神經(jīng)網(wǎng)絡(luò)模型中的解碼網(wǎng)絡(luò),得到與上述第一音頻信號(hào)匹配的參考幅度估計(jì)和參考相位估計(jì),其中,上述解碼網(wǎng)絡(luò)中的子網(wǎng)絡(luò)是基于對(duì)上述編碼網(wǎng)絡(luò)中的子網(wǎng)絡(luò)的進(jìn)行調(diào)整后得到的。

10、可選地,上述第一處理模塊,用于:通過上述編碼網(wǎng)絡(luò)中具有連接關(guān)系的m個(gè)編碼子網(wǎng)絡(luò)依次對(duì)上述第一頻譜特征進(jìn)行編碼處理,得到m個(gè)上述第一編碼結(jié)果,其中,每個(gè)上述編碼子網(wǎng)絡(luò)中分別包括:卷積層、標(biāo)準(zhǔn)化層及激活層,在上述卷積層中對(duì)每一幀對(duì)應(yīng)的上述第一頻譜特征進(jìn)行卷積處理時(shí)將參考相鄰的前一幀對(duì)應(yīng)的上述第一頻譜特征,m為大于等于2的自然數(shù);上述第二處理模塊,用于:上述通過基于門控循環(huán)單元所構(gòu)建的循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)上述第一編碼結(jié)果進(jìn)行分析,得到攜帶有時(shí)序信息的第一中間結(jié)果,包括:將第m個(gè)上述編碼子網(wǎng)絡(luò)輸出的上述第一編碼結(jié)果輸入上述循環(huán)神經(jīng)網(wǎng)絡(luò),得到攜帶有時(shí)序信息的上述第一中間結(jié)果;上述第三處理模塊,用于:上述將上述第一編碼結(jié)果與上述第一中間結(jié)果輸入上述目標(biāo)神經(jīng)網(wǎng)絡(luò)模型中的解碼網(wǎng)絡(luò),得到與上述第一音頻信號(hào)匹配的參考幅度估計(jì)和參考相位估計(jì)包括:將上述第一中間結(jié)果以及第i個(gè)上述編碼子網(wǎng)絡(luò)輸出的上述第一編碼結(jié)果輸入第m-i+1個(gè)解碼子網(wǎng)絡(luò),其中,上述解碼網(wǎng)絡(luò)中包括m個(gè)具有連接關(guān)系的解碼子網(wǎng)絡(luò),每個(gè)上述解碼子網(wǎng)絡(luò)中分別包括:與上述卷積層關(guān)聯(lián)的轉(zhuǎn)置卷積層、標(biāo)準(zhǔn)化層及激活層,上述i為大于或等于1且小于或等于上述m的整數(shù),第i個(gè)上述編碼子網(wǎng)絡(luò)與第m-i+1個(gè)上述解碼子網(wǎng)絡(luò)之間設(shè)置有跳連接;獲取第m個(gè)上述編碼子網(wǎng)絡(luò)輸出的第一解碼結(jié)果;將上述第一解碼結(jié)果確定為與上述第一音頻信號(hào)匹配的參考幅度估計(jì)和參考相位估計(jì)。

11、可選地,上述獲取單元,用于:獲取上述第一音頻信號(hào);對(duì)上述第一音頻信號(hào)按照目標(biāo)采樣率進(jìn)行重采樣操作,得到第一參考音頻信號(hào);對(duì)上述第一參考音頻信號(hào)根據(jù)分幀參數(shù)進(jìn)行時(shí)域分幀加窗處理,得到多個(gè)第一音頻子信號(hào);對(duì)多個(gè)上述第一音頻子信號(hào)分別進(jìn)行離散傅里葉變換,得到與多個(gè)上述第一音頻子信號(hào)分別對(duì)應(yīng)的上述第一頻譜特征。

12、可選地,上述獲取單元,用于:獲取根據(jù)多個(gè)上述第一音頻子信號(hào)分別對(duì)應(yīng)的上述第一頻譜特征確定的多個(gè)上述第二頻譜特征;對(duì)多個(gè)上述第二頻譜特征進(jìn)行逆短時(shí)傅里葉變換,得到多個(gè)第二音頻子信號(hào);根據(jù)上述多個(gè)上述第二音頻子信號(hào)的拼接結(jié)果確定上述第二音頻信號(hào)。

13、可選地,上述音頻信號(hào)的處理裝置,還用于:根據(jù)上述第一頻譜特征和上述第二頻譜特征,確定上述參考音頻信號(hào)的參考頻譜特征;對(duì)上述參考頻譜特征進(jìn)行逆短時(shí)傅里葉變換,得到上述參考音頻信號(hào)。

14、根據(jù)本技術(shù)實(shí)施例的又一個(gè)方面,還提供了一種音頻信號(hào)處理模型的訓(xùn)練裝置,包括:獲取單元,用于獲取第一樣本音頻信號(hào)的第一頻譜特征以及與上述第一樣本音頻信號(hào)匹配的訓(xùn)練標(biāo)簽,其中,上述第一樣本音頻信號(hào)中包括參考樣本音頻信號(hào)和第二樣本音頻信號(hào),上述訓(xùn)練標(biāo)簽包括相位差異標(biāo)簽,上述相位差異標(biāo)簽根據(jù)上述第一樣本音頻信號(hào)的第一頻譜特征所指示的第一樣本向量余弦值與第一樣本向量正弦值,和上述第二樣本音頻信號(hào)的上述第二頻譜特征所指示的第二樣本向量余弦值與第二樣本向量正弦值確定;訓(xùn)練單元,用于根據(jù)上述參考相位估計(jì)和上述訓(xùn)練標(biāo)簽確定的訓(xùn)練損失對(duì)上述音頻信號(hào)處理模型進(jìn)行訓(xùn)練;確定單元,用于在上述訓(xùn)練損失滿足目標(biāo)收斂條件的情況下,將訓(xùn)練完成的上述音頻信號(hào)處理模型確定為目標(biāo)神經(jīng)網(wǎng)絡(luò)模型。

15、可選地,上述訓(xùn)練單元,用于:將上述第一頻譜特征輸入待訓(xùn)練的音頻信號(hào)處理模型,得到與上述第一樣本音頻信號(hào)匹配的參考幅度估計(jì),其中,上述幅度差異標(biāo)簽根據(jù)上述第一樣本音頻信號(hào)和上述第二樣本音頻信號(hào)在多個(gè)頻率分量上的幅度差異確定;根據(jù)上述參考幅度估計(jì)、上述參考相位估計(jì)和上述訓(xùn)練標(biāo)簽確定的訓(xùn)練損失對(duì)上述音頻信號(hào)處理模型進(jìn)行訓(xùn)練。

16、可選地,上述獲取單元,包括:第一獲取模塊,用于獲取上述第二樣本音頻信號(hào)和上述參考樣本音頻信號(hào),并根據(jù)上述第二樣本音頻信號(hào)和上述參考樣本音頻信號(hào)混合得到上述第一樣本音頻信號(hào);第二獲取模塊,用于分別獲取上述第一樣本音頻信號(hào)的第一頻譜特征,和上述第二樣本音頻信號(hào)的第二頻譜特征;第三獲取模塊,用于根據(jù)上述第一頻譜特征和上述第二頻譜特征確定上述幅度差異標(biāo)簽和上述相位差異標(biāo)簽。

17、可選地,上述第三獲取模塊,用于:根據(jù)上述第一頻譜特征獲取上述第一樣本音頻信號(hào)在n個(gè)上述頻率分量上的第一樣本幅度值,并根據(jù)上述第二頻譜特征獲取上述第二樣本音頻信號(hào)在n個(gè)上述頻率分量上的第二樣本幅度值,其中,上述n為大于1的整數(shù);根據(jù)n個(gè)上述第二樣本幅度值與各自對(duì)應(yīng)的上述第一樣本幅度值之間的比值,確定上述幅度差異標(biāo)簽;根據(jù)上述第一頻譜特征獲取上述第一樣本音頻信號(hào)在n個(gè)上述頻率分量上的第一樣本向量余弦值與第一樣本向量正弦值,并根據(jù)上述第二頻譜特征獲取上述第二樣本音頻信號(hào)在n個(gè)上述頻率分量上的第二樣本向量余弦值與第二樣本向量正弦值;根據(jù)n個(gè)上述第一樣本向量余弦值,上述第一樣本向量正弦值與各自對(duì)應(yīng)的上述第二樣本向量余弦值,上述第二樣本向量正弦值,確定上述相位差異標(biāo)簽。

18、可選地,上述預(yù)測單元,用于:在上述音頻信號(hào)處理模型中,通過編碼網(wǎng)絡(luò)對(duì)上述第一頻譜特征進(jìn)行編碼處理,得到第一編碼結(jié)果;通過基于門控循環(huán)單元所構(gòu)建的循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)上述第一編碼結(jié)果進(jìn)行分析,得到攜帶有時(shí)序信息的第一中間結(jié)果;將上述第一編碼結(jié)果與上述第一中間結(jié)果輸入上述音頻信號(hào)處理模型中額解碼網(wǎng)絡(luò),得到與上述第一樣本音頻信號(hào)匹配的上述參考幅度估計(jì)和上述參考相位估計(jì),其中,上述解碼網(wǎng)絡(luò)中的子網(wǎng)絡(luò)是基于對(duì)上述編碼網(wǎng)絡(luò)中的子網(wǎng)絡(luò)的進(jìn)行調(diào)整后得到的。

19、根據(jù)本技術(shù)實(shí)施例的又一方面,還提供了一種計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,其中,該計(jì)算機(jī)程序被設(shè)置為運(yùn)行時(shí)執(zhí)行上述音頻信號(hào)的處理方法或音頻信號(hào)處理模型的訓(xùn)練方法。

20、根據(jù)本技術(shù)實(shí)施例的又一個(gè)方面,提供一種計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序,該計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序包括計(jì)算機(jī)指令,該計(jì)算機(jī)指令存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中。計(jì)算機(jī)設(shè)備的處理器從計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)讀取該計(jì)算機(jī)指令,處理器執(zhí)行該計(jì)算機(jī)指令,使得該計(jì)算機(jī)設(shè)備執(zhí)行如以上音頻信號(hào)的處理方法或音頻信號(hào)處理模型的訓(xùn)練方法。

21、根據(jù)本技術(shù)實(shí)施例的又一方面,還提供了一種電子設(shè)備,包括存儲(chǔ)器和處理器,上述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,上述處理器被設(shè)置為通過上述計(jì)算機(jī)程序執(zhí)行上述的音頻信號(hào)的處理方法或音頻信號(hào)處理模型的訓(xùn)練方法。

22、在本技術(shù)實(shí)施例中,首先獲取第一音頻信號(hào)的第一頻譜特征,其中,上述第一音頻信號(hào)中包括參考音頻信號(hào)與待提取的第二音頻信號(hào);將上述第一頻譜特征輸入目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,得到與上述第一音頻信號(hào)匹配的參考相位估計(jì),其中,上述目標(biāo)神經(jīng)網(wǎng)絡(luò)模型根據(jù)第一樣本音頻信號(hào)和第二樣本音頻信號(hào)預(yù)先訓(xùn)練得到,上述參考相位估計(jì)用于指示上述第二音頻信號(hào)與上述第一音頻信號(hào)在多個(gè)上述頻率分量上的相位差異;根據(jù)上述第一頻譜特征所指示的第一相位正弦值和第一相位余弦值,以及上述參考相位估計(jì)所指示的參考相位正弦值和參考相位余弦值,確定與上述第二頻譜特征匹配的第二相位正弦值和第二相位余弦值;根據(jù)上述第二相位正弦值和上述第二相位余弦值確定上述第二頻譜特征,并根據(jù)上述第一頻譜特征,上述參考幅度估計(jì)和上述參考相位估計(jì),確定上述第二音頻信號(hào)的第二頻譜特征;根據(jù)上述第二頻譜特征確定上述第二音頻信號(hào),從而實(shí)現(xiàn)了通過目標(biāo)神經(jīng)網(wǎng)絡(luò)模型對(duì)用于表征音頻信號(hào)之間的相位差異的估計(jì)值進(jìn)行預(yù)測,進(jìn)而根據(jù)預(yù)測得到的參考相位估計(jì),與原始音頻信號(hào)的頻譜特征確定出處理后得到的第二音頻信號(hào)。

23、根據(jù)本技術(shù)的上述實(shí)施方式,提出了一種可以同時(shí)對(duì)帶噪語音的幅度信息和相位信息進(jìn)行建模分析的技術(shù)方案,從而通過相位信息的綜合處理解析出被噪聲干擾的音頻信號(hào),提升了音頻信號(hào)處理的準(zhǔn)確性;同時(shí),采用目標(biāo)神經(jīng)網(wǎng)絡(luò)獲取相位信息估計(jì),避免了采用復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)模型,減少了計(jì)算量,提升了音頻信號(hào)處理的處理效率。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1