本申請涉及語音處理,更具體地,涉及一種基于判別-生成聯(lián)合模型的語音增強方法、裝置、電子設(shè)備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品。
背景技術(shù):
1、語音增強(speech?enhancement,se)旨在從被各種退化類型(包括背景噪聲、房間混響、編解碼器偽影等)干擾的音頻信號中恢復出干凈語音信號,其被廣泛用作人機交互、遠程會議等應(yīng)用的前端模塊。
2、現(xiàn)有的許多se方法通常是任務(wù)驅(qū)動的,分別針對去噪、去混響或語音超分辨任務(wù)進行設(shè)計。然而相關(guān)技術(shù)的語音增強方式其輸出的增強語音與實際相差較大,而且使用的計算資源較多。
技術(shù)實現(xiàn)思路
1、有鑒于此,本申請?zhí)峁┝艘环N基于判別-生成聯(lián)合模型的語音增強方法、裝置、電子設(shè)備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品。
2、本申請的一個方面提供了一種基于判別-生成聯(lián)合模型的語音增強方法,包括:
3、獲取待處理語音信號,其中,上述待處理語音信號表征帶有噪音的語音信號;
4、將上述待處理語音信號輸入至判別-生成聯(lián)合模型,得到預測頻域信息和預測分數(shù)函數(shù),其中,上述判別-生成聯(lián)合模型包括語音判別網(wǎng)絡(luò)、語音交互網(wǎng)絡(luò)和語音生成網(wǎng)絡(luò),上述語音交互網(wǎng)絡(luò)用于對上述語音判別網(wǎng)絡(luò)和上述語音生成網(wǎng)絡(luò)中的隱特征進行融合以使得上述語音生成網(wǎng)絡(luò)根據(jù)融合隱特征生成上述預測分數(shù)函數(shù);
5、根據(jù)上述預測頻域信息和上述預測分數(shù)函數(shù),生成增強語音信號。
6、本申請的另一個方面提供了一種語音增強裝置,包括:
7、獲取模塊,用于獲取待處理語音信號,其中,上述待處理語音信號表征帶有噪音的語音信號;
8、處理模塊,用于將上述待處理語音信號輸入至判別-生成聯(lián)合模型,得到預測頻域信息和預測分數(shù)函數(shù),其中,上述判別-生成聯(lián)合模型包括語音判別網(wǎng)絡(luò)、語音交互網(wǎng)絡(luò)和語音生成網(wǎng)絡(luò),上述語音交互網(wǎng)絡(luò)用于對上述語音判別網(wǎng)絡(luò)和上述語音生成網(wǎng)絡(luò)中的隱特征進行融合以使得上述語音生成網(wǎng)絡(luò)根據(jù)融合隱特征生成上述預測分數(shù)函數(shù);
9、生成模塊,用于根據(jù)上述預測頻域信息和上述預測分數(shù)函數(shù),生成增強語音信號。
10、本申請的另一個方面提供了一種電子設(shè)備,包括:
11、一個或多個處理器;
12、存儲器,用于存儲一個或多個程序,
13、其中,當所述一個或多個程序被所述一個或多個處理器執(zhí)行時,使得所述一個或多個處理器實現(xiàn)如上所述的方法。
14、本申請的另一方面提供了一種計算機可讀存儲介質(zhì),存儲有計算機可執(zhí)行指令,所述指令在被執(zhí)行時用于實現(xiàn)如上所述的方法。
15、本申請的另一方面提供了一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機可執(zhí)行指令,所述指令在被執(zhí)行時用于實現(xiàn)如上所述的方法。
1.一種基于判別-生成聯(lián)合模型的語音增強方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述判別-生成聯(lián)合模型是通過如下方式訓練的:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,基于注意力機制,利用語音判別網(wǎng)絡(luò)對所述初始頻域信息中幅度和相位進行處理,得到目標判別隱特征和目標頻域信息,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,將所述幅度狀態(tài)變量和所述目標生成隱特征輸入至所述語音生成網(wǎng)絡(luò),對所述幅度狀態(tài)變量,輸出目標分數(shù)函數(shù),包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述判別編碼器和所述生成編碼器通過如下方式進行數(shù)據(jù)處理:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,利用m個子帶下采樣塊處理所述第一卷積特征,得到第一輸出特征,包括:
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述第一雙路徑循環(huán)注意力網(wǎng)絡(luò)和所述第二雙路徑循環(huán)注意力網(wǎng)絡(luò)的數(shù)量為l;
8.根據(jù)權(quán)利要求2或4所述的方法,其特征在于,利用語音交互網(wǎng)絡(luò)對所述目標判別隱特征和初始生成隱特征進行加權(quán)融合,得到所述目標生成隱特征,包括:
9.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述第一雙路徑循環(huán)注意力網(wǎng)絡(luò)和所述第二雙路徑循環(huán)注意力網(wǎng)絡(luò)中任一雙路徑循環(huán)注意力網(wǎng)絡(luò)通過如下方式進行數(shù)據(jù)處理:
10.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述目標頻域信息包括目標幅度信息和目標復數(shù)信息,所述標簽語音信息包括標簽幅度信息和標簽復數(shù)信息;