使用音頻分類來增強(qiáng)視頻中的音頻的制作方法

文檔序號：42228827發(fā)布日期：2025-06-20 19:19閱讀：18來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

背景技術(shù)：

1、利用諸如智能電話、平板計(jì)算機(jī)等的移動裝置上的相機(jī)硬件的質(zhì)量，在移動裝置上捕獲高質(zhì)量視頻是可能的。然而，因?yàn)橐苿友b置可能不包括演播室質(zhì)量音頻硬件，例如，定向麥克風(fēng)、具有經(jīng)調(diào)諧的靈敏度的麥克風(fēng)等，所以捕獲高質(zhì)量音頻是不可能的。由于小的形狀因子和其他限制(例如，電池)，移動裝置不足夠大以容納此類硬件。

2、為了克服在使用移動裝置捕獲視頻時(shí)捕獲高質(zhì)量音頻的限制，專業(yè)攝像師可以使用無線領(lǐng)夾式麥克風(fēng)、具有無源風(fēng)屏的獵槍式麥克風(fēng)、減震架等。然而，想要記錄視頻的偶然用戶必須依賴于移動裝置硬件來進(jìn)行音頻捕獲。移動裝置的制造者已經(jīng)嘗試提供音頻增強(qiáng)算法以彌補(bǔ)音頻硬件缺陷。然而，利用此類技術(shù)可能難以獲得高質(zhì)量結(jié)果。

3、本文提供的背景描述是出于總體呈現(xiàn)本公開的上下文的目的。當(dāng)前提名的發(fā)明人的工作(就其在本背景技術(shù)部分中描述的程度而言)以及本說明書的在提交時(shí)本來可能不被算作現(xiàn)有技術(shù)的方面既不被明確地也不被暗示地承認(rèn)為是本公開的現(xiàn)有技術(shù)。

技術(shù)實(shí)現(xiàn)思路

1、一種計(jì)算機(jī)實(shí)現(xiàn)的方法包括獲得包括音頻部分的視頻。該方法還包括將音頻部分分離成多個(gè)通道，其中每個(gè)通道與特定音頻源相對應(yīng)。該方法還包括利用屏幕上分類器模型來獲得在視頻中是否描繪了每個(gè)通道的特定音頻源的指示，其中視頻的多個(gè)視頻幀的圖像嵌入和多個(gè)通道的音頻嵌入作為輸入被提供到屏幕上分類器模型。該方法還包括利用音頻類型分類器模型來確定每個(gè)通道的聽覺對象分類。該方法還包括基于在視頻中是否描繪了通道的特定音頻源的指示和通道的聽覺對象分類來確定每個(gè)通道的相應(yīng)增益。該方法還包括通過應(yīng)用相應(yīng)增益來修改每個(gè)通道。該方法還包括：在修改之后，將經(jīng)修改的通道與音頻部分混合以生成組合的音頻。

2、在一些實(shí)施例中，聽覺對象分類是以下中的一者：增強(qiáng)子(enhancer)類型或干擾子(distractor)類型，并且基于在視頻中是否描繪了通道的特定音頻源的指示和通道的聽覺對象分類來確定每個(gè)通道的相應(yīng)增益包括：確定每個(gè)通道的相應(yīng)增益，使得與增強(qiáng)子類型相關(guān)聯(lián)的通道的音量水平被升高并且與干擾子類型相關(guān)聯(lián)的通道的音量水平被降低。在一些實(shí)施例中，將音頻部分分離成多個(gè)通道使得多個(gè)通道中的每個(gè)通道與相應(yīng)聲音類型相關(guān)聯(lián)。在一些實(shí)施例中，通過執(zhí)行重復(fù)數(shù)據(jù)刪除以組合音頻部分中的具有相同聲音類型的兩個(gè)或更多個(gè)音頻源來獲得多個(gè)通道中的一個(gè)或多個(gè)通道。在一些實(shí)施例中，圖像嵌入表示視頻的幀的多個(gè)區(qū)域的相應(yīng)局部視頻特征。在一些實(shí)施例中，音頻嵌入表示多個(gè)通道中的每個(gè)通道的相應(yīng)局部音頻特征。在一些實(shí)施例中，每個(gè)通道的相應(yīng)增益是基于與指示相關(guān)聯(lián)的置信度以及與聽覺對象分類相關(guān)聯(lián)的置信度。

3、在一些實(shí)施例中，該方法還包括將音頻部分的至少一部分與組合的音頻混合。在一些實(shí)施例中，該方法還包括將音頻部分的更高頻率部分的至少一部分與組合的音頻混合。在一些實(shí)施例中，分離是使用音頻分離模型來執(zhí)行的，其中音頻分離模型使用圖像嵌入作為調(diào)節(jié)輸入，其中調(diào)節(jié)輸入向音頻分離模型提供關(guān)于存在于視頻中的音頻源的提示。

4、在一些實(shí)施例中，一種其上存儲有指令的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，所述指令在由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行時(shí)致使該一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行操作，所述操作包括：獲得包括音頻部分的視頻；將該音頻部分分離成多個(gè)通道，其中每個(gè)通道與特定音頻源相對應(yīng)；利用屏幕上分類器模型來獲得在該視頻中是否描繪了每個(gè)通道的該特定音頻源的指示，其中該視頻的多個(gè)視頻幀的圖像嵌入和該多個(gè)通道的音頻嵌入作為輸入被提供到該屏幕上分類器模型；利用音頻類型分類器模型來確定每個(gè)通道的聽覺對象分類；基于在該視頻中是否描繪了該通道的該特定音頻源的該指示和該通道的該聽覺對象分類來確定每個(gè)通道的相應(yīng)增益；通過應(yīng)用該相應(yīng)增益來修改每個(gè)通道；以及在修改之后，將經(jīng)修改的通道與該音頻部分混合以生成組合的音頻。

5、在一些實(shí)施例中，聽覺對象分類是以下中的一者：增強(qiáng)子類型或干擾子類型，基于在視頻中是否描繪了通道的特定音頻源的指示和通道的聽覺對象分類來確定每個(gè)通道的相應(yīng)增益包括：確定每個(gè)通道的相應(yīng)增益，使得被分類為增強(qiáng)子類型的通道的音量水平被升高并且被分類為干擾子類型的通道的音量水平被降低。在一些實(shí)施例中，將音頻部分分離成多個(gè)通道使得多個(gè)通道中的每個(gè)通道與相應(yīng)聲音類型相關(guān)聯(lián)。在一些實(shí)施例中，通過執(zhí)行重復(fù)數(shù)據(jù)刪除以組合音頻部分中的具有相同聲音類型的兩個(gè)或更多個(gè)音頻源來獲得多個(gè)通道中的一個(gè)或多個(gè)通道。在一些實(shí)施例中，圖像嵌入表示視頻的幀的多個(gè)區(qū)域的局部視頻特征。

6、在一些實(shí)施例中，一種計(jì)算裝置包括：一個(gè)或多個(gè)處理器；以及耦合到該一個(gè)或多個(gè)處理器的存儲器，該存儲器上存儲有指令，所述指令在由處理器執(zhí)行時(shí)致使處理器執(zhí)行操作。所述操作可以包括：獲得包括音頻部分的視頻；將該音頻部分分離成多個(gè)通道，其中每個(gè)通道與特定音頻源相對應(yīng)；利用屏幕上分類器模型來獲得在該視頻中是否描繪了每個(gè)通道的該特定音頻源的指示，其中該視頻的多個(gè)視頻幀的圖像嵌入和該多個(gè)通道的音頻嵌入作為輸入被提供到該屏幕上分類器模型；利用音頻類型分類器模型來確定每個(gè)通道的聽覺對象分類；基于在該視頻中是否描繪了該通道的該特定音頻源的該指示和該通道的該聽覺對象分類來確定每個(gè)通道的相應(yīng)增益；通過應(yīng)用該相應(yīng)增益來修改每個(gè)通道；以及在修改之后，將經(jīng)修改的通道與該音頻部分混合以生成組合的音頻。

7、在一些實(shí)施例中，聽覺對象分類是以下中的一者：增強(qiáng)子類型或干擾子類型，并且基于在視頻中是否描繪了通道的特定音頻源的指示和通道的聽覺對象分類來確定每個(gè)通道的相應(yīng)增益包括：確定每個(gè)通道的相應(yīng)增益，使得被分類為增強(qiáng)子類型的通道的音量水平被升高并且被分類為干擾子類型的通道的音量水平被降低。在一些實(shí)施例中，將音頻部分分離成多個(gè)通道使得多個(gè)通道中的每個(gè)通道與相應(yīng)聲音類型相關(guān)聯(lián)。在一些實(shí)施例中，通過執(zhí)行重復(fù)數(shù)據(jù)刪除以組合音頻部分中的具有相同聲音類型的兩個(gè)或更多個(gè)音頻源來獲得多個(gè)通道中的一個(gè)或多個(gè)通道。在一些實(shí)施例中，圖像嵌入表示視頻的幀的多個(gè)區(qū)域的局部視頻特征。

8、本說明書中描述的技術(shù)有利地提供了一種用以使用機(jī)器學(xué)習(xí)模型來確定要增強(qiáng)哪些音頻源以及要減少或阻止哪些音頻源的方式。所述技術(shù)提供了一種避免必須購買昂貴的音頻裝備同時(shí)保持音頻質(zhì)量的軟件解決方案。

技術(shù)特征：

1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中：

3.根據(jù)權(quán)利要求1所述的方法，其中將所述音頻部分分離成所述多個(gè)通道使得所述多個(gè)通道中的每個(gè)通道與相應(yīng)聲音類型相關(guān)聯(lián)。

4.根據(jù)權(quán)利要求3所述的方法，其中通過執(zhí)行重復(fù)數(shù)據(jù)刪除以組合所述音頻部分中的具有相同聲音類型的兩個(gè)或更多個(gè)音頻源來獲得所述多個(gè)通道中的一個(gè)或多個(gè)通道。

5.根據(jù)權(quán)利要求1所述的方法，其中所述圖像嵌入表示所述視頻的幀的多個(gè)區(qū)域的相應(yīng)局部視頻特征。

6.根據(jù)權(quán)利要求1所述的方法，其中所述音頻嵌入表示所述多個(gè)通道中的每個(gè)通道的相應(yīng)局部音頻特征。

7.根據(jù)權(quán)利要求1所述的方法，其中每個(gè)通道的所述相應(yīng)增益是基于與所述指示相關(guān)聯(lián)的置信度以及與所述聽覺對象分類相關(guān)聯(lián)的置信度。

8.根據(jù)權(quán)利要求1所述的方法，還包括：

9.根據(jù)權(quán)利要求1所述的方法，還包括：

10.根據(jù)權(quán)利要求1所述的方法，其中所述分離是使用音頻分離模型來執(zhí)行的，其中所述音頻分離模型使用所述圖像嵌入作為調(diào)節(jié)輸入，其中所述調(diào)節(jié)輸入向音頻分離模型提供關(guān)于存在于所述視頻中的音頻源的提示。

11.一種其上存儲有指令的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，所述指令在由一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行時(shí)致使所述一個(gè)或多個(gè)計(jì)算機(jī)執(zhí)行操作，所述操作包括：

12.根據(jù)權(quán)利要求11所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，其中：

13.根據(jù)權(quán)利要求11所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，其中將所述音頻部分分離成所述多個(gè)通道使得所述多個(gè)通道中的每個(gè)通道與相應(yīng)聲音類型相關(guān)聯(lián)。

14.根據(jù)權(quán)利要求13所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，其中通過執(zhí)行重復(fù)數(shù)據(jù)刪除以組合所述音頻部分中的具有相同聲音類型的兩個(gè)或更多個(gè)音頻源來獲得所述多個(gè)通道中的一個(gè)或多個(gè)通道。

15.根據(jù)權(quán)利要求11所述的非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，其中所述圖像嵌入表示所述視頻的幀的多個(gè)區(qū)域的局部視頻特征。

16.一種計(jì)算裝置，包括：

17.根據(jù)權(quán)利要求16所述的系統(tǒng)，其中：

18.根據(jù)權(quán)利要求16所述的系統(tǒng)，其中將所述音頻部分分離成所述多個(gè)通道使得所述多個(gè)通道中的每個(gè)通道與相應(yīng)聲音類型相關(guān)聯(lián)。

19.根據(jù)權(quán)利要求18所述的系統(tǒng)，其中通過執(zhí)行重復(fù)數(shù)據(jù)刪除以組合所述音頻部分中的具有相同聲音類型的兩個(gè)或更多個(gè)音頻源來獲得所述多個(gè)通道中的一個(gè)或多個(gè)通道。

20.根據(jù)權(quán)利要求16所述的系統(tǒng)，其中所述圖像嵌入表示所述視頻的幀的多個(gè)區(qū)域的局部視頻特征。

技術(shù)總結(jié)
媒體應(yīng)用獲得包括音頻部分的視頻。媒體應(yīng)用將音頻部分分離成多個(gè)通道，其中每個(gè)通道與特定音頻源相對應(yīng)。屏幕上分類器模型獲得在視頻中是否描繪了每個(gè)通道的特定音頻源的指示。音頻類型分類器模型確定每個(gè)通道的聽覺對象分類。媒體應(yīng)用基于在視頻中是否描繪了通道的特定音頻源的指示和通道的聽覺對象分類來確定每個(gè)通道的相應(yīng)增益。媒體應(yīng)用通過應(yīng)用相應(yīng)增益來修改每個(gè)通道。媒體應(yīng)用將所修改的通道與音頻部分混合以生成組合的音頻。

技術(shù)研發(fā)人員：金文錫,埃利奧特·帕特羅斯,斯內(nèi)·辛加拉朱,米切爾·安賽
受保護(hù)的技術(shù)使用者：谷歌有限責(zé)任公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/6/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金文錫,埃利奧特·帕特羅斯,斯內(nèi)·辛加拉朱,米切爾·安賽
技術(shù)所有人：谷歌有限責(zé)任公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

殴美成人在线视频,亚州中文字幕,日韩精品视频大全,99久久亚洲精品,aa国产视频一区二区,天天爱夜夜,日韩夜精品精品免费观看

使用音頻分類來增強(qiáng)視頻中的音頻的制作方法