本公開涉及聲音編解碼(code),具體地但非排他地涉及基于對象的音頻編解碼器中的不連續(xù)傳輸(dtx)的方法和設(shè)備。在本公開和所附權(quán)利要求中:(a)術(shù)語“音頻”可以與語言、音樂和任何其他聲音有關(guān)。(b)術(shù)語“多聲道”可以與兩個或更多個聲道有關(guān)。(c)術(shù)語“立體聲(stereo)”是“立體聲(stereophonic)”的縮寫。(d)術(shù)語“單聲道(mono)”是“單聲道(monophonic)”的縮寫。(e)術(shù)語“基于對象的音頻”旨在將聽覺場景表示為單個元素(也稱為音頻對象)的集合。此外,“基于對象的音頻”可以包括例如語言、音樂和包括一般音頻聲音的任何其他聲音。(f)術(shù)語“音頻對象”旨在指定具有相關(guān)聯(lián)的元數(shù)據(jù)的音頻流。例如,在本公開中,“音頻對象”被稱為具有元數(shù)據(jù)的獨立音頻流(ism)。(g)術(shù)語“音頻流”旨在以比特流表示音頻波形,例如語言、音樂和/或包括一般音頻聲音的任何其他聲音,并且可以由一個聲道(單聲道)組成,盡管也可以考慮包括兩個聲道(立體聲)的多聲道。(h)術(shù)語“元數(shù)據(jù)”旨在表示描述例如用于將原始或編解碼音頻對象翻譯到再現(xiàn)系統(tǒng)的音頻流和藝術(shù)(artistic)意圖的信息的集合。元數(shù)據(jù)通常描述每一單個音頻對象的空間屬性,例如位置、定向、音量、寬度等。作為非限制性示例,在本公開的上下文中,考慮元數(shù)據(jù)的兩個集合:-輸入元數(shù)據(jù):用作編解碼器的輸入的未量化的元數(shù)據(jù)表示;本公開不限于輸入元數(shù)據(jù)的特定格式;和-編解碼的元數(shù)據(jù):形成從編碼器傳輸?shù)浇獯a器的比特流的一部分的量化和編解碼的元數(shù)據(jù)。(i)術(shù)語“音頻格式”旨在指定實現(xiàn)沉浸式音頻體驗的方法。(j)術(shù)語“再現(xiàn)系統(tǒng)”旨在指定解碼器中的元素,該元素能夠在再現(xiàn)側(cè)使用所傳輸?shù)脑獢?shù)據(jù)和藝術(shù)意圖來渲染音頻對象,例如但不排他地在收聽者周圍的3d(三維)音頻空間中的音頻對象??梢詫δ繕藫P聲器布局(例如5.1環(huán)繞)或耳機執(zhí)行渲染,同時可以例如響應(yīng)于來自頭部跟蹤設(shè)備的反饋來動態(tài)地修改元數(shù)據(jù)??梢栽O(shè)想其他類型的渲染。
背景技術(shù):
1、不連續(xù)傳輸(dtx)在移動通信系統(tǒng)中用于在語言或一般音頻暫停期間關(guān)閉無線電發(fā)送機。dtx的使用節(jié)省了移動站中的功率并且增加了電池再充電之間所需的時間。它還降低了一般干擾水平,從而提高了傳輸質(zhì)量。然而,在語言或一般音頻暫停期間,如果信道被完全切斷,則通常與語言或一般音頻一起傳輸?shù)谋尘霸肼曇蚕?。結(jié)果是在通信的接收端產(chǎn)生不自然的發(fā)聲音頻信號(靜音)。
2、代替在語言或一般音頻暫停期間完全關(guān)閉傳輸,已經(jīng)開發(fā)了許多技術(shù),其中生成表征背景噪聲的參數(shù)并以低比特速率在靜音插入描述符(sid)幀比特流中傳輸。然后可以在接收器側(cè)(解碼器)使用這些參數(shù),通常稱為舒適噪聲(cn)參數(shù),以盡可能多地在發(fā)送器側(cè)(編碼器)重新生成背景噪聲,該背景噪聲與背景噪聲的頻譜和時間內(nèi)容有關(guān)。重新生成背景噪聲的過程被稱為舒適噪聲生成(cng)。
3、歷史上,會話電話是用單聲道手機來實施的,單聲道手機僅具有一個換能器,以僅向用戶的一只耳朵輸出聲音。因此,單聲道編解碼器的sid可以實現(xiàn)低比特速率。在過去的十年中,用戶已經(jīng)開始結(jié)合耳機使用他們的便攜式手機來通過他們的兩只耳朵接收聲音,主要是聽音樂,但有時也聽語言。然而,當使用便攜式手機來發(fā)送和接收會話語言時,內(nèi)容仍然是單聲道的,但是當使用耳機時呈現(xiàn)給用戶的兩只耳朵。
4、利用3gpp(第三代合作伙伴計劃)語音編解碼標準實施用于增強語言服務(wù)(evs)的編解碼器,如參考文獻[1](其全部內(nèi)容通過引用并入本文)中所述,編解碼音頻聲音(例如語言、音樂和通過便攜式手機發(fā)送和接收的任何其他聲音)的質(zhì)量已經(jīng)顯著提高。下一個自然步驟是傳輸立體聲信息,使得接收器盡可能接近在通信鏈路的另一端捕獲的現(xiàn)實生活音頻場景。
5、此外,在過去幾年中,音頻的生成、記錄、表示、編解碼、傳輸和再現(xiàn)正在朝著收聽者的增強的、交互式的和沉浸式的體驗發(fā)展。沉浸式體驗可以被描述為例如在聲音來自所有方向時深度參與或牽涉到音頻場景中的狀態(tài)。在沉浸式音頻(也稱為3d(三維)音頻)中,聲音映像(image)在收聽者周圍的所有三個維度中被再現(xiàn),考慮到廣泛的聲音特性,如音色、方向性、混響、透明度和準確性的(聽覺)寬敞度。沉浸式音頻被產(chǎn)生用于特定音頻回放或再現(xiàn)系統(tǒng),諸如基于揚聲器的系統(tǒng)、集成再現(xiàn)系統(tǒng)(條形音箱)或耳機。然后,音頻再現(xiàn)系統(tǒng)的交互性可以包括例如調(diào)整聲級、改變聲音的位置或選擇不同語言用于再現(xiàn)的能力。
6、有三種基本方法(下面也稱為音頻格式)來實現(xiàn)沉浸式音頻體驗。
7、第一種方法是基于聲道的音頻,其中使用多個間隔開的麥克風(fēng)來捕獲來自不同方向的聲音,而一個麥克風(fēng)對應(yīng)于特定揚聲器布局中的一個音頻聲道。每個記錄的聲道被提供給特定位置中的揚聲器。基于聲道的音頻的示例包括例如立體聲、5.1環(huán)繞聲、5.1+4等。
8、第二種方法是基于場景的音頻(sba),其通過維度分量的組合將局部化空間上的期望聲場表示為時間的函數(shù)。表示基于場景的音頻的信號獨立于聲源位置,而聲場必須在渲染再現(xiàn)系統(tǒng)處變換為所選擇的擴音器布局?;趫鼍暗囊纛l的示例是高保真度立體聲響復(fù)制。
9、最后的第三沉浸式音頻方法是基于對象的音頻,其將聽覺場景表示為單獨的音頻元素(例如歌手、鼓、吉他)的集合,伴隨有關(guān)于例如它們在音頻場景中的位置的信息,使得它們可以在再現(xiàn)系統(tǒng)處被渲染到它們的預(yù)期位置。這給予基于對象的音頻很大的靈活性和交互性,因為每個對象保持離散并且可以被單獨操縱。
10、除了基本方法之外,正在開發(fā)新的多聲道編解碼技術(shù),諸如例如參考文獻[5]中描述的元數(shù)據(jù)輔助空間音頻(masa),參考文獻[5]的全部內(nèi)容通過引用并入本文。在masa方法中,在masa分析器中生成masa元數(shù)據(jù)(例如方向、能量比、擴展相干性、距離、環(huán)繞相干性,所有這些都在若干時頻時隙中),其被量化、編解碼并傳入到比特流中,而masa音頻聲道被視為由核心編碼器編解碼的(多)單聲道或(多)立體聲傳送信號。在masa解碼器處,masa元數(shù)據(jù)然后引導(dǎo)解碼和渲染過程以重建輸出空間聲音。
11、用于實現(xiàn)沉浸式體驗的上述音頻方法中的每一個都存在優(yōu)點和缺點。因此,常見的是,代替僅一種音頻方法,在復(fù)雜的音頻系統(tǒng)中組合若干音頻方法以創(chuàng)建沉浸式聽覺場景。示例可以是將基于場景的音頻(sba)或masa與基于對象的音頻(例如sba或masa與幾個離散音頻對象)組合的音頻系統(tǒng)。
12、近年來,3gpp開始致力于基于如參考文獻[1]中描述的evs編解碼器開發(fā)如參考文獻[2]中描述的用于被稱為ivas(沉浸式語音和音頻服務(wù))的沉浸式服務(wù)的3d音頻編解碼器,參考文獻[2]的全部內(nèi)容通過引用并入本文。ivas編解碼器是多信道編解碼器,其中比特速率通常隨著經(jīng)編解碼及發(fā)送信道的數(shù)量增加而要求更高。
13、因此,多信道編解碼器中的dtx操作需要解決(a)保持低sid比特速率與(b)使用要表示的大量信道之間的權(quán)衡。例如,如果每個信道將由其自己的sid表示,則總編解碼器sid比特速率將太高。因此,需要有效的dtx方法和sid編解碼。
技術(shù)實現(xiàn)思路
1、根據(jù)第一方面,本公開涉及一種用于基于對象的音頻編解碼器中的音頻對象的不連續(xù)傳輸(dtx)的方法,所述音頻對象包括各自的音頻流,所述方法包括:分析音頻流以產(chǎn)生關(guān)于音頻對象的語音或信號活動信息;響應(yīng)于關(guān)于所述音頻對象的所述活動信息,檢測所述音頻對象的dtx信號段和所述dtx信號段內(nèi)的sid幀,其中,所述段和幀檢測包括(a)更新非活動幀的全局sid計數(shù)器,以及(b)取決于所述全局sid計數(shù)器的值,用信號通知所述dtx信號段內(nèi)檢測到的sid幀;以及使用sid幀編解碼對所述用信號通知的、檢測到的sid幀進行編碼(encode)。
2、根據(jù)另一方面,本公開涉及一種用于基于對象的音頻編解碼器中的音頻對象的不連續(xù)傳輸(dtx)的設(shè)備,所述音頻對象包括各自的音頻流,所述設(shè)備包括:音頻流的分析器,用于產(chǎn)生關(guān)于音頻對象的語音或信號活動信息;dtx控制器,用于響應(yīng)于關(guān)于音頻對象的活動信息,檢測音頻對象的dtx信號段和dtx信號段內(nèi)的sid幀,其中dtx控制器(a)更新非活動幀的全局sid計數(shù)器,以及(b)取決于全局sid計數(shù)器的值,用信號通知dtx信號段內(nèi)檢測到的sid幀;以及使用sid幀編解碼的用信號通知的、檢測到的sid幀的編碼器。
3、根據(jù)另一方面,本公開描述了一種用于解碼不連續(xù)傳輸(dtx)操作期間的音頻對象的方法,每個音頻對象包括具有元數(shù)據(jù)(md)的音頻流,md包括至少一個md參數(shù),該方法包括:對元數(shù)據(jù)進行解碼,包括調(diào)整md參數(shù)的值以降低幀之間的所述md參數(shù)的差異;以及解碼所述音頻流。
4、根據(jù)第四方面,本公開公開了一種用于解碼不連續(xù)傳輸(dtx)操作期間的音頻對象的設(shè)備,每個音頻對象包括具有元數(shù)據(jù)(md)的音頻流,md包括至少一個md參數(shù),該設(shè)備包括:元數(shù)據(jù)解碼器,用于對元數(shù)據(jù)進行解碼,其中元數(shù)據(jù)解碼器調(diào)整md參數(shù)的值以降低幀之間的所述md參數(shù)的差異;以及音頻流解碼器,用于解碼音頻流。
5、(a)用于基于對象的音頻編解碼器中的音頻對象的不連續(xù)傳輸(dtx)的方法和設(shè)備以及(b)用于解碼不連續(xù)傳輸(dtx)操作期間的音頻對象的方法和設(shè)備的前述和其他目的、優(yōu)點和特征將在閱讀僅通過示例的方式參考附圖給出的其說明性實施例的以下非限制性描述時變得更加顯而易見。