DAV首頁(yè)
數字音視工程網(wǎng)

微信公眾號

數字音視工程網(wǎng)

手機DAV

null
null
null
卓華,
null
null
null
null
null
null

我的位置:

share

沉浸式音頻技術(shù)的制作、播放及發(fā)展與應用

來(lái)源:時(shí)代拓靈        編輯:ZZZ    2024-02-21 10:03:59     加入收藏

什么是沉浸式音頻?大家最近可能經(jīng)常聽(tīng)到“沉浸式音頻”,“全景聲”這兩個(gè)名詞,那么它們與之前的環(huán)繞聲或者3D音頻有什么本質(zhì)的區別嗎?

  沉浸式音頻技術(shù)近年來(lái)逐漸擴大其應用范圍,常見(jiàn)應用于VR,影視,會(huì )議等場(chǎng)景。本文由時(shí)代拓靈創(chuàng )始人&CEO,孫學(xué)京博士LiveVideoStack線(xiàn)上分享的內容整理而成,從聲場(chǎng)采集,傳輸,渲染播放算法以及軟硬件等方面詳細介紹了沉浸式音頻技術(shù)的制作、播放及發(fā)展與應用。

  大家好,我是來(lái)自時(shí)代拓靈的孫學(xué)京。本次分享將主要介紹沉浸式音頻的從采集制作一直到播放整個(gè)鏈條上所需要的一些軟件和硬件的技術(shù),詳情如下:

  1、沉浸式音頻簡(jiǎn)介

  1.1什么是沉浸式音頻?

  什么是沉浸式音頻?大家最近可能經(jīng)常聽(tīng)到“沉浸式音頻”,“全景聲”這兩個(gè)名詞,那么它們與之前的環(huán)繞聲或者3D音頻有什么本質(zhì)的區別嗎?

  通俗地講,它們之間可能有很多的相似之處。但就技術(shù)層面來(lái)說(shuō),從底層架構,到最終的展現形式都有非常大的變化。

  首先我們把傳統的5.1音頻擴展為不僅包含聲道也包含對象和場(chǎng)景。目前,沉浸式音頻類(lèi)型主要分為三大類(lèi):基于聲道Channel based audio(CBA)、基于對象Object-based audio(OBA)、基于場(chǎng)景Scene-based Audio(SBA)。

  目前市面上一些主流的系統主要是Dolby Atmos、MPEG-H以及影視行業(yè)的SMPTE 2098協(xié)議。其主體還是基于Dolby Atmos,但同時(shí)它還允許其它不同標準被兼容在此協(xié)議內,也就是說(shuō)Dolby Atmos某種意義上是SMPTE 2098的一個(gè)子集,我們可以在兼容Dolby Atmos的同時(shí),推出自己的標準。因此我相信,接下來(lái)沉浸式音頻將來(lái)會(huì )迎來(lái)一個(gè)非常大的利好。

  1.2沉浸式音頻-傳統到3D音效

  基于揚聲器的沉浸式音頻,常見(jiàn)的是5.1或7.1,如果是耳機設備,則會(huì )有HRTF雙耳3D環(huán)繞的音頻。5.1音頻實(shí)際上是固定的聲道位置,由左前、右前、左后、右后構成,而7.1就是在5.1基礎上再加兩個(gè)背后的聲道位置,.1就是低頻通道的意思。

  目前新的沉浸式音頻,不再局限于平面式的聲道,進(jìn)一步支持全面360度*360度的沉浸式音頻(支持高度)。例如影院的杜比影廳,頂部都會(huì )布有很多的喇叭;如果是家庭的話(huà),我們經(jīng)常叫做5.1.2,就是在頂上再設置兩個(gè)音箱,或者7.1.4就是在頂上再設置4個(gè)音箱。

  真正想要達到一個(gè)非常好的沉浸式效果,頂部的高度信息帶來(lái)的對人的感官沖擊感是非常強烈的,比如下雨或者打雷的聲音。即使在平時(shí)可能感覺(jué)不到很明顯的差別,但當你真的專(zhuān)注于音頻效果時(shí),增加了高度信息的音頻感覺(jué)就會(huì )非常震撼。

  這種變革如果停留在傳統的5.1格式上是很難實(shí)現的。盡管傳統的做法通過(guò)布多層的方式也可以模擬出高度信息,但是并沒(méi)有從根本上,即制作混音端來(lái)改變底層的架構。因此,高度信息的增加實(shí)際上是對影視行業(yè)沉浸式音頻制作的巨大改變。加入高度信息的音頻會(huì )有很高的沉浸感,并且底層的渲染技術(shù)比傳統的5.1混音要復雜很多,方位的渲染精度也會(huì )大大的提升,所以整體的渲染質(zhì)感有很大的提升。另外,近幾年在A(yíng)R或者VR時(shí)代,非常強調交互的特性。比如VR頭顯設備的頭部跟蹤、旋轉,不僅要旋轉視頻,同時(shí)還需要旋轉聲場(chǎng)。這些都是傳統的5.1音頻(事先混音)很難實(shí)現的,而新的渲染技術(shù),沉浸式音頻架構是可以實(shí)現的。

  至于其它的應用方面,在看電視節目的時(shí)候,沉浸式音頻還可以靈活的根據不同的場(chǎng)合控制選擇不同的語(yǔ)言,選擇聲場(chǎng)中不同的方位進(jìn)行體驗等。這些都是通過(guò)傳輸一個(gè)對象或者傳輸一個(gè)聲場(chǎng)的概念來(lái)實(shí)現的,而傳統的5.1或者立體聲傳輸是沒(méi)辦法實(shí)現的(無(wú)法實(shí)現單音軌分離)。

  最后一點(diǎn),制作與播放設備的分離。無(wú)論是5.1音箱、立體聲耳機或是其它設備,其中的混音都由渲染引擎中的軟件算法來(lái)實(shí)現。在制作的時(shí)候,混音師就會(huì )假想出一個(gè)球形的空間場(chǎng)景,也就不再完全依賴(lài)必須有一個(gè)5.1的混音廳才能將聲音混好,并且完成一次混音就可以在任何地方進(jìn)行播放。

  1.3 Object Audio

  DolbyAtmos的混音界面如圖右下角所示,是一個(gè)模擬電影院的方盒子,屏幕在前方。其中小球代表的是音頻對象,其在三維空間中會(huì )有一個(gè)運動(dòng)的軌跡?;煲魩煏?huì )戴耳機或者通過(guò)自己的混音環(huán)境來(lái)體驗混音(音頻對象)的軌跡,但實(shí)際最終播放的時(shí)候有可能是一個(gè)5.1或者7.1.4的混音環(huán)境,這個(gè)是由渲染引擎來(lái)完成的。

  對象音頻是現在比較流行,并且逐漸占據主流的。其源自于游戲,杜比作為一個(gè)商業(yè)公司將對象音頻徹底商業(yè)化推行到影院中,并進(jìn)行了許多商業(yè)算法上的創(chuàng )新,解決了很多復雜的場(chǎng)景問(wèn)題。

  對象音頻的一項核心組成部分就是元數據,我們實(shí)際上是通過(guò)位置、擴展度或者運動(dòng)特性等來(lái)描述對象音頻,這些元數據都要傳輸到渲染端,同時(shí)會(huì )進(jìn)行一些編碼壓縮操作。對象音頻的渲染方法一般是基于Panning,就是聲音如何通過(guò)幅值、相位的關(guān)系在多個(gè)喇叭或者耳機里產(chǎn)生一定的方位感。

  1.4 Scene-Based Audio

  Scene-Based Audio主要是以MPEG-H為代表(實(shí)際指MPEG-H中Scene-Based Audio部分所占比例較高)。Scene-Based Audio主要是用來(lái)描述場(chǎng)景的聲場(chǎng),其核心的底層算法是HigherOrder Ambisonic(HOA),因此一些新的沉浸式音頻的底層技術(shù)也不完全是新的,算法以及新的技術(shù)都是漸進(jìn)的,近幾年隨著(zhù)帶寬的加大,隨著(zhù)復雜度即算力的增強,以及AR、VR新的交互方式的產(chǎn)生促進(jìn)了技術(shù)的迅勐提升。Ambisonic也煥發(fā)了青春,VR成功將其帶到了大眾的面前。Ambisonic描述三維空間中的聲場(chǎng),例如一階Ambisonic更多的是通過(guò)極坐標。

  一階Ambisonics:FOA

  Ambisonics中存在一種階的概念,一階Ambisonics我們稱(chēng)之為FOA(First-Order Ambisonics),零階即沒(méi)有任何方向,也就是全向麥克風(fēng)來(lái)描述聲場(chǎng)。通常情況下,在A(yíng)mbisonic中B格式為中間格式,聲場(chǎng)采集設備得到的原始信號為A格式。為了便于后續的運算,無(wú)論麥克風(fēng)是什么樣子,通常都會(huì )轉化為通用格式即B格式。

  如圖,X代表一個(gè)點(diǎn)元,通過(guò)Ambisonic的(W,X,Y,Z)表示,將其映射到一個(gè)聲場(chǎng)中是非常簡(jiǎn)單的,主要是應用了三角函數進(jìn)行一系列公式的計算。將其通用化后在高階時(shí)的表現即為球面諧波函數。

  高階Ambisonics:HOA

  描述聲場(chǎng)其實(shí)就是通過(guò)物理學(xué)的球面諧波函數來(lái)描述聲波在空間中的傳播,存在非常高的階數,如之前提到的零階、一階函數,甚至三階函數(右下角圖)。

  2、聲場(chǎng)采集技術(shù)

  2.1雙耳錄音

  接下來(lái)介紹聲場(chǎng)采集技術(shù),在音頻平臺中比較常見(jiàn)的有雙耳錄音,模仿人類(lèi)大腦工作方式,模擬人左/右耳聽(tīng)到的聲音。常見(jiàn)的使用工具為3Dio人工頭麥克風(fēng)。

  上圖為VR時(shí)代,3Dio的升級(復雜)版本,適合于四個(gè)方向的Omni Binaural Microphone。Binaural錄音可以理解為聲場(chǎng)采集的上限,拋開(kāi)人耳個(gè)性化的差異,達到的仿真效果要比HRTF等要好得多。這個(gè)錄音的輸出格式通常叫作Quad Binaural(QB)。

  2.2 Ambisonic錄音

  Ambisonic聲場(chǎng)錄音的優(yōu)勢是更加靈活,通過(guò)錄音設備得到的Ambisonic信號,可以直接做很多的后續處理。但是如果用Ambisonic信號轉成Binaural,效果在某一點(diǎn)上會(huì )遜色于Binaural信號。我們也曾做過(guò)一些比較,如果是用于VR 360度的聲場(chǎng)采集,與Omni Binaural錄音或者QB格式相比,Ambisonic錄音整體表現會(huì )比較平均,也就是最好方向比QB差,但也會(huì )比QB最差的方向要好一些。

  有關(guān)聲場(chǎng)采集的算法以及麥克風(fēng)的設備,相對來(lái)說(shuō)比較復雜。簡(jiǎn)單地說(shuō),與其它設備的麥克風(fēng)陣列使用類(lèi)似,都有同樣的需求:核心參數有信噪比、一致性、靈敏度、頻響;選擇MEMS麥克風(fēng)還是ECM麥克風(fēng)。早期一般會(huì )選擇ECM,但ECM的一致性稍差,所以比較貴的麥克風(fēng)出場(chǎng)時(shí)都會(huì )自帶匹配的校準參數。目前新的麥克風(fēng)更多的是MEMS,一致性相對較好,可以達到,可以滿(mǎn)足很多需求。Ambisonic聲場(chǎng)采集得到的陣列信號,在剛性球體上,可以近似的用剛性球體球面諧波函數,把傳感器得到的信號轉成球面諧波函數的一些系數來(lái)表示,然后針對系數進(jìn)行后續的聲場(chǎng)的旋轉等操作。

  3、沉浸式音頻的制作,存儲,傳輸

  那么,有了沉浸式音頻聲場(chǎng)的采集,之后應該如何進(jìn)行進(jìn)行制作?目前主流的工具Pro Tools、Reaper、Nuendo都是在影視行業(yè)比較常用的。主流的Pro Tools目前已經(jīng)全面支持Dolby Atmos,也可以支持一些高階的HOA;Reaper因為其功能強大,價(jià)格便宜,性?xún)r(jià)比高,被越來(lái)越多的音頻行業(yè)人士所喜愛(ài)。

  以上提到的我們稱(chēng)為音頻工作站,實(shí)際上大部分的工作還是通過(guò)插件來(lái)完成的,工作站完成主流的工作,靠插件來(lái)完成具體的如混響算法或者VR相關(guān)的一些工作。常見(jiàn)的插件主要有:Ambix、Facebook 360workstation、Dolby Atmos。

  時(shí)代拓靈公司的插件,叫做Twirling Works,最初是為了VR制作來(lái)設計的。

  多通道音頻壓縮一般是通過(guò)提取相位差、幅值差等一些Parametric Stereo,多通道通常選擇降維或者去相關(guān)的方式。

  MPEG-H HOA編碼的核心是其中的HOA Decomposition部分,將有方向的,細節部分的信號取出來(lái)。將無(wú)方向的,環(huán)境聲音信號分離開(kāi)。

  HOA的優(yōu)勢是存在分層的編碼機制,如果在帶寬精度要求不高,帶寬不夠的時(shí)候,可以傳輸輸入較少的低階信號,如果帶寬足夠的話(huà),則可以傳輸高階信號。

  對象音頻的編碼主要是來(lái)自杜比的科學(xué)家的貢獻,首先是兼容5.1開(kāi)發(fā)了Joint object coding(JOC),可以將多個(gè)對象音頻下混到5.1聲道,通過(guò)傳統的5.1通道,生成的信號可以被5.1解碼器很好的兼容播放。并且如果同時(shí)支持對象音頻,就可以將其還原成為支持Dolby Atmos的沉浸式音頻。Spatial coding可以理解為是在JOC之上的前處理,面向更多的對象,可以通過(guò)一些準則如:對象的重要性,能量等對多個(gè)對象做聚類(lèi)。

  4、渲染與播放

  渲染與播放是非常關(guān)鍵的一個(gè)部分,渲染的方式通常叫做Panning,在三維空間中的渲染方式稱(chēng)為Vector-based Amplitude Panning。

  HOA的渲染相對更復雜一些,主要需要考慮的是如何將不同的HOA的信息給到不同的喇叭。

  以上是優(yōu)化HOA decoding所使用的準則之一Max rE。

  以上是Decoding的幾種不同方式,傳統的主要Sampling or projection decoding和Mode-matchingdecoding兩種;此外,還有一些新的進(jìn)展,盡可能的使得渲染更均勻,最大程度保證音質(zhì)不受損。

  5、基于IP的媒體實(shí)現音頻制作和體驗轉換

  隨著(zhù)基于IP媒體的出現和對更好的娛樂(lè )體驗的追求,音頻終于在廣播中呈現它應有的突出作用。你甚至可以稱(chēng)之為下一代音頻革命。行業(yè)對沉浸式音頻的接受將對現場(chǎng)直播產(chǎn)生巨大的影響——它已經(jīng)在改變著(zhù)音樂(lè )、劇院、影院、演播室、娛樂(lè )音樂(lè )、電影制片廠(chǎng)和錄音行業(yè)。

  沉浸式音頻成為現實(shí)

  把在水平面上運行的環(huán)繞聲擴展到三維音頻體驗(空間音頻),沉浸式音頻賦予創(chuàng )作人員和工程師在傳達情感方面有更高自由度以及對耳聞目睹的內容增加視角的更強大工具。目的是讓觀(guān)眾從任何方向(如果不是所有方向)都沉浸其中。

  沉浸式音頻使用從空間中一個(gè)或多個(gè)點(diǎn)捕捉聲場(chǎng)中聲音的三維聲,創(chuàng )建能夠混合適應不同類(lèi)型的音響系統的“音頻對象”。由于能夠操控聲場(chǎng)或選擇特定的流,音頻對象打開(kāi)由制作團隊和聽(tīng)眾自身創(chuàng )造獨特體驗的大門(mén)。靈活性和選擇是關(guān)鍵。

  通過(guò)沉浸式音頻,觀(guān)眾/聽(tīng)眾可以選擇特定的音頻對象,將其包含在他們看到和聽(tīng)到的廣播節目版本內。就像一個(gè)附加的攝像機信號選項,如“進(jìn)球攝像機”或“裁判攝像機”,可以選擇不同的音頻信號,將聽(tīng)眾帶入比賽或其它現場(chǎng)體驗的不同部分。觀(guān)眾/聽(tīng)眾可以改變他們的空間位置,從而獲得一個(gè)增加更大的現實(shí)性和如置身比賽中的感覺(jué)的不同視角。附加的聲音可能是來(lái)自配話(huà)筒的運動(dòng)員,或者一級方程式賽車(chē)車(chē)手和工作人員之間的通話(huà),或者其它任何可以在制作過(guò)程中捕捉的音頻元素。

  增加的聲源和數據增大復雜性

  現在傳統的聲場(chǎng)是立體聲和環(huán)繞聲:5.1和7.1,具有左、中、右、左環(huán)繞、右環(huán)繞和重低音/低頻效果。沉浸式音頻引入多兩層——除了環(huán)繞聲基本層之外,還有一個(gè)高度層和頂層。

  音頻對象具有描述如何在聲場(chǎng)內還原音頻的相關(guān)元數據,這些數據描述了位置、擴散、運動(dòng)特征及其它還音信息,給予對象根據位置或通過(guò)特定的揚聲器進(jìn)行靈活定位必不可少的獨立性。

  在沉浸式音頻實(shí)現中,廣播公司將發(fā)現需要應對和管理更多的音頻流。隨著(zhù)這種格式在制作工作流程中占有一席之地,考慮到它比傳統的立體聲和環(huán)繞格式可能更復雜,一個(gè)關(guān)鍵的挑戰將是擴展服務(wù)。

  與在標準的環(huán)繞聲工作流程中相比,沉浸式音頻的音頻源、音頻流和對象的數量更高,為保持工作流程的定時(shí)/同步完整性,可能需要更全面的PTP網(wǎng)絡(luò )規程?;A設施的主要考慮因素將是流量和帶寬管理、QoS處理和適當的PTP網(wǎng)絡(luò )層次結構處理。

  從廣義上看,交換基礎設施方面的一個(gè)響應是與自動(dòng)播出、控制和調度平臺集成,因為它們通過(guò)控制的方式反映了工作流程的意圖。更具體地說(shuō),處理基礎設施,廣播公司將需要使用可以顯示用于控制和配置的北向API的PTP可知的管理型IP交換機。

  從網(wǎng)絡(luò )的角度來(lái)看,廣播公司可能會(huì )考慮根據類(lèi)別,將音頻源和對象捆綁在一起,例如源位置、被“收集”的聲音類(lèi)型和要捕獲的特定效果。音頻流作為可以四處移動(dòng)的對象得到管理,當底層基礎設施能夠以對人類(lèi)大腦有意義的方式聚合數據時(shí),這是有益的。

  為了保持數據流和數據的邏輯組織,與能夠靈活地管理此流量、憑借VLAN進(jìn)行分組并確保加入恰當的QoS的交換基礎設施協(xié)同工作是很有用的。這在其它類(lèi)型的通信(如內部通話(huà)、元數據)依賴(lài)于相同的基礎設施場(chǎng)合的工作流程中特別重要。

  為支持沉浸式工作流程,Artel的AoIP、管理型和支持PTP的交換機提供這種水平的流量控制/管理和PTP功能。該公司Quarra系列交換機中的邊界時(shí)鐘功能提供對PTP網(wǎng)絡(luò )進(jìn)行分區的工具,以實(shí)現更好的性能。(音頻源智能分區可以防止PTP主時(shí)鐘過(guò)載狀態(tài))。特別是對于直播活動(dòng),廣播公司可能會(huì )考慮根據哪些交換機服務(wù)哪些源來(lái)部署他們的網(wǎng)絡(luò )。

  先進(jìn)的IP交換機簡(jiǎn)化采用

  沉浸式音頻仍然處于相對早期的發(fā)展階段,還沒(méi)有標準配置獲業(yè)界采用。廣播公司已經(jīng)對5.1.2、5.1.4和7.1.4進(jìn)行了試驗,5.1.4似乎提供了出色的3D體驗,同時(shí)還使得基礎設施轉換可管理。

  6、行業(yè)現狀與相關(guān)應用

  有關(guān)行業(yè)現狀,聲場(chǎng)采集部分一階Ambisonics(FOA,First-Order Ambisonics)已經(jīng)很常見(jiàn)了,并且同時(shí)也出現很多高階Ambisonics(HOA,Higher-Order Ambisonics)的采集。VR對于A(yíng)mbisonic存在很強大的助推,Google和Facebook也在提供支持。得益于一些主流公司的支持,大家對此技術(shù)有了更多的認知和重視。

  專(zhuān)業(yè)領(lǐng)域則主要是Object Audio和HOA兩大趨勢,接下來(lái)隨著(zhù)5G、AR、VR的發(fā)展沉浸式音頻技術(shù)的未來(lái)是非??善诘?。

  關(guān)于沉浸式音頻技術(shù)的相關(guān)應用,毫無(wú)疑問(wèn)影視娛樂(lè ),VR是最主要的應用,例如各家影院的杜比全景聲可以說(shuō)是非常常見(jiàn)的。此外,在我認為會(huì )議其實(shí)是非很好的應用點(diǎn),大家都希望能有一個(gè)很好的沉浸式的會(huì )議體驗。另外,還有聲場(chǎng)采集以及在其它聲學(xué)領(lǐng)域的應用,例如聲學(xué)事件監測,定位等也逐漸開(kāi)始出現一些應用。

  來(lái)源:孫學(xué)京

免責聲明:本文來(lái)源于時(shí)代拓靈,本文僅代表作者個(gè)人觀(guān)點(diǎn),本站不作任何保證和承諾,若有任何疑問(wèn),請與本文作者聯(lián)系或有侵權行為聯(lián)系本站刪除。
掃一掃關(guān)注數字音視工程網(wǎng)公眾號

相關(guān)閱讀related

評論comment

 
驗證碼:
您還能輸入500
    国产av福利久久精品can动漫|2021精品国产自在现线|亚洲无线观看国产高清|欧洲人妻丰满av无码久久不卡|欧美情侣性视频