易科國際 | 深度對話(huà)Kane老師:智能導播系統的創(chuàng )新應用與前瞻展望
來(lái)源:易科國際 編輯:ZZZ 2024-08-21 09:10:30 加入收藏
易科體驗中心突出展示了易科的集成服務(wù)如何實(shí)現了溝通和協(xié)作空間內的軟硬件結合,從而滿(mǎn)足現代應用的使用需求。
易科體驗中心主要由一間培訓室及與之相連的會(huì )議空間和會(huì )議室組成。該體驗中心旨在向用戶(hù)展示不斷發(fā)展的前沿技術(shù)為溝通和協(xié)作應用帶來(lái)的獨特功能。
本文系國際媒體《Inavate》雜志對Kane老師的專(zhuān)訪(fǎng)譯文。
EZpro
Kane Zhang

易科國際高級副總裁&網(wǎng)絡(luò )音視頻CTO
InfoComm 品牌大使
AVIXA CTS-D 認證工程師
CCNA, ENS認證工程師
Dante培訓師
Kane Zhang在音視頻領(lǐng)域擁有超過(guò)35年的豐富經(jīng)驗,擅長(cháng)包括會(huì )議系統、背景音樂(lè )系統、多功能禮堂、報告廳,展覽展示系統以及公共廣播系統在內的不同類(lèi)型音視頻系統的設計和集成。
Kane擁有思科的CCNA網(wǎng)絡(luò )工程師認證,Extreme 的ENA、ENS網(wǎng)絡(luò )專(zhuān)家工程師認證以及InfoComm CTS-D 音視頻工程設計師認證。近10年來(lái),一直致力于推廣會(huì )議室及培訓室的標準化建設。為行業(yè)打造了具有 “獨立” 精神的集群會(huì )議整體解決方案-“鐵思”方案,即以用戶(hù)體驗為導向推動(dòng)底層技術(shù)研發(fā)和創(chuàng )新,從端到端解決會(huì )議場(chǎng)景中常見(jiàn)的各種使用痛點(diǎn)。貢獻并推動(dòng)了現代會(huì )議室音視頻集成體驗的全新變革。
Kane曾經(jīng)在亞太區參與設計和調試的了眾多大型項目,包括:2018年的青島上合峰會(huì )、2017廈門(mén)金磚五國峰會(huì )、香港理工大學(xué)校董會(huì )、香港終審法院。

易科高級副總裁&網(wǎng)絡(luò )音視頻CTO Kane Zhang首先談到了集成商們希望實(shí)現的效果:“在培訓室或者會(huì )議室環(huán)境中,無(wú)法保證人們會(huì )坐在哪里或站在哪里。他們可能擠在一起,也可能相隔很遠。但技術(shù)的核心目標始終不變,那就是人們希望自己能被清楚地聽(tīng)到和看到。在音頻方面,麥克風(fēng)技術(shù)已經(jīng)發(fā)展到可以覆蓋到所有空間。而在視頻方面,主要采用的是攝像機追蹤技術(shù),即攝像機指向不同的方向并根據需要進(jìn)行切換?,F在易科已經(jīng)開(kāi)始采用另一項技術(shù)——“智能導播”。因為僅僅從一個(gè)視角切換到另一個(gè)視角是不夠的,你必須將發(fā)言者和演示的內容框起來(lái),才能準確傳達信息和場(chǎng)景,就像導演對電影鏡頭進(jìn)行取景一樣,不僅要把人物拍進(jìn)鏡頭里,如果他們移動(dòng),攝像機還需要追蹤他們;如果他們在白板上寫(xiě)字,那么白板上的內容也要拍進(jìn)鏡頭里。這一切需要智能技術(shù)才能做到。我們想在培訓室展示的,正是這種智能技術(shù)的可行性。“

易科培訓室的音頻鏈路由Audix會(huì )議話(huà)筒、思美DSP、Powersoft功放以及IPS揚聲器組成。DSP的選擇對于現代會(huì )議空間的構建至關(guān)重要。Kane老師談到了思美處理器的優(yōu)勢:“現代DSP對生態(tài)系統來(lái)說(shuō)至關(guān)重要,特別是在經(jīng)過(guò)軟件編程后,我們可以使用DSP來(lái)構建終端用戶(hù)所需的技術(shù)系統。同時(shí),DSP的可擴展性也很重要,因為我們需要根據客戶(hù)需求的變化擴展系統規模。在我看來(lái),思美DSP的優(yōu)勢在于其非凡的音質(zhì)和動(dòng)態(tài)范圍。它具有目前市面上最出色的模數/數模轉換器,且基于硬件并采用FPGA,因此功能非常強大且穩定。”
DSP產(chǎn)品也是構建易科體驗中心的關(guān)鍵。作為易科內部開(kāi)發(fā)的智能攝像機和發(fā)言人追蹤模塊,智能導播系統旨在為用戶(hù)提供更方便、功能更強大的溝通和協(xié)作空間。

Kane老師說(shuō):“我們所有的智能化工作都基于DSP 。對我們來(lái)說(shuō),重要的是能夠使用Lua編程。Lua是一種簡(jiǎn)單的編碼語(yǔ)言,讓我們可以直接與機器對話(huà)。它讓我們能夠在硬件和軟件之間建立直接對話(huà)。我們使用了Lua來(lái)構建智能導播系統引擎。”
Kane老師向我們詳細介紹了智能導播系統如何推動(dòng)了音視頻技術(shù)的發(fā)展:“目前,我們主要通過(guò)三種方式實(shí)現攝像機追蹤和發(fā)言人追蹤。第一種是通道識別,即我們可以準確識別正在使用的麥克風(fēng),并以此向攝像機發(fā)送指令,使其指向正在使用的麥克風(fēng)。第二種是空間識別,即嘗試確定人物的實(shí)際位置,并以此進(jìn)行攝像機追蹤。最后一種是使用圖像分析和AI,即利用肢體語(yǔ)言識別人物并將攝像機對準取景。在我看來(lái),要想獲得完美的效果,需要將這三種方法結合在一起,形成一個(gè)一體化解決方案。”
Kane老師還詳細解釋了為什么作為解決方案供應商的易科是提升攝像機追蹤和發(fā)言人取景效果的最佳之選:“制造商無(wú)法做到這一點(diǎn),因為他們有自己的專(zhuān)長(cháng)和擅長(cháng)的領(lǐng)域。但我們是解決方案供應商。我們的工作是將不同制造商的產(chǎn)品集成在一起。這就是我們創(chuàng )建智能導播系統的原因。我們的技術(shù)核心是思美DSP,我們非常擅長(cháng)發(fā)揮DSP的功能。我們選擇思美DSP作為我們智能導播系統的平臺,并可以將各種終端與其集成。”
Kane老師接下來(lái)談到了開(kāi)發(fā)智能導播系統所付出的努力:"多年來(lái)我一直在研究攝像機追蹤技術(shù)。智能導播系統目前是3.0版本。我們花了大約一個(gè)月的編程時(shí)間開(kāi)發(fā)出1.0版本。然后花了三年時(shí)間才開(kāi)發(fā)出2.0版本,因為我們必須確保系統的穩定性?,F在我們的版本是3.0,我們相信它已經(jīng)非常穩定,可以隨時(shí)配置給用戶(hù)使用。“

在談到面臨的挑戰時(shí),Kane老師說(shuō)道:“我們目前面臨的最大挑戰是如何將系統投入到實(shí)際項目中進(jìn)行測試。我們一直在向客戶(hù)提供智能導播系統,并且已經(jīng)進(jìn)行了系統安裝。但畢竟需要AI攝像機的房間數量只占會(huì )議空間總數的一小部分,通常PTZ攝像機就足夠了。我們還需要不斷地從實(shí)際應用中獲得反饋,從而進(jìn)一步提高系統的功能。”
Kane老師繼續說(shuō)道:"第二個(gè)挑戰在于攝像機。目前的智能導播系統需要與Aver攝像機配合使用。而我們面臨的問(wèn)題是,市場(chǎng)上的大多數攝像機沒(méi)有向我們開(kāi)放足夠的API,因此我們無(wú)法實(shí)現智能導播系統所需的深度控制。我們需要根據具體情況與制造商進(jìn)行溝通,請他們釋放控制權,這樣才能執行下一步操作。”
Kane老師總結表示:“總體而言,智能導播系統需要DSP、麥克風(fēng)和攝像機的協(xié)同工作。我們可以做到這一點(diǎn),但我們還需要整個(gè)行業(yè)團結起來(lái),認識到產(chǎn)品協(xié)同工作的重要性。終端用戶(hù)需要的是單擊一下按鈕即可運行的系統。作為解決方案供應商,易科的工作就是實(shí)現這一目標。我們也需要制造商、供應商和解決方案提供商的共同支持。”
評論comment