語音追蹤技術:為何「看見」比「聽見」更重要?

By Lumens

June 06, 2025 570

 

「我們是視覺的生物,視覺的事物是固定的,而聲音則會消逝。」哈佛大學心理學家 Steven Pinker 如此表示。這或許是個具爭議的說法(尤其對於音樂家來說!),但研究顯示,在面對面的交流中,至少有 50% 的溝通是非語言的。這意味著在會議中,視覺部分在視聽技術(AV)中至關重要。

這給我們帶來了一個問題。

▶ 什麼是會議公平性(Meeting Equity)?

現代視訊會議攝影機能夠產生令人驚嘆的清晰和明亮影像。這些攝影機通常配備自動構圖技術,能自動調整鏡頭以捕捉房間內的人員,而非周圍空間。這樣的效果確實不錯,焦點清楚地放在與會者身上。但這仍無法完全解決一個關鍵問題。

對於遠端參與者來說,依然很難跟上討論進度。他們很難判斷誰在說話,或者誰在回應誰。這就產生了「會議公平性」問題:現場參與者的體驗往往優於虛擬參與者。

▶ 視覺解決方案:從電視製作中學習

電視節目製作人已經有數十年的經驗,能夠創造出引人入勝的討論節目,這些節目能有效吸引觀眾的注意力,並有效地講述故事。這些節目通常包含以下標準元素:
 
•    多種攝影機角度
•    廣角鏡頭來展示討論的背景
•    主講人的特寫畫面
•    在來回討論中,同時框住多位說話者
•    智能鏡頭切換,選擇最佳角度

▶ 視聽技術能否媲美電視節目?

這些技術現已被會議專業人士所採用。在高規格的公開會議(如 G20 峰會)中,用於記錄和直播的視聽設備與電視台使用的技術旗鼓相當。

在一些高階主管會議和公開會議中,由單一操作員管理多台 PTZ 攝影機是一種有效的解決方案。熟練的製作人員能夠以經驗和直覺捕捉討論,為觀眾和遠端參與者帶來引人入勝的觀賞體驗。

然而,考量到會議機密性(如財務、健康或社會服務討論)、複雜設備的安裝和操作實際性,以及高昂成本,這樣的配置往往只是例外,而非常態。隨著過去幾年虛擬會議的快速增長,為每場會議和每個會議空間都安排操作員顯然並不現實。

AV 解決方案:語音追蹤技術
▶ 什麼是語音追蹤?

一種新型會議室麥克風誕生了(如 Sennheiser TCC2、Yamaha RM-CG、Shure MXA920、Nureva HDL410 等)。這些產品採用了 DOA(到達方向)技術,可以檢測聲音來源的位置。這為何如此重要?

1.     語音追蹤麥克風有助於消除常見的會議問題,例如聲音模糊、聲音過遠或語音重疊。它們確保每位參與者無論身處何處,都能清晰地被聽見。

2.     語音追蹤也可幫助視訊攝影機自動對準說話者。

這對視訊會議來說是一個突破。語音追蹤正在改變攝影機與現場討論的整合與互動方式。
 

 

▶ 語音追蹤與攝影機整合

藉由語音追蹤的強大功能,麥克風陣列的定位數據會即時傳送至外部處理器,並進一步連接多台 PTZ 攝影機。這種攝影機和麥克風的組合,能使攝影機立即對準會議空間中的主動聲音。這是透過將攝影機角度與麥克風數據協調來實現的。會議影片可以自動產出,並被 Teams、Zoom 或其他會議平台即時使用。

▶ 什麼是說話者追蹤?

CamConnect Pro 這樣的產品,Lumens 將語音追蹤麥克風與 PTZ 攝影機系統結合,實現智能說話者追蹤。其運作方式如下:

 

•    一位與會者開始說話 → 攝影機 1 自動放大該說話者。

•    視訊畫面切換至攝影機 1。
•    另一位與會者開始說話 → 攝影機 2 自動放大該說話者。
•    系統自動切換至攝影機 2。

這種 AV 系統正在創造類似電視節目的效果,且不需用戶干預。它還能管理大型會議:每台攝影機可分配多個與會者,覆蓋整個會議空間。

▶ 說話者追蹤的演進

將麥克風與攝影機連接並非新概念。多年前,開發人員就已能夠編程 AV 控制器以回應即時語音追蹤數據。但由於每個安裝環境的複雜性和獨特性,此過程通常相當昂貴。

然而,Lumens 的創新使這一切變得簡單:CamConnect 可以輕鬆連接至網路,並在數分鐘內配置完成,最多支援 4 台 PTZ 攝影機和多組麥克風陣列,無需編程。

▶ 從會議公平到大規模採用

隨著 VC-TR60A 攝影機的推出,Lumens 將說話者追蹤整合到 PTZ 攝影機內。無需依賴天花板或牆壁安裝的麥克風來檢測聲音位置,這款攝影機在其底座內內建了一組聲音檢測器。透過 AI 驅動的影像分析工具,VC-TR60A 可以辨識聲音是否來自房間內的人,而非關門聲或外面汽車發動聲。

 
 

▶ 說話者追蹤的準確性如何?

說話者追蹤技術在理想環境中非常精確,但仍受多種因素影響:

•    空間大小: 距離麥克風越遠,定位數據的精度越低。好消息是,像 CamConnect 這樣的系統可以支援多組麥克風,這些麥克風可以安裝在天花板或牆壁上。

•    音響效果: 需要特別注意回音和反射。聲音隔離良好的房間效果更佳,而 DSP 處理器可以最小化這些問題。

▶ 人為因素

人們會移動,會調整座椅,而這些動態可能會影響鏡頭構圖。CamConnect Pro 等新一代 AI 系統可以自動重新構圖,確保最佳畫面。

▶ 避免「乒乓效應」

沒有觀眾喜歡觀看鏡頭不斷在發言者之間快速切換的會議影片。為避免這種「乒乓效應」,一些系統可以啟用多聲道構圖模式,自動切換到更廣的鏡頭,覆蓋所有活躍說話者。

▶ 說話者追蹤的未來

多聲道構圖僅僅是開始。隨著自動化技術的進步,說話者追蹤有望演變為全自動 AV 製作系統,媲美專業電視節目製作。目前,這項技術已經在改變我們體驗虛擬會議的方式。





 
返回