音声追跡技術:百聞は一見にしかず、なぜ信じるのか

Written by Kieron Seth, Product Marketing Director at Lumens

June 06, 2025 2102

 


「私たちは視覚的な生き物です。視覚的なものはそのままですが、音は薄れていきます。」ハーバード大学の心理学者スティーブン・ピンカーは言う。

これは(特にミュージシャンの間では)物議を醸すかもしれませんが、研究者らは、対面での会話では、コミュニケーションの少なくとも50%が非言語的であると示唆しています。つまり、会議では、オーディオビジュアル (AV) テクノロジーのビデオ部分が不可欠です。

これは私たちに問題を引き起こします。

▶ ミーティングエクイティとは何ですか?

最新のビデオ会議カメラは、驚くほど鮮明で明るい画像を生成します。多くの場合、巧妙な自動フレーミング技術が搭載されており、周囲の空間ではなく、部屋の中の人々を自動的に ズームインしてキャプチャできます。結果は良好で、参加者に焦点が当てられています。しかし、それは重要な問題を完全に解決するものではありません。

リモート参加者の場合、会話をフォローするのは依然として難しい場合があります。誰が話しているのか、誰に反応しているのかを見分けるのは難しいです。これにより、会議の公平性と呼ばれる問題が生じ、対面の参加者は仮想参加者よりも優れたエクスペリエンスを得ることができます。

▶ テレビ映像ソリューション

プロデューサーは何十年にもわたって魅力的なテレビディスカッション番組を制作し、視聴者の注意を集中させ、ストーリーを効果的に伝えるための理想的なモデルを作成してきました。放送局が世界中で、そして何十年にもわたって複製してきた標準的な要素があります。これらには次のものが含まれます。
 
- 複数のカメラアングル
- 議論に文脈を与えるためのワイドな確立ショット
- アクティブスピーカーのクローズアップショット
- 議論のやり取り中に複数の人をフレーミングする
- 最適な角度を得るためのスマートなカメラ切り替え

▶ AVはテレビに匹敵しますか?

これらのテクニックはすべて、会議の専門家が利用できます。G20会議などの注目度の高い公開会議では、サミットを録画・放送するAV機器は、テレビ局が使用する技術と同等になります。

特定のエグゼクティブミーティングや公開セッションでは、複数のPTZカメラを管理する1人のオペレーターが答えです。コントローラーの熟練したプロデューサーが、経験と直感を駆使して、視聴者や遠隔地の参加者にとって忠実かつ説得力のある方法で議論を捉えることで、優れた結果を得ることができます。

ただし、機密保持の重要性(たとえば、財務、健康、社会的ケアの議論)、複雑な機器の設置と操作の実用性、および必然的に高コストであるため、これは規則ではなく例外であることを意味します。さらに、ここ数年で仮想会議が劇的に増加しているため、各会議やすべての会議スペースにオペレーターを利用できるようにすることは明らかに現実的ではありません。

AV ソリューション: 音声追跡テクノロジー
▶ 音声追跡とは何ですか?

新しいタイプの会議室用マイク(Sennheiser TCC2Yamaha RM-CG、Shure MXA920ニューエバHDL410など)が登場しました。これらの製品は、音源の位置を検出するDOA(到着方向)技術を備えています。なぜこれが重要なのでしょうか?

1. 音声追跡マイクは、こもった声、遠くの音の拾い、音声の重複など、会議でよくあるフラストレーションを解消するのに役立ちます。これにより、場所に関係なく、すべての参加者がはっきりと簡単に聞こえるようになります。

2. これにより、ビデオカメラが話している人に自動的に焦点を合わせることができます。

これは、ビデオ会議会議のゲームチェンジャーです。音声追跡は現在、カメラがライブディスカッションと統合して対話する方法を変えています。
 

▶ スピーカー トラッキングとカメラの統合

音声追跡の力を活用して、マイク アレイの位置データは外部プロセッサとリアルタイムで共有されます。これにより、複数の PTZ カメラとリンクされます。カメラとマイクの組み合わせにより、カメラは会議スペース内のアクティブな音声にすぐに焦点を合わせることができます。これは、カメラにこのサウンドトラッキングデータと調整するように指示することによって実現されます。マイクからのデータに基づくカメラアングルを使用すると、会議セッションにTeams、Zoom、またはその他のほとんどのプラットフォームで使用されるビデオ出力を使用して、会議を自動的に作成できます。

▶ 話者追跡とは何ですか?

CamConnect Proなどの製品により、Lumensは音声追跡マイクとPTZカメラシステムを組み合わせて、インテリジェントなスピーカートラッキングを実現します。

仕組みは次のとおりです。

• スピーカーが話し始める→カメラ 1 がズームインします。
• ビデオ フィードがカメラ 1 に切り替わります。
• カメラ 2 がズームイン→別の人が話し始めます。
- 自動的にカメラ2に切り替わります。

AVシステムは現在、ユーザー入力を必要としないテレビのような作品を作成しています。また、大規模な会議を管理することもできます:各カメラは複数の参加者に割り当てられるだけで、会議室のすべての出席者をカバーできます。

▶ 話者追跡の進化

マイクとカメラの接続は新しいことではありません。開発者は、数年前からライブ音声追跡データに応答するように AV コントローラーをプログラムすることができました。各インストールは複雑で独自性があるため、プロセスには費用がかかる可能性があります。Lumensなどのメーカーが達成したことは、ゲームチェンジャーです:CamConnectはネットワークにインストールし、構成し、複数のマイクアレイと最大4台のPTZカメラで数分で使用できるようになります。プログラミングは必要ありません。

▶ 公平性の実現から大量採用へ

VC-TR60Aカメラの登場により、Lumensは代わりにPTZにスピーカートラッキングを実装しました。このカメラは、声の位置を検出するために設置された天井や壁に取り付けられたマイクに頼るのではなく、ベースに一連の音検出器が含まれています。VC-TR60Aは、AI対応の画像解析ツールを使用して、センサーによって位置付けられた音が、ドアが閉まる音や外の車の発進音ではなく、部屋の中の個人から来ているかどうかを識別できます。VC-TR60Aは自動的に能動態をフレーミングし、ディスカッションをたどります。
 

▶ 話者追跡はどの程度効果的ですか?

話者の追跡は信じられないほど正確で、理想的な環境で同僚と肩を並べて座っている個人を識別できます。ただし、精度を低下させる要因があります。

- 部屋のサイズ:  位置データの精度は、基本的にマイクの精度に依存します。マイクからの距離が遠いほど、データの精度は低くなります。素晴らしいニュースは、CamConnectなどのスピーカートラッキングシステムは、天井スペース全体または大規模な会場の壁に沿って設置できる複数のマイクをサポートできることです。ミーティングエリアを正しくマッピングし、カメラのプリセット位置を設定することで、本当に優れた結果が得られます。

- 音響: エコーや反射を最小限に抑えるよう注意する必要もあります: 遮音性の良い部屋は、木の床の洞窟のようなホールよりも優れたパフォーマンスを発揮します。DSP は、これらの問題の多くを最小限に抑えることができます。

▶ 人間的な要素

人間はそわそわします。彼らは椅子を動かします。彼らはじっと座っていることはめったにありません。話者の追跡がカメラのプリセット位置に依存している場合、これは、個人のフレーミングを間違えることに悩まされていた古いシステムでは困難を引き起こしました。CamConnect Pro などの新しい AI 対応システムを使用すると、プリセットを自動的に再フレーミングして、完璧なショットを保証できます。

▶ ディスカッションの追跡: ピンポン効果の回避

テニスの試合のように、カメラがスピーカーの間を絶えず行き来するビデオ通話を見たいと思う人はいません。これを回避するために、一部のシステムでは、すべてのアクティブボイスをキャプチャするワイドショットにズームするマルチボイスフレーミングモードを使用できます。

▶ 話者追跡の未来

マルチボイスフレーミングは始まりにすぎません。自動化が向上するにつれて、スピーカー トラッキングは、プロのテレビ放送に匹敵する完全自動の AV 制作システムに進化する可能性があります。このテクノロジーがどこまで進むかは時間が経てばわかりますが、今のところ、すでに仮想会議の体験方法が変わりつつあります。
 





 
戻る