Технология отслеживания голоса: почему увидеть — значит поверить

By Lumens

июня 06, 2025 576

 

«Мы визуальные создания. Визуальные эффекты остаются на месте, в то время как звуки затихают». – сказал гарвардский психолог Стивен Пинкер.

Хотя это может быть спорным (особенно среди музыкантов!), исследователи предположили, что в разговоре лицом к лицу по крайней мере 50% общения является невербальным. Это означает, что на совещаниях важна видеочасть аудиовизуальной (AV) технологии.

Что создает для нас проблему.

▶ Что такое Meeting Equity?

Современные камеры видеоконференцсвязи выдают удивительно четкое и яркое изображение. Часто оснащенные умной технологией автоматического кадрирования, они могут автоматически увеличивать масштаб, чтобы запечатлеть людей в комнате, а не пространство вокруг них. Результат хороший, с акцентом непосредственно на участниках. Но это не решает полностью ключевую проблему.

Удаленным участникам все еще может быть трудно следить за разговорами. Трудно сказать, кто с кем говорит или отвечает. Это создает проблему, называемую равенством на собраниях, когда личные участники получают лучший опыт, чем виртуальные участники.

▶ Телевизионное решение

Продюсеры десятилетиями снимают убедительные телевизионные дискуссионные шоу, создавая идеальную модель для привлечения внимания зрителей и эффективного рассказа истории. Существуют стандартные элементы, которые вещатели воспроизводили по всему миру и на протяжении десятилетий. К ним относятся:
 
- Несколько ракурсов камеры
- Широкие установочные планы для придания контекста обсуждению
- Крупные планы активного оратора
- Подставление нескольких людей во время обсуждений
- Умное переключение камеры для получения наилучшего ракурса

 

▶ Может ли AV соответствовать телевизору?

Все эти методы доступны профессионалам в области организации мероприятий. На публичных встречах высокого уровня, таких как встреча G20, AV оборудование, записывающее и транслирующее саммит, будет находиться на одном уровне с технологией, используемой телевизионной станцией.

Для некоторых совещаний руководства и открытых сессий решением является один оператор, управляющий несколькими PTZ камерами. Исключительные результаты могут быть достигнуты опытным продюсером за пультом управления, использующим опыт и интуицию, чтобы запечатлеть дискуссию правдиво и убедительно для зрителей и удаленных участников.

Важность соблюдения конфиденциальности (например, при обсуждении финансов, вопросов здравоохранения или социального обеспечения), практические аспекты установки и эксплуатации сложного оборудования и неизбежно высокая стоимость означают, однако, что это скорее исключение, чем правило. Более того, в связи с резким увеличением количества виртуальных встреч за последние несколько лет, наличие оператора, доступного для каждой встречи и каждого конференц-зала, явно нецелесообразно.
 

AV решение: технология отслеживания голоса
▶ Что такое отслеживание голоса?

Появилось новое поколение микрофонов для конференц-залов (например, Sennheiser TCC2, Yamaha RM-CG, Shure MXA920, Nureva HDL410 и тому подобное). Эти продукты оснащены технологией DOA (direction of arrival), которая определяет местоположение источника звука. Почему это важно?

1. Микрофоны с отслеживанием голоса помогают устранить распространенные неудобства на совещании, такие как приглушенные голоса, отдаленный звук и наложение речи. Они гарантируют, что каждого участника, независимо от его местонахождения, будет слышно четко и без усилий.

2. Это может помочь видеокамерам автоматически фокусироваться на говорящем человеке.

Это меняет правила игры для совещаний по видеоконференцсвязи. Отслеживание голоса в настоящее время меняет способ интеграции камер и взаимодействия с обсуждениями в режиме реального времени.
 

 

▶ Интеграция слежения за выступающим с камерами

Используя возможности отслеживания голоса, данные о местоположении микрофонного массива передаются в режиме реального времени внешнему процессору. Это, в свою очередь, связано с несколькими камерами PTZ. Комбинация камеры и микрофона позволяет камерам мгновенно фокусироваться на активных голосах в конференц-зале. Это достигается за счет направления камеры в соответствии с данными слежения за звуком. Благодаря ракурсу камеры, основанному на данных с микрофона, собрание может быть создано автоматически, при этом видеовыход используется Teams, Zoom или большинством других платформ для сеанса конференции.

▶ Что такое отслеживание динамиков?

С такими продуктами, как CamConnect Pro, Lumens сочетает микрофоны с отслеживанием голоса с камерами PTZ для обеспечения интеллектуального отслеживания динамика.

Вот как это работает:

• Говорящий начинает говорить, → камера 1 приближает его.
• Видеопоток переключается на камеру 1.
• Другой человек начинает говорить, → камера 2 приближает его.
• Система автоматически переключается на Камеру 2.

Система AV теперь создает телевизионное производство, не требующее ввода данных пользователем. Кроме того, он может управлять большими совещаниями: каждая камера просто назначается нескольким делегатам, чтобы обеспечить охват каждого участника в комнате.

▶ Эволюция отслеживания динамиков

Подключение микрофонов к камерам не является чем-то новым. В течение нескольких лет разработчики могли программировать контроллеры AV так, чтобы они реагировали на данные отслеживания голоса в реальном времени. Из-за сложности и уникальности каждой установки этот процесс может быть дорогостоящим. Такие производители, как Lumens, добились переломного момента: CamConnect может быть установлен в сети, настроен и готов к использованию с несколькими микрофонными решетками и до 4 камерами PTZ за считанные минуты. Программирование не требуется.

▶ От соблюдения требований справедливости к массовому внедрению

С появлением камеры VC-TR60A компания Lumens внедрила в PTZ функцию слежения за говорящим. Вместо того, чтобы полагаться на установленный потолочный или настенный микрофон для определения положения голоса, эта камера включает в себя массив звуковых детекторов в своей основе. Используя инструмент анализа изображений с поддержкой AI, VC-TR60A может определить, исходит ли звук, обнаруженный его датчиками, от человека в комнате, а не от закрывающейся двери или автомобиля, выходящего на улицу. После этого VC-TR60A автоматически кадрирует активный голос и следит за ходом обсуждения.
 

 

▶ Насколько эффективно отслеживание динамиков?

Отслеживание выступающего может быть невероятно точным, выделяя человека, сидящего плечом к плечу с коллегами в идеальной обстановке. Однако есть факторы, которые могут снизить его точность.

-  Размер помещения: Точность данных о местоположении в основном зависит от точности микрофона. Чем дальше расстояние от микрофона, тем менее точные данные. Хорошая новость заключается в том, что системы слежения за динамиками, такие как CamConnect, могут поддерживать несколько микрофонов, которые могут быть установлены на потолке или вдоль стен большого зала. При правильном нанесении на карту зоны совещания и установке предустановленных положений камеры результаты могут быть поистине исключительными.

- Акустика: Также необходимо позаботиться о том, чтобы свести к минимуму эхо и отражения: хорошо звукоизолированное помещение будет работать лучше, чем пещерный зал с деревянным полом. DSP может свести к минимуму многие из этих проблем.

▶ Человеческий фактор

Люди ерзают. Они передвигают свои стулья. Они редко сидят на месте. В тех случаях, когда слежение за говорящим зависит от предустановленных положений камеры, это вызывало трудности в старых системах, которые страдали от неправильного кадрирования человека. С помощью новых систем с поддержкой AI, таких как CamConnect Pro, пресеты могут быть автоматически перекомпонованы, чтобы обеспечить идеальный снимок.

▶ Отслеживание обсуждений: как избежать эффекта пинг-понга

Никто не хочет смотреть видеозвонок, где камера постоянно прыгает туда-сюда между динамиками, как во время теннисного матча. Чтобы избежать этого, некоторые системы могут включить режим многоголосого кадрирования, который увеличивает масштаб до более широкого кадра, захватывающего все активные голоса.

▶ Будущее отслеживания динамиков

Многоголосое кадрирование — это только начало. По мере совершенствования автоматизации отслеживание динамиков может превратиться в полностью автоматическую систему производства AV, конкурирующую с профессиональным телевизионным вещанием. Только время покажет, как далеко зайдет эта технология, но на данный момент она уже меняет то, как мы воспринимаем виртуальные встречи.
 





 
Назад