Tecnología de seguimiento de voz: por qué ver es creer

Written by Kieron Seth, Product Marketing Director at Lumens

junio 06, 2025 2116

 


"Somos criaturas visuales. Las cosas visuales se quedan quietas, mientras que los sonidos se desvanecen". Dijo el psicólogo de Harvard Steven Pinker.

Si bien esto puede ser controvertido (¡especialmente con los músicos!), Los investigadores han sugerido que en una conversación cara a cara al menos el 50% de la comunicación es no verbal. Eso significa que en las reuniones, la parte de video de la tecnología audiovisual (AV) es esencial.

Lo que nos da un problema.

▶ ¿Qué es Meeting Equity?

Las cámaras de videoconferencia modernas producen imágenes asombrosamente claras y brillantes. A menudo equipados con una inteligente tecnología de encuadre automático, pueden acercarse automáticamente para capturar a las personas en una habitación, y no el espacio que los rodea. El resultado es bueno, con el enfoque directamente en los asistentes. Pero no resuelve completamente un problema clave.

Para los participantes remotos, aún puede ser difícil seguir las conversaciones. Es difícil saber quién está hablando o respondiendo a quién. Esto crea un problema llamado equidad en las reuniones, donde los asistentes en persona tienen una mejor experiencia que los participantes virtuales.

▶ La solución televisiva

Los productores han estado haciendo programas de discusión de televisión convincentes durante décadas, creando el modelo ideal para centrar la atención de los espectadores y contar la historia de manera efectiva. Hay elementos estándar que las emisoras han replicado en todo el mundo y a lo largo de las décadas. Estos incluyen:
 
- Múltiples ángulos de cámara
- Planos amplios para dar contexto a una discusión
- Primeros planos del orador activo
- Enmarcar a varias personas durante discusiones de ida y vuelta
- Cambio inteligente de cámara para obtener el mejor ángulo

▶ ¿Puede el AV igualar a la televisión?

Todas estas técnicas están al alcance de los profesionales de reuniones. En reuniones públicas de alto perfil, como una reunión del G20, el equipo AV que graba y transmite la cumbre estará a la par con la tecnología utilizada por una estación de televisión.

Para ciertas reuniones ejecutivas y sesiones públicas, un solo operador que administre múltiples cámaras PTZ es la respuesta. Un productor experto en el controlador puede lograr resultados excepcionales, utilizando la experiencia y la intuición para capturar la discusión de manera fiel y convincente para los espectadores y participantes remotos.

La importancia de cumplir con la confidencialidad (en discusiones financieras, de salud o de atención social, por ejemplo), los aspectos prácticos de la instalación y operación de equipos complejos y el costo necesariamente alto significan, sin embargo, que esta es la excepción, más que la regla. Además, con el aumento dramático de las reuniones virtuales en los últimos años, tener un operador disponible para cada reunión y cada espacio de conferencias es claramente poco práctico.

La solución AV: tecnología de seguimiento de voz
▶ ¿Qué es el seguimiento de voz?

Ha llegado una nueva generación de micrófonos para salas de reuniones (piense en Sennheiser TCC2, Yamaha RM-CG, Shure MXA920, Nureva HDL410 y similares). Estos productos cuentan con tecnología DOA (dirección de llegada) que detecta la ubicación de una fuente de sonido. ¿Por qué es esto importante?

1. Los micrófonos de seguimiento de voz ayudan a eliminar las frustraciones comunes de las reuniones, como voces apagadas, captación de sonido distante y voz superpuesta. Garantizan que todos los participantes, independientemente de su ubicación, puedan ser escuchados con claridad y sin esfuerzo.

2. Esto puede ayudar a que las cámaras de video se enfoquen automáticamente en la persona que habla.

Este es un cambio de juego para las reuniones por videoconferencia. El seguimiento de voz ahora está cambiando la forma en que las cámaras se integran e interactúan con las discusiones en vivo.
 

▶ Integración del seguimiento de oradores con cámaras

Aprovechando el poder del seguimiento de voz, los datos de ubicación de la matriz de micrófonos se comparten en tiempo real con un procesador externo. Esto, a su vez, se vincula con múltiples cámaras PTZ. La combinación de cámara y micrófono permite que las cámaras se enfoquen inmediatamente en las voces activas en un espacio de reunión. Esto se logra dirigiendo la cámara para que se coordine con estos datos de seguimiento de sonido. Con el ángulo de la cámara basado en los datos del micrófono, se puede producir una reunión automáticamente, con la salida de video utilizada por Teams, Zoom o la mayoría de las otras plataformas para la sesión de conferencia.

▶ ¿Qué es el seguimiento de oradores?

Con productos como CamConnect Pro, Lumens combina micrófonos de seguimiento de voz con sistemas de cámaras PTZ para ofrecer un seguimiento inteligente de los altavoces.

Así es como funciona:

• Un orador comienza a hablar → la cámara 1 lo acerca.
• La transmisión de vídeo cambia a la cámara 1.
• Otra persona comienza a hablar → la cámara 2 se acerca a ella.
• El sistema cambia automáticamente a la cámara 2.

El sistema AV ahora está creando una producción similar a la de la televisión, sin necesidad de intervención del usuario. Y puede gestionar grandes reuniones: cada cámara se asigna simplemente a varios delegados para dar cobertura a todos los asistentes en la sala.

▶ La evolución del seguimiento de oradores

Conectar micrófonos con cámaras no es nuevo. Los desarrolladores han podido programar controladores AV para responder a los datos de seguimiento de voz en vivo durante algunos años. Debido a la complejidad y singularidad de cada instalación, el proceso puede ser costoso. Lo que fabricantes como Lumens han logrado es el cambio de juego: CamConnect se puede instalar en la red, configurar y estar listo para usar con múltiples conjuntos de micrófonos y hasta 4 cámaras PTZ en cuestión de minutos. No se requiere programación.

▶ De la equidad de la reunión a la adopción masiva

Con la llegada de la cámara VC-TR60A, Lumens ha implementado el seguimiento de altavoces en el PTZ en su lugar. En lugar de depender de un micrófono instalado en el techo o en la pared para detectar la posición de una voz, esta cámara incluye una serie de detectores de sonido en su base. Usando su herramienta de análisis de imágenes habilitada para AI, el VC-TR60A puede identificar si el sonido localizado por sus sensores proviene de un individuo en la habitación y no de una puerta que se cierra o un automóvil que arranca afuera. El VC-TR60A enmarcará automáticamente la voz activa y seguirá la discusión.
 

▶ ¿Qué tan efectivo es el seguimiento de oradores?

El seguimiento del orador puede ser increíblemente preciso, seleccionando a una persona sentada hombro con hombro con colegas en un entorno ideal. Sin embargo, hay factores que pueden reducir su precisión.

- Tamaño de la  habitación: La precisión de los datos de ubicación depende fundamentalmente de la precisión del micrófono. Cuanto mayor sea la distancia del micrófono, menos exactos serán los datos. La buena noticia es que los sistemas de seguimiento de oradores como CamConnect pueden admitir múltiples micrófonos que se pueden instalar en un espacio de techo o a lo largo de las paredes de un lugar grande. Al mapear correctamente un área de reunión y establecer posiciones preestablecidas de la cámara, los resultados pueden ser realmente excepcionales.

- Acústica: También hay que tener cuidado de minimizar los ecos y los reflejos: una habitación bien insonorizada funcionará mejor que una sala cavernosa con suelo de madera. Un DSP puede minimizar muchos de estos problemas.

▶ El elemento humano

Los humanos se inquietan. Mueven sus sillas. Rara vez se quedan quietos. Cuando el seguimiento de los oradores depende de las posiciones preestablecidas de la cámara, esto causó dificultades con los sistemas más antiguos que estaban plagados de encuadres incorrectos de un individuo. Con los nuevos sistemas habilitados para AI, como CamConnect Pro, los ajustes preestablecidos se pueden volver a encuadrar automáticamente para garantizar la toma perfecta.

▶ Seguimiento de la discusión: evitar el efecto Ping Pong

Nadie quiere ver una videollamada en la que la cámara salta constantemente de un altavoz a otro como en un partido de tenis. Para evitar esto, algunos sistemas pueden activar un modo de encuadre de múltiples voces que se acerca a una toma más amplia que captura todas las voces activas.

▶ El futuro del seguimiento de oradores

El encuadre de múltiples voces es solo el comienzo. A medida que mejora la automatización, el seguimiento de los oradores podría evolucionar hacia un sistema de producción AV completamente automático, rivalizando con una transmisión de televisión profesional. Solo el tiempo dirá hasta dónde llegará esta tecnología, pero por ahora, ya está transformando la forma en que experimentamos las reuniones virtuales.
 





 
Atrás