Tecnología de seguimiento de voz: por qué ver es creer

By Lumens

junio 06, 2025 571

 

"Somos criaturas visuales. Las cosas visuales se quedan quietas, mientras que los sonidos se desvanecen". Dijo el psicólogo de Harvard Steven Pinker.

Si bien esto puede ser controvertido (¡especialmente con los músicos!), los investigadores han sugerido que en una conversación cara a cara, al menos el 50% de la comunicación es no verbal. Eso significa que en las reuniones, la parte de video de la tecnología audiovisual (AV) es esencial.

Lo que nos da un problema.

▶ ¿Qué es Meeting Equity?

Las cámaras de videoconferencia modernas producen imágenes asombrosamente claras y brillantes. A menudo equipados con una inteligente tecnología de encuadre automático, pueden acercarse automáticamente para capturar a las personas en una habitación, y no el espacio a su alrededor. El resultado es bueno, con el foco puesto en los asistentes. Pero no resuelve por completo un problema clave.

Para los participantes remotos, aún puede ser difícil seguir las conversaciones. Es difícil saber quién está hablando o respondiendo a quién. Esto crea un problema llamado equidad en las reuniones, en el que los asistentes presenciales tienen una mejor experiencia que los participantes virtuales.

▶ La solución televisiva

Los productores han estado haciendo programas de debate televisivos convincentes durante décadas, creando el modelo ideal para centrar la atención de los espectadores y contar la historia de manera efectiva. Hay elementos estándar que los organismos de radiodifusión han replicado en todo el mundo y a lo largo de las décadas. Entre ellas se encuentran:
 
- Múltiples ángulos de cámara
- Planos amplios de establecimiento para dar contexto a una discusión
- Primeros planos de un orador activo
- Enmarcar a varias personas durante las discusiones de ida y vuelta
- Cambio inteligente de la cámara para obtener el mejor ángulo

 

▶ ¿Puede AV coincidir con la televisión?

Todas estas técnicas están al alcance de los profesionales de las reuniones. En reuniones públicas de alto perfil, como una reunión del G20, el equipo AV que graba y transmite la cumbre estará a la par con la tecnología utilizada por una estación de televisión.

Para ciertas reuniones ejecutivas y sesiones públicas, la respuesta es un solo operador que administre varias cámaras PTZ. Un productor experto en el controlador puede lograr resultados excepcionales, utilizando la experiencia y la intuición para capturar la discusión de manera fiel y convincente para los espectadores y participantes remotos.

Sin embargo, la importancia de cumplir con la confidencialidad (en las discusiones financieras, de salud o de asistencia social, por ejemplo), los aspectos prácticos de la instalación y operación de equipos complejos y el costo necesariamente alto significan que esto es la excepción, más que la regla. Además, con el drástico aumento de las reuniones virtuales en los últimos años, tener un operador disponible para cada reunión y cada espacio de conferencia es claramente poco práctico.
 

La solución AV: tecnología de seguimiento por voz
▶ ¿Qué es el seguimiento por voz?

Ha llegado una nueva generación de micrófonos para salas de reuniones (piense en Sennheiser TCC2, Yamaha RM-CG, Shure MXA920, Nureva HDL410 y similares). Estos productos cuentan con la tecnología DOA (dirección de llegada) que detecta la ubicación de una fuente de sonido. ¿Por qué es importante?

1. Los micrófonos de seguimiento de voz ayudan a eliminar las frustraciones comunes de las reuniones, como las voces apagadas, la captación de sonido distante y el habla superpuesta. Se aseguran de que todos los participantes, independientemente de su ubicación, puedan ser escuchados con claridad y sin esfuerzo.

2. Esto puede ayudar a que las cámaras de video se enfoquen automáticamente en la persona que habla.

Este es un cambio de juego para las reuniones de videoconferencia. El seguimiento de voz ahora está cambiando la forma en que las cámaras se integran e interactúan con las discusiones en vivo.
 

 

▶ Integración del seguimiento de altavoces con cámaras

Aprovechando el poder del seguimiento de voz, los datos de ubicación de la matriz de micrófonos se comparten en tiempo real con un procesador externo. Esto, a su vez, se vincula con varias cámaras PTZ. La combinación de cámara y micrófono permite que las cámaras se enfoquen inmediatamente en las voces activas en un espacio de reunión. Esto se logra dirigiendo la cámara para que se coordine con estos datos de seguimiento de sonido. Con el ángulo de la cámara basado en los datos del micrófono, una reunión se puede producir automáticamente, con la salida de video utilizada por Teams, Zoom o la mayoría de las otras plataformas para la sesión de conferencia.

▶ ¿Qué es el seguimiento de altavoces?

Con productos como CamConnect Pro, Lumens combina los micrófonos de seguimiento de voz con los sistemas de cámaras PTZ para ofrecer un seguimiento inteligente de los altavoces.

Así es como funciona:

• Un altavoz comienza a hablar → la cámara 1 se acerca a él.
• La transmisión de vídeo cambia a la cámara 1.
• Otra persona comienza a hablar → la cámara 2 se acerca a ella.
• El sistema cambia automáticamente a la cámara 2.

El sistema AV ahora está creando una producción similar a la de un televisor, sin necesidad de intervención del usuario. Y puede gestionar reuniones de gran tamaño: cada cámara se asigna simplemente a varios delegados para dar cobertura a todos los asistentes de la sala.

▶ La evolución del seguimiento de altavoces

Conectar micrófonos con cámaras no es nuevo. Los desarrolladores han podido programar controladores AV para responder a los datos de seguimiento de voz en vivo durante algunos años. Debido a la complejidad y singularidad de cada instalación, el proceso puede ser costoso. Lo que fabricantes como Lumens han logrado es un cambio de juego: CamConnect puede instalarse en la red, configurarse y estar listo para su uso con múltiples matrices de micrófonos y hasta 4 cámaras PTZ en cuestión de minutos. No se requiere programación.

▶ De la equidad a la adopción masiva

Con la llegada de la cámara VC-TR60A, Lumens ha implementado el seguimiento de altavoces en el PTZ. En lugar de depender de un micrófono instalado en el techo o en la pared para detectar la posición de una voz, esta cámara incluye una serie de detectores de sonido en su base. Utilizando su herramienta de análisis de imágenes habilitada para AI, el VC-TR60A puede identificar si el sonido localizado por sus sensores proviene de una persona en la habitación y no de una puerta que se cierra o de un automóvil que arranca afuera. A continuación, el VC-TR60A encuadrará automáticamente la voz activa y seguirá la discusión.
 

 

▶ ¿Qué tan efectivo es el seguimiento de altavoces?

El seguimiento del orador puede ser increíblemente preciso, eligiendo a una persona sentada hombro con hombro con colegas en un entorno ideal. Sin embargo, hay factores que pueden reducir su precisión.

- Tamaño de la  habitación: La precisión de los datos de ubicación depende fundamentalmente de la precisión del micrófono. Cuanto mayor sea la distancia al micrófono, menos exactos serán los datos. La buena noticia es que los sistemas de seguimiento de altavoces como CamConnect pueden admitir múltiples micrófonos que se pueden instalar en un espacio del techo o a lo largo de las paredes de un lugar grande. Al mapear correctamente un área de reunión y establecer las posiciones preestablecidas de la cámara, los resultados pueden ser realmente excepcionales.

- Acústica: también hay que tener cuidado con los ecos y los reflejos: una habitación bien aislada del sonido funcionará mejor que una sala cavernosa con suelo de madera. Un DSP puede minimizar muchos de estos problemas.

▶ El Elemento Humano

Los humanos se inquietan. Mueven sus sillas. Rara vez se quedan quietos. Mientras que el seguimiento del altavoz depende de las posiciones preestablecidas de la cámara, esto causó dificultades con los sistemas más antiguos que estaban plagados de errores de encuadre de un individuo. Con los nuevos sistemas habilitados para AI, como CamConnect Pro, los ajustes preestablecidos se pueden reencuadrar automáticamente para garantizar la toma perfecta.

▶ Seguimiento de discusiones: evitar el efecto ping pong

Nadie quiere ver una videollamada en la que la cámara salta constantemente de un parlante a otro como si se tratara de un partido de tenis. Para evitar esto, algunos sistemas pueden activar un modo de encuadre multivoz que se acerca a una toma más amplia que captura todas las voces activas.

▶ El futuro del seguimiento de altavoces

El encuadre a múltiples voces es solo el comienzo. A medida que la automatización mejora, el seguimiento de los altavoces podría convertirse en un sistema de producción AV totalmente automático, que rivalice con una transmisión de televisión profesional. Solo el tiempo dirá hasta dónde llegará esta tecnología, pero por ahora, ya está transformando la forma en que experimentamos las reuniones virtuales.
 





 
Atrás