Written by Kieron Seth, Product Marketing Director at Lumens
abril 02, 2025 4199
Han pasado más de tres años desde que escribimos nuestra popular Guía para principiantes de cámaras PTZ. En ese momento, reflexionamos sobre cómo estas cámaras fueron un gran avance en la producción remota, en el posicionamiento discreto y en la reducción de los costos operativos, con poco o ningún compromiso en la calidad de imagen. Fueron estas características las que los convirtieron en un pilar en la programación de televisión documental, captura de conferencias, espacios de reunión, lugares de música y lugares de culto.
Sin embargo, desde entonces, las cámaras PTZ han experimentado una segunda revolución, pero no necesariamente de la manera que hubiéramos predicho.
En 2021, las cámaras PTZ se desarrollaron cada vez más para satisfacer las necesidades de los eventos en vivo y las emisoras. Los sensores se estaban volviendo más grandes dando una hermosa calidad de imagen cinematográfica. Hubo un impulso hacia tasas de bits más altas (NDI completo y SMPTE 2110), entradas de audio 12G-SDI y XLR amigables con la transmisión e incluso la opción de lentes intercambiables. La industria se estaba moviendo claramente hacia las cámaras PTZ como reemplazo de las cámaras de estudio de televisión.
Pero en los años transcurridos, las cosas han cambiado. ¿Por qué la industria no ha perseguido la calidad cinematográfica como su objetivo final? Con algunas excepciones, la industria de PTZ no ha estado obsesionada con lograr la máxima calidad de imagen por encima de todo. Hay tres razones principales para esto.
1. El aumento del sensor más pequeño
Un sensor de fotograma completo o de 1 pulgada de nueva generación sin duda superará a un tipo más pequeño, pero los beneficios reales se ven principalmente en condiciones de poca luz extrema, escenas con contraste extremo o con tomas que requieren una profundidad de campo muy baja. La recompensa de seleccionar un sensor grande es el costo mucho mayor de la electrónica, los filtros de imagen, los motores de enfoque sofisticados y las lentes, particularmente cuando la organización desea un rango de 20x o 30x que conserve la nitidez crítica tanto en el extremo ancho como en el largo del zoom. Hay usuarios, particularmente en los principales estudios o salas de conciertos, teatros, teatros de ópera y centros de convenciones de importancia internacional, que exigen la calidad de imagen matizada que esta tecnología puede ofrecer, pero para la creciente mayoría, otros factores tienen prioridad.
La industria ha tomado abrumadoramente una ruta muy diferente, pero posiblemente mucho más emocionante. Los sensores estándar (1/3" y 1/2") han mejorado drásticamente en calidad de imagen, eficiencia y rentabilidad en los últimos años. El rendimiento que vimos de un sensor micro cuatro tercios de primera generación o 1 pulgada ahora se iguala con el componente más pequeño de hoy en términos de capacidades con poca luz, rango dinámico y calidad de imagen general. La conclusión es que los nuevos sensores más pequeños son fácilmente "lo suficientemente buenos" para muchas (o incluso la mayoría) de las aplicaciones.
2. El efecto democratizador de la PTZ
La promesa del video en todas partes, en espacios de reunión, salas de capacitación, aulas, lugares de culto, habitaciones de YouTubers, ha cambiado la industria de PTZ. La experiencia del usuario se ha vuelto tan importante como una buena calidad de imagen: muchos clientes no tienen la habilidad ni la inclinación para ajustar los niveles de luminancia, gamma o pedestal para lograr una toma lista para la transmisión. Simplemente quieren una gran imagen en modo completamente automático. En resumen, la mayoría de los clientes quieren la misma experiencia de usuario sencilla que les ofrece su iPhone.
3. ¡Hay peces más grandes para freír!
En un sector que se inventó para permitir la producción remota de múltiples cámaras para una sola persona, no es sorprendente que la automatización haya seguido siendo su mayor fuerza impulsora. La cámara PTZ fue diseñada para una instalación rápida y discreta en cualquier lugar. Se hizo popular por la capacidad de un solo operador para controlar entre una y veinte cámaras.
Por lo tanto, si esas cámaras se pueden instalar y operar sin la necesidad de ninguna intervención humana, no puede sorprender que la automatización de todos los procesos posibles haya estado a la vanguardia de las mentes de los fabricantes.
La llegada de la inteligencia artificial ha convertido lo teóricamente posible en realidad, casi de la noche a la mañana. Veamos la tecnología de seguimiento automático como ejemplo.
Las cámaras de seguimiento de movimiento no son nuevas. Los primeros modelos (no inteligentes) fueron populares, especialmente en la captura de conferencias y presentaciones en vivo. Utilizaron algoritmos que podían identificar formas humanas, movimientos y tonos de piel típicos y dirigir la cámara para que se moviera para mantener a un individuo en el centro del escenario. Esto funcionó de manera efectiva en espacios bien iluminados con un fondo limpio y con un mínimo de personas a la vista. Sin embargo, se colocaron en entornos menos que ideales y su confiabilidad flaqueó, perdiendo ocasionalmente al sujeto de seguimiento o seleccionando al azar al individuo equivocado.
Con la AI, las cámaras de seguimiento de nueva generación tienen una extraña capacidad para reconocer a un individuo (incluso en una multitud de personas), fijarse en esa persona y rastrearla de manera confiable incluso si le da la espalda ocasionalmente o camina momentáneamente detrás de un objeto. Los nuevos algoritmos de AI han transformado el seguimiento de movimiento hasta tal punto que se han convertido en verdaderas unidades de clic y olvido.
Las cámaras de seguimiento automático se han vuelto tan populares que ahora se utilizan ampliamente en entornos de múltiples presentadores. Un problema al que se enfrentan muchos modelos es cuando cambian de un sujeto a otro: la cámara tendría que alejarse antes de encontrar y bloquear el siguiente objetivo. La solución ha sido implementar un diseño de dos cámaras, con nuevas cámaras de seguimiento de movimiento con una cámara panorámica / analítica, así como un cabezal PTZ principal. Con este enfoque, la cámara puede moverse inmediatamente de un presentador a otro sin ninguna búsqueda innecesaria y que distraiga.
Al reemplazar un HD con un sensor de seguimiento 4K, el procesador genera naturalmente cuatro veces más datos de imagen. Este es un gran avance para el análisis de escenas: la cámara ahora puede examinar cuatro veces más detalles, lo que tiene enormes beneficios. En lugar de rastrear a las personas a un máximo de 8 metros de una cámara HD, una unidad 4K puede duplicar con creces la distancia de seguimiento a 18 metros o más.
Ahora las cámaras de seguimiento de movimiento se pueden instalar en muchos más lugares, en la parte trasera de salas de conferencias y conferencias, catedrales y teatros, por ejemplo.
Por lo tanto, en los últimos cinco años se ha visto la maduración de la tecnología de seguimiento de movimiento, pero un avance potencialmente aún más convincente ha sido el seguimiento de voz. ¿Por qué? ¡Porque en la abrumadora mayoría de los entornos, los humanos simplemente no están en movimiento! El seguimiento del hablante simplemente permite que la cámara siga una conversación en lugar del movimiento de un individuo.
Hay dos formas en que se ha implementado el seguimiento de voz. En primer lugar, las cámaras se han vinculado a conjuntos de micrófonos de dirección de llegada (DOA) (piense en Sennheiser TCCM o TCC2, RMCG de Yamaha y muchos modelos de Nureva, Shure y Audio Technica. Estos encapsulan múltiples micrófonos para analizar la dirección de la que proviene un sonido. Usando una unidad de procesamiento, como Lumens CamConnect AI-Box1, una cámara (o varias cámaras) puede enfocar la voz activa en una habitación y cambiar de ángulo para capturar una discusión animada.
De forma instantánea (y automática), las cámaras PTZ tienen la capacidad de producir un evento multicámara sin necesidad de intervención humana. Atrás quedaron los controladores manuales, y atrás quedó el inevitable plano general que dificulta determinar quién está hablando.
El seguimiento de múltiples altavoces ha entregado valores de producción de estilo televisivo a los espacios de reunión a una fracción del costo de un estudio de transmisión. Compatible con múltiples conjuntos de micrófonos y cuatro cámaras, este tipo de instalación es muy adecuada para salas de juntas y salas de conferencias donde cambiar entre ángulos de cámara puede transformar la experiencia de visualización remota.
El segundo enfoque del seguimiento de voz es una innovación muy reciente. Este enfoque incorpora esta tecnología de detección de sonido en la propia cámara. En espacios de reunión más pequeños, estudios de podcast y suites de Vlogging, unidades como la Lumens VC-TR60A pueden dirigir el cabezal de su cámara automáticamente para alternar entre dos oradores, o entrar en modo de encuadre de múltiples voces para filmar una discusión con una toma encuadrada con precisión que captura a todos los participantes activos.
Habilitada para AI, la cámara puede detectar la ubicación de un sonido y luego distinguir entre el ruido hecho por un humano y, por ejemplo, un portazo, un pájaro graznando o un perro ladrando. Al vincular la cámara a una línea de audio de referencia, la unidad puede eliminar aún más los altavoces de la habitación de su detección de sonido, lo que hace que el seguimiento de voz sea infaliblemente preciso.
La inclusión de la cámara panorámica secundaria nuevamente paga dividendos, lo que permite que el sistema cambie a una toma amplia cada vez que el cabezal PTZ necesite moverse. Esto elimina todos los movimientos visibles de la cámara, lo que puede ser inquietante para los espectadores remotos.
Como hemos visto, la cámara panorámica es multifuncional, actuando como una herramienta de análisis de AI para la detección y el seguimiento de personas, y como un plano general para el cambio inteligente de tomas. La cámara secundaria tiene una tercera función en los últimos modelos, ya que permite la salida de imagen en imagen (PIP) directamente desde las salidas HDMI, USB y (cuando estén disponibles) SDI.
Generar un PIP directamente desde la cámara es un gran avance para muchas aplicaciones en las que se requiere una vista de dos disparos y en las que los usuarios desean simplificar su flujo de trabajo. Este desarrollo ha sido el resultado de las demandas de los clientes en las salas de interrogatorio y las salas de capacitación, donde un primer plano sincronizado y simultáneo y una vista amplia son vitales.
Aunque la transmisión de video de alto ancho de banda (ver el VC-A71P-HN) todavía tiene su lugar en la transmisión de TV, la señalización digital de alta gama y la captura de eventos en vivo de primer nivel, ha habido un aumento del interés en los formatos de baja latencia que equilibran la compresión con la calidad de imagen. Con la llegada de NDI HX3, la transmisión de video y la colaboración entraron en una nueva era. Compatible con la transmisión de hasta 4K a través de una red de 1 GbE, HX3 es el equilibrio perfecto entre calidad de vídeo, latencia y ancho de banda.
Con un amplio soporte de múltiples proveedores, HX3 se adapta muy bien a la producción en vivo, con un ecosistema creativo que ningún otro formato IP puede rivalizar.
El formato NDI HX3 ahora está integrado en las últimas cámaras PTZ y está disponible a través de mini codificadores en modelos más antiguos que no se pueden actualizar a la última versión.
El nuevo Dante AV-H ahora se está implementando en PTZ cámaras. Comparte muchas de las características de NDI HX3, siendo un códec H.26X de baja latencia, diseñado para ejecutarse en redes de área local existentes. Donde NDI es célebre por sus flujos de trabajo de producción creativa, Dante AV-H no tiene rival en lo que respecta a su compatibilidad con IP audio (Dante audio) y su ecosistema de control (Dante Manager y Dante Controller).
Con PTZ cámaras compatibles con Dante AV-H, los administradores pueden enrutar, administrar y proteger las señales de video y audio utilizando aplicaciones Dante conocidas. También pueden integrar cámaras PTZ con productos de terceros como micrófonos, altavoces y DSP, lo que hace que el formato sea muy atractivo para los gerentes de AV que trabajan en espacios de reuniones, salas de capacitación y espacios para eventos donde Dante audio ya está instalado.
Pocos podrían haber predicho el cambio de énfasis de una obsesión por la calidad de imagen y el tamaño del sensor, a un enfoque en las ganancias de productividad por encima de todo. Ciertamente, se pueden disfrutar más ganancias en términos de automatización a medida que se acelera la adopción de AI y la capacidad de la inteligencia artificial continúa superando las expectativas. El futuro ciertamente no está trazado, pero seguramente será emocionante.
PD. ¡Este artículo fue escrito por un humano!