Technologie de suivi vocal : pourquoi voir, c’est croire

By Lumens

juin 06, 2025 572

 

« Nous sommes des créatures visuelles. Les choses visuelles restent en place, tandis que les sons s’estompent. a déclaré le psychologue de Harvard, Steven Pinker.

Bien que cela puisse être controversé (en particulier avec les musiciens !), les chercheurs ont suggéré que dans une conversation en face à face, au moins 50 % de la communication est non verbale. Cela signifie que dans les réunions, la partie vidéo de la technologie audiovisuelle (AV) est essentielle.

Ce qui nous pose un problème.

▶ Qu’est-ce que l’équité des réunions ?

Les caméras de vidéoconférence modernes produisent des images étonnamment claires et lumineuses. Souvent équipés d’une technologie intelligente de cadrage automatique, ils peuvent zoomer automatiquement pour capturer les personnes dans une pièce, et non l’espace qui les entoure. Le résultat est bon, l’accent étant mis sur les participants. Mais cela ne résout pas complètement un problème clé.

Pour les participants à distance, il peut encore être difficile de suivre les conversations. Il est difficile de dire qui parle ou qui répond à qui. Cela crée un problème appelé équité des réunions, où les participants en personne ont une meilleure expérience que les participants virtuels.

▶ La solution télévisuelle

Les producteurs créent des émissions de discussion télévisées captivantes depuis des décennies, créant le modèle idéal pour concentrer l’attention des téléspectateurs et raconter efficacement l’histoire. Il y a des éléments standard que les radiodiffuseurs ont reproduits à travers le monde et au fil des décennies. Il s’agit notamment de :
 
- Plusieurs angles de caméra
- Plans d’établissement larges pour donner du contexte à une discussion
- Gros plans de l’orateur actif
- Encadrer plusieurs personnes lors de discussions en va-et-vient
- Commutation intelligente de la caméra pour obtenir le meilleur angle

 

▶ L’AV peut-il correspondre à la télévision ?

Toutes ces techniques sont à la disposition des professionnels de l’événementiel. Lors de réunions publiques de haut niveau telles qu’une réunion du G20, l’équipement AV d’enregistrement et de diffusion du sommet sera à la hauteur de la technologie utilisée par une chaîne de télévision.

Pour certaines réunions de direction et sessions publiques, un seul opérateur gérant plusieurs caméras PTZ est la solution. Des résultats exceptionnels peuvent être obtenus par un producteur qualifié au contrôleur, utilisant son expérience et son intuition pour capturer la discussion de manière fidèle et convaincante pour les téléspectateurs et les participants à distance.

L’importance du respect de la confidentialité (dans les discussions financières, de santé ou sociales, par exemple), les aspects pratiques de l’installation et de l’utilisation d’équipements complexes et le coût nécessairement élevé signifient toutefois qu’il s’agit d’une exception plutôt que d’une règle. De plus, avec l’augmentation spectaculaire des réunions virtuelles au cours des dernières années, il est clairement peu pratique de disposer d’un opérateur pour chaque réunion et chaque espace de conférence.
 

La solution AV : la technologie de suivi vocal
▶ Qu’est-ce que le suivi vocal ?

Une nouvelle génération de microphones de salle de réunion (pensez à Sennheiser TCC2, Yamaha RM-CG, Shure MXA920, Nureva HDL410 et autres) est arrivée. Ces produits sont dotés de la technologie DOA (direction d’arrivée) qui détecte l’emplacement d’une source sonore. Pourquoi est-ce important ?

1. Les microphones de suivi vocal permettent d’éliminer les frustrations courantes liées aux réunions, telles que les voix étouffées, la prise de son à distance et les discours qui se chevauchent. Ils veillent à ce que chaque participant, quel que soit son emplacement, puisse être entendu clairement et sans effort.

2. Cela peut aider les caméras vidéo à se concentrer automatiquement sur la personne qui parle.

Cela change la donne pour les réunions par vidéoconférence. Le suivi vocal est en train de changer la façon dont les caméras s’intègrent et interagissent avec les discussions en direct.
 

 

▶ Intégration du suivi des haut-parleurs avec des caméras

En tirant parti de la puissance du suivi vocal, les données de localisation du réseau de microphones sont partagées en temps réel avec un processeur externe. Celui-ci est à son tour lié à plusieurs caméras PTZ. La combinaison caméra/microphone permet aux caméras de se concentrer immédiatement sur les voix actives dans un espace de réunion. Ceci est réalisé en dirigeant la caméra pour qu’elle se coordonne avec ces données de suivi du son. Avec l’angle de caméra basé sur les données du microphone, une réunion peut être produite automatiquement, avec la sortie vidéo utilisée par Teams, Zoom ou la plupart des autres plateformes pour la session de conférence.

▶ Qu’est-ce que le suivi des haut-parleurs ?

Avec des produits comme CamConnect Pro, Lumens associe des microphones de suivi vocal à des systèmes de caméras PTZ pour offrir un suivi intelligent des haut-parleurs.

Voici comment cela fonctionne :

• Un intervenant commence à parler → la caméra 1 zoome sur lui.
• Le flux vidéo passe à la caméra 1.
• Une autre personne commence à parler → la caméra 2 zoome sur elle.
• Le système passe automatiquement à la caméra 2.

Le système AV crée désormais une production de type télévisuel, sans intervention de l’utilisateur. Et il peut gérer de grandes réunions : chaque caméra est simplement attribuée à plusieurs délégués pour couvrir chaque participant dans la salle.

▶ L’évolution du suivi des haut-parleurs

La connexion de microphones avec des caméras n’est pas nouvelle. Depuis quelques années, les développeurs sont en mesure de programmer des contrôleurs AV pour qu’ils répondent aux données de suivi vocal en direct. En raison de la complexité et de l’unicité de chaque installation, le processus peut être coûteux. Ce que des fabricants tels que Lumens ont accompli a changé la donne : CamConnect peut être installé sur le réseau, configuré et prêt à l’emploi avec plusieurs réseaux de microphones et jusqu’à 4 caméras PTZ en quelques minutes. Aucune programmation n’est requise.

▶ De l’équité à l’adoption massive

Avec l’arrivée de la caméra VC-TR60A, Lumens a mis en place le suivi des haut-parleurs dans le PTZ. Plutôt que de s’appuyer sur un microphone installé au plafond ou mural pour détecter la position d’une voix, cette caméra comprend un ensemble de détecteurs de sons dans sa base. À l’aide de son outil d’analyse d’images compatible AI, le VC-TR60A peut identifier si le son localisé par ses capteurs provient d’un individu dans la pièce et non d’une porte qui se ferme ou d’une voiture qui démarre à l’extérieur. Le VC-TR60A cadrera alors automatiquement la voix active et suivra la discussion.
 

 

▶ Quelle est l’efficacité du suivi des haut-parleurs ?

Le suivi des haut-parleurs peut être incroyablement précis, en repérant une personne assise épaule contre épaule avec des collègues dans un environnement idéal. Cependant, il existe des facteurs qui peuvent réduire sa précision.

- Taille de la  pièce : La précision des données de localisation dépend fondamentalement de la précision du microphone. Plus la distance par rapport au microphone est grande, moins les données sont exactes. La bonne nouvelle, c’est que les systèmes de suivi des haut-parleurs tels que CamConnect peuvent prendre en charge plusieurs microphones qui peuvent être installés au plafond ou le long des murs d’une grande salle. En cartographiant correctement une zone de réunion et en définissant les positions prédéfinies de la caméra, les résultats peuvent être vraiment exceptionnels.

- Acoustique : il faut également veiller à minimiser les échos et les réflexions : une pièce bien insonorisée sera plus performante qu’une salle caverneuse au sol en bois. Un DSP peut minimiser bon nombre de ces problèmes.

▶ L’élément humain

Les humains s’agitent. Ils bougent leurs chaises. Ils restent rarement immobiles. Lorsque le suivi des haut-parleurs dépend des positions prédéfinies de la caméra, cela posait des difficultés avec les systèmes plus anciens qui étaient en proie à des erreurs de cadrage d’un individu. Avec les nouveaux systèmes compatibles AI tels que CamConnect Pro, les préréglages peuvent être automatiquement recadrés pour garantir une prise de vue parfaite.

▶ Suivi des discussions : éviter l’effet ping-pong

Personne n’a envie de regarder un appel vidéo où la caméra saute constamment d’un haut-parleur à l’autre comme un match de tennis. Pour éviter cela, certains systèmes sont capables d’activer un mode de cadrage à plusieurs voix qui zoome sur un plan plus large qui capture toutes les voix actives.

▶ L’avenir du suivi des haut-parleurs

Le cadrage à plusieurs voix n’est qu’un début. Au fur et à mesure que l’automatisation s’améliore, le suivi des haut-parleurs pourrait évoluer vers un système de production AV entièrement automatique, rivalisant avec une émission de télévision professionnelle. Seul le temps nous dira jusqu’où cette technologie ira, mais pour l’instant, elle transforme déjà la façon dont nous vivons les réunions virtuelles.
 





 
Précédent