By Lumens
6월 06, 2025 577
"우리는 시각적인 존재입니다. 시각적인 것은 그대로 유지되는 반면 소리는 희미해집니다." 하버드 대학의 심리학자 스티븐 핑커는 말했다.
이것은 논란의 여지가 있을 수 있지만(특히 음악가와 관련하여!), 연구자들은 대면 대화에서 의사 소통의 최소 50%가 비언어적이라고 제안했습니다. 즉, 회의에서 AV(Audio-Visual) 기술의 비디오 부분이 필수적입니다.
최신 화상 회의 카메라는 놀라울 정도로 선명하고 밝은 사진을 생성합니다. 종종 영리한 자동 프레이밍 기술이 장착되어 있어 자동으로 확대하여 주변 공간이 아닌 방 안에 있는 사람들을 캡처할 수 있습니다. 결과는 좋았으며 참석자에게 정확히 초점을 맞췄습니다. 그러나 핵심 문제를 완전히 해결하지는 못합니다.
원격 참가자의 경우 대화를 따라가기가 여전히 어려울 수 있습니다. 누가 말하고 누구에게 응답하는지 구분하기 어렵습니다. 이로 인해 회의 형평성이라는 문제가 발생하며, 대면 참석자가 가상 참가자보다 더 나은 경험을 하게 됩니다.
이러한 모든 기술은 회의 전문가가 사용할 수 있습니다. G20 회의와 같은 세간의 이목을 끄는 공개 회의에서 정상 회담을 녹화하고 방송하는 AV 장비는 TV 방송국에서 사용하는 기술과 동등할 것입니다.
특정 경영진 회의 및 공개 세션의 경우 여러 PTZ 카메라를 관리하는 단일 운영자가 해답입니다. 컨트롤러의 숙련된 프로듀서가 경험과 직관을 사용하여 토론을 충실하고 시청자와 원격 참가자에게 설득력 있는 방식으로 캡처함으로써 탁월한 결과를 얻을 수 있습니다.
그러나 기밀 유지의 중요성(예: 금융, 건강 또는 사회 복지 논의에서), 복잡한 장비의 설치 및 운영의 실용성, 필연적으로 높은 비용으로 인해 이는 규칙이 아니라 예외입니다. 더욱이 지난 몇 년 동안 가상 회의가 급격히 증가함에 따라 각 회의와 모든 회의 공간에 운영자를 두는 것은 분명히 비현실적입니다.
새로운 유형의 회의실 마이크(Sennheiser TCC2, Yamaha RM-CG, Shure MXA920, Nureva HDL410 등)가 출시되었습니다. 이 제품에는 음원의 위치를 감지하는 DOA(도착 방향) 기술이 있습니다. 이것이 왜 중요한가요?
1. 음성 추적 마이크는 잘 들리지 않는 목소리, 멀리서 들리는 소리 픽업, 중복되는 말소리와 같은 일반적인 회의 불만을 제거하는 데 도움이 됩니다. 그들은 위치에 관계없이 모든 참가자가 명확하고 쉽게 들을 수 있도록 합니다.
2. 이렇게 하면 비디오 카메라가 말하는 사람에게 자동으로 초점을 맞추는 데 도움이 될 수 있습니다.
이것은 화상 회의 회의의 판도를 바꾸고 있습니다. 음성 추적은 이제 카메라가 실시간 토론과 통합되고 상호 작용하는 방식을 변화시키고 있습니다.
음성 추적 기능을 활용하여 마이크 어레이의 위치 데이터가 외부 프로세서와 실시간으로 공유됩니다. 이는 차례로 여러 PTZ 카메라와 연결됩니다. 카메라/마이크 조합을 통해 카메라는 회의 공간에서 활성 음성에 즉시 초점을 맞출 수 있습니다. 이는 카메라가 이 사운드 트래킹 데이터와 조화를 이루도록 지시함으로써 달성됩니다. 마이크의 데이터를 기반으로 한 카메라 각도를 사용하면 Teams, Zoom 또는 회의 세션을 위해 대부분의 다른 플랫폼에서 사용하는 비디오 출력으로 회의를 자동으로 생성할 수 있습니다.
작동 방식은 다음과 같습니다.
• 화자가 말하기 → 카메라 1이 그들을 확대합니다.
• 비디오 피드가 카메라 1로 전환됩니다.
• 다른 사람이 말하기 시작하자 카메라 2가 그들을 확대→.
• 시스템이 자동으로 카메라 2로 전환됩니다.
AV 시스템은 이제 사용자 입력이 필요 없는 TV와 같은 프로덕션을 만들고 있습니다. 또한 대규모 회의를 관리할 수 있습니다: 각 카메라는 회의실에 있는 모든 참석자를 감시할 수 있도록 여러 대리인에게 할당됩니다.
마이크를 카메라와 연결하는 것은 새로운 것이 아닙니다. 개발자들은 몇 년 동안 실시간 음성 추적 데이터에 응답하도록 AV 컨트롤러를 프로그래밍할 수 있었습니다. 각 설치의 복잡성과 고유성으로 인해 프로세스 비용이 많이 들 수 있습니다. Lumens와 같은 제조업체가 달성한 것은 게임 체인저입니다: CamConnect는 네트워크에 설치되고 구성될 수 있으며 몇 분 만에 여러 마이크 어레이 및 최대 4개의 PTZ 카메라와 함께 사용할 수 있습니다. 프로그래밍이 필요하지 않습니다.
VC-TR60A 카메라가 출시됨에 따라 Lumens는 대신 PTZ에 스피커 추적을 구현했습니다. 설치된 천장이나 벽걸이 마이크에 의존하여 음성의 위치를 감지하는 대신 이 카메라에는 베이스에 다양한 소리 감지기가 포함되어 있습니다. VC-TR60A는 AI 지원 이미지 분석 도구를 사용하여 센서가 찾은 소리가 문이 닫히는 소리나 밖에서 출발하는 자동차가 아니라 방에 있는 개인에게서 나오는 것인지 식별할 수 있습니다. 그러면 VC-TR60A가 자동으로 활성 음성을 프레이밍하고 토론을 따릅니다.
화자 추적은 매우 정확할 수 있으며, 이상적인 환경에서 동료와 어깨를 나란히 하고 앉아 있는 개인을 선택할 수 있습니다. 그러나 정밀도를 떨어뜨릴 수 있는 요인이 있습니다.
- 방 크기: 위치 데이터의 정확도는 기본적으로 마이크의 정밀도에 따라 달라집니다. 마이크에서 멀어질수록 데이터의 정확도가 떨어집니다. 좋은 소식은 CamConnect와 같은 화자 추적 시스템이 천장 공간이나 넓은 장소의 벽을 따라 설치할 수 있는 여러 마이크를 지원할 수 있다는 것입니다. 회의 공간을 올바르게 매핑하고 카메라 사전 설정 위치를 설정하면 정말 뛰어난 결과를 얻을 수 있습니다.
- 음향: 에코와 반사를 최소화하기 위해 또한 주의를 기울여야 합니다: 방음이 잘 된 방이 동굴 같은 나무 바닥의 홀보다 더 나은 성능을 발휘합니다. DSP는 이러한 많은 문제를 최소화할 수 있습니다.
인간은 안절부절못합니다. 그들은 의자를 옮긴다. 그들은 거의 가만히 앉아 있지 않습니다. 화자 추적이 카메라 사전 설정 위치에 의존하는 경우, 이로 인해 개인을 잘못 프레이밍하는 데 어려움을 겪었던 구형 시스템에서 문제가 발생했습니다. CamConnect Pro와 같은 새로운 AI 지원 시스템을 사용하면 프리셋을 자동으로 다시 구성하여 완벽한 샷을 보장할 수 있습니다.
테니스 경기처럼 카메라가 스피커 사이를 끊임없이 왔다 갔다 하는 화상 통화를 보고 싶은 사람은 아무도 없습니다. 이를 방지하기 위해 일부 시스템은 모든 활성 음성을 캡처하는 더 넓은 샷으로 확대/축소하는 다중 음성 프레이밍 모드를 사용할 수 있습니다.
다중 음성 프레이밍은 시작에 불과합니다. 자동화가 개선됨에 따라 화자 추적은 완전 자동 AV 제작 시스템으로 발전하여 전문 TV 방송에 필적할 수 있습니다. 이 기술이 어디까지 발전할지는 시간이 지나봐야 알 수 있겠지만, 현재로서는 이미 우리가 가상 회의를 경험하는 방식을 변화시키고 있습니다.