음성 추적 기술: 보는 것이 믿는 이유

By Lumens

6월 06, 2025 577

 

"우리는 시각적인 존재입니다. 시각적인 것은 그대로 유지되는 반면 소리는 희미해집니다." 하버드 대학의 심리학자 스티븐 핑커는 말했다.

이것은 논란의 여지가 있을 수 있지만(특히 음악가와 관련하여!), 연구자들은 대면 대화에서 의사 소통의 최소 50%가 비언어적이라고 제안했습니다. 즉, 회의에서 AV(Audio-Visual) 기술의 비디오 부분이 필수적입니다.

그것은 우리에게 문제를 제공합니다.

▶ 형평성 충족이란 무엇입니까?

최신 화상 회의 카메라는 놀라울 정도로 선명하고 밝은 사진을 생성합니다. 종종 영리한 자동 프레이밍 기술이 장착되어 있어 자동으로 확대하여 주변 공간이 아닌 방 안에 있는 사람들을 캡처할 수 있습니다. 결과는 좋았으며 참석자에게 정확히 초점을 맞췄습니다. 그러나 핵심 문제를 완전히 해결하지는 못합니다.

원격 참가자의 경우 대화를 따라가기가 여전히 어려울 수 있습니다. 누가 말하고 누구에게 응답하는지 구분하기 어렵습니다. 이로 인해 회의 형평성이라는 문제가 발생하며, 대면 참석자가 가상 참가자보다 더 나은 경험을 하게 됩니다.

▶ Televisual 솔루션

프로듀서들은 수십 년 동안 매력적인 TV 토론 쇼를 제작해 왔으며, 시청자의 관심을 집중시키고 스토리를 효과적으로 전달할 수 있는 이상적인 모델을 만들어 왔습니다. 방송사들이 전 세계, 수십 년에 걸쳐 복제해 온 표준 요소가 있습니다. 여기에는 다음이 포함됩니다.
 
- 다양한 카메라 앵글
- 토론에 맥락을 제공하기 위한 넓은 설정 샷
- 현재 발언자의 클로즈업 샷
- 앞뒤가 맞지 않는 토론 중에 여러 사람을 프레이밍하는 행위
- 최상의 각도를 얻기 위한 스마트 카메라 전환

 

▶ AV가 TV와 일치할 수 있습니까?

이러한 모든 기술은 회의 전문가가 사용할 수 있습니다. G20 회의와 같은 세간의 이목을 끄는 공개 회의에서 정상 회담을 녹화하고 방송하는 AV 장비는 TV 방송국에서 사용하는 기술과 동등할 것입니다.

특정 경영진 회의 및 공개 세션의 경우 여러 PTZ 카메라를 관리하는 단일 운영자가 해답입니다. 컨트롤러의 숙련된 프로듀서가 경험과 직관을 사용하여 토론을 충실하고 시청자와 원격 참가자에게 설득력 있는 방식으로 캡처함으로써 탁월한 결과를 얻을 수 있습니다.

그러나 기밀 유지의 중요성(예: 금융, 건강 또는 사회 복지 논의에서), 복잡한 장비의 설치 및 운영의 실용성, 필연적으로 높은 비용으로 인해 이는 규칙이 아니라 예외입니다. 더욱이 지난 몇 년 동안 가상 회의가 급격히 증가함에 따라 각 회의와 모든 회의 공간에 운영자를 두는 것은 분명히 비현실적입니다.
 

AV 솔루션: 음성 추적 기술
▶ 음성 추적이란 무엇입니까?

새로운 유형의 회의실 마이크(Sennheiser TCC2, Yamaha RM-CG, Shure MXA920, Nureva HDL410 등)가 출시되었습니다. 이 제품에는 음원의 위치를 감지하는 DOA(도착 방향) 기술이 있습니다. 이것이 왜 중요한가요?

1. 음성 추적 마이크는 잘 들리지 않는 목소리, 멀리서 들리는 소리 픽업, 중복되는 말소리와 같은 일반적인 회의 불만을 제거하는 데 도움이 됩니다. 그들은 위치에 관계없이 모든 참가자가 명확하고 쉽게 들을 수 있도록 합니다.

2. 이렇게 하면 비디오 카메라가 말하는 사람에게 자동으로 초점을 맞추는 데 도움이 될 수 있습니다.

이것은 화상 회의 회의의 판도를 바꾸고 있습니다. 음성 추적은 이제 카메라가 실시간 토론과 통합되고 상호 작용하는 방식을 변화시키고 있습니다.
 

 

▶ Speaker Tracking과 카메라 통합

음성 추적 기능을 활용하여 마이크 어레이의 위치 데이터가 외부 프로세서와 실시간으로 공유됩니다. 이는 차례로 여러 PTZ 카메라와 연결됩니다. 카메라/마이크 조합을 통해 카메라는 회의 공간에서 활성 음성에 즉시 초점을 맞출 수 있습니다. 이는 카메라가 이 사운드 트래킹 데이터와 조화를 이루도록 지시함으로써 달성됩니다. 마이크의 데이터를 기반으로 한 카메라 각도를 사용하면 Teams, Zoom 또는 회의 세션을 위해 대부분의 다른 플랫폼에서 사용하는 비디오 출력으로 회의를 자동으로 생성할 수 있습니다.

▶ 화자 추적이란 무엇입니까?

CamConnect Pro와 같은 제품을 통해 Lumens는 음성 추적 마이크와 PTZ 카메라 시스템을 결합하여 지능형 화자 추적 기능을 제공합니다.

작동 방식은 다음과 같습니다.

• 화자가 말하기 → 카메라 1이 그들을 확대합니다.
• 비디오 피드가 카메라 1로 전환됩니다.
• 다른 사람이 말하기 시작하자 카메라 2가 그들을 확대→.
• 시스템이 자동으로 카메라 2로 전환됩니다.

AV 시스템은 이제 사용자 입력이 필요 없는 TV와 같은 프로덕션을 만들고 있습니다. 또한 대규모 회의를 관리할 수 있습니다: 각 카메라는 회의실에 있는 모든 참석자를 감시할 수 있도록 여러 대리인에게 할당됩니다.

▶ 화자 추적의 진화

마이크를 카메라와 연결하는 것은 새로운 것이 아닙니다. 개발자들은 몇 년 동안 실시간 음성 추적 데이터에 응답하도록 AV 컨트롤러를 프로그래밍할 수 있었습니다. 각 설치의 복잡성과 고유성으로 인해 프로세스 비용이 많이 들 수 있습니다. Lumens와 같은 제조업체가 달성한 것은 게임 체인저입니다: CamConnect는 네트워크에 설치되고 구성될 수 있으며 몇 분 만에 여러 마이크 어레이 및 최대 4개의 PTZ 카메라와 함께 사용할 수 있습니다. 프로그래밍이 필요하지 않습니다.

▶ 형평성 충족에서 대량 채택까지

VC-TR60A 카메라가 출시됨에 따라 Lumens는 대신 PTZ에 스피커 추적을 구현했습니다. 설치된 천장이나 벽걸이 마이크에 의존하여 음성의 위치를 감지하는 대신 이 카메라에는 베이스에 다양한 소리 감지기가 포함되어 있습니다. VC-TR60A는 AI 지원 이미지 분석 도구를 사용하여 센서가 찾은 소리가 문이 닫히는 소리나 밖에서 출발하는 자동차가 아니라 방에 있는 개인에게서 나오는 것인지 식별할 수 있습니다. 그러면 VC-TR60A가 자동으로 활성 음성을 프레이밍하고 토론을 따릅니다.
 

 

▶ 화자 추적은 얼마나 효과적입니까?

화자 추적은 매우 정확할 수 있으며, 이상적인 환경에서 동료와 어깨를 나란히 하고 앉아 있는 개인을 선택할 수 있습니다. 그러나 정밀도를 떨어뜨릴 수 있는 요인이 있습니다.

-  방 크기: 위치 데이터의 정확도는 기본적으로 마이크의 정밀도에 따라 달라집니다. 마이크에서 멀어질수록 데이터의 정확도가 떨어집니다. 좋은 소식은 CamConnect와 같은 화자 추적 시스템이 천장 공간이나 넓은 장소의 벽을 따라 설치할 수 있는 여러 마이크를 지원할 수 있다는 것입니다. 회의 공간을 올바르게 매핑하고 카메라 사전 설정 위치를 설정하면 정말 뛰어난 결과를 얻을 수 있습니다.

- 음향: 에코와 반사를 최소화하기 위해 또한 주의를 기울여야 합니다: 방음이 잘 된 방이 동굴 같은 나무 바닥의 홀보다 더 나은 성능을 발휘합니다. DSP는 이러한 많은 문제를 최소화할 수 있습니다.

▶ 인간적인 요소

인간은 안절부절못합니다. 그들은 의자를 옮긴다. 그들은 거의 가만히 앉아 있지 않습니다. 화자 추적이 카메라 사전 설정 위치에 의존하는 경우, 이로 인해 개인을 잘못 프레이밍하는 데 어려움을 겪었던 구형 시스템에서 문제가 발생했습니다. CamConnect Pro와 같은 새로운 AI 지원 시스템을 사용하면 프리셋을 자동으로 다시 구성하여 완벽한 샷을 보장할 수 있습니다.

▶ 토론 추적: 핑퐁 효과 방지

테니스 경기처럼 카메라가 스피커 사이를 끊임없이 왔다 갔다 하는 화상 통화를 보고 싶은 사람은 아무도 없습니다. 이를 방지하기 위해 일부 시스템은 모든 활성 음성을 캡처하는 더 넓은 샷으로 확대/축소하는 다중 음성 프레이밍 모드를 사용할 수 있습니다.

▶ 화자 추적의 미래

다중 음성 프레이밍은 시작에 불과합니다. 자동화가 개선됨에 따라 화자 추적은 완전 자동 AV 제작 시스템으로 발전하여 전문 TV 방송에 필적할 수 있습니다. 이 기술이 어디까지 발전할지는 시간이 지나봐야 알 수 있겠지만, 현재로서는 이미 우리가 가상 회의를 경험하는 방식을 변화시키고 있습니다.
 





 
뒤로