음성 추적 기술: 보는 것이 믿는 이유

Written by Kieron Seth, Product Marketing Director at Lumens

6월 06, 2025 2110

 


"우리는 시각적인 생물입니다. 시각적인 것은 그대로 유지되지만 소리는 희미해집니다." 하버드 심리학자 스티븐 핑커(Steven Pinker)는 말했다.

이것은 논란의 여지가 있을 수 있지만(특히 음악가들에게!), 연구자들은 대면 대화에서 의사소통의 최소 50%가 비언어적이라고 제안했습니다. 즉, 회의에서 시청각(AV) 기술의 비디오 부분이 필수적입니다.

그것은 우리에게 문제를 야기합니다.

▶ 회의 형평성이란 무엇입니까?

최신 화상 회의 카메라는 놀랍도록 선명하고 밝은 사진을 생성합니다. 종종 영리한 자동 프레이밍 기술이 장착되어 있어 자동으로 확대하여 주변 공간이 아닌 방에 있는 사람들을 캡처할 수 있습니다. 결과는 참석자들에게 집중되어 좋습니다. 그러나 핵심 문제를 완전히 해결하지는 않습니다.

원격 참가자의 경우 대화를 따라가기가 여전히 어려울 수 있습니다. 누가 누구에게 말하고 반응하는지 구분하기 어렵습니다. 이로 인해 회의 형평성이라는 문제가 발생하는데, 이는 대면 참석자가 가상 참가자보다 더 나은 경험을 할 수 있습니다.

▶ 텔레비저지 솔루션

프로듀서는 수십 년 동안 매력적인 TV 토론 프로그램을 제작하여 시청자의 관심을 집중시키고 스토리를 효과적으로 전달할 수 있는 이상적인 모델을 만들어 왔습니다. 방송사가 전 세계와 수십 년에 걸쳐 복제해 온 표준 요소가 있습니다. 여기에는 다음이 포함됩니다.
 
- 다양한 카메라 각도
- 토론에 맥락을 제공하기 위한 와이드 설정 샷
- 활성 화자의 클로즈업 샷
- 앞뒤 토론 중에 여러 사람을 프레이밍하는 행위
- 최적의 각도를 얻기 위한 스마트 카메라 전환

▶ AV가 TV와 일치할 수 있습니까?

이러한 모든 기술은 회의 전문가가 사용할 수 있습니다. G20 회의와 같은 세간의 이목을 끄는 공개 회의에서 정상회담을 녹화하고 방송하는 AV 장비는 TV 방송국에서 사용하는 기술과 동등을 이룰 것입니다.

특정 경영진 회의 및 공개 세션의 경우 여러 대의 PTZ 카메라를 관리하는 단일 운영자가 답입니다. 컨트롤러의 숙련된 프로듀서가 경험과 직관을 사용하여 시청자와 원격 참가자에게 충실하고 설득력 있는 방식으로 토론을 포착함으로써 탁월한 결과를 얻을 수 있습니다.

그러나 기밀 유지의 중요성(예: 재정, 건강 또는 사회 복지 논의), 복잡한 장비 설치 및 운영의 실용성, 필연적으로 높은 비용으로 인해 이는 규칙이 아닌 예외입니다. 더욱이 지난 몇 년 동안 가상 회의가 급격히 증가함에 따라 각 회의와 모든 회의 공간에 교환원을 사용할 수 있는 것은 분명히 비현실적입니다.

AV 솔루션: 음성 추적 기술
▶ 음성 추적이란 무엇입니까?

새로운 유형의 회의실 마이크(Sennheiser TCC2, Yamaha RM-CG, Shure MXA920, Nureva HDL410 등)가 출시되었습니다. 이 제품에는 음원의 위치를 감지하는 DOA(도착 방향) 기술이 탑재되어 있습니다. 이것이 왜 중요한가요?

1. 음성 추적 마이크는 음성이 흐릿해지고, 멀리서 들리는 소리 픽업, 중복되는 음성과 같은 일반적인 회의 불만을 제거하는 데 도움이 됩니다. 위치에 관계없이 모든 참가자의 목소리를 명확하고 쉽게 들을 수 있도록 보장합니다.

2. 이렇게 하면 비디오 카메라가 말하는 사람에게 자동으로 초점을 맞추는 데 도움이 될 수 있습니다.

이것은 화상 회의 회의의 게임 체인저입니다. 음성 추적은 이제 카메라가 실시간 토론과 통합되고 상호 작용하는 방식을 변화시키고 있습니다.
 

▶ 스피커 추적과 카메라 통합

음성 추적의 힘을 활용하여 마이크 어레이의 위치 데이터는 외부 프로세서와 실시간으로 공유됩니다. 이것은 차례로 여러 PTZ 카메라와 연결됩니다. 카메라/마이크 조합을 사용하면 카메라가 회의 공간의 활성 음성에 즉시 초점을 맞출 수 있습니다. 이는 카메라가 이 사운드 추적 데이터와 조정되도록 지시함으로써 달성됩니다. 마이크의 데이터를 기반으로 하는 카메라 각도를 사용하면 Teams, Zoom 또는 회의 세션에 사용되는 대부분의 다른 플랫폼에서 사용하는 비디오 출력을 사용하여 회의를 자동으로 생성할 수 있습니다.

▶ 화자 추적이란 무엇입니까?

CamConnect Pro와 같은 제품을 통해 Lumens는 음성 추적 마이크와 PTZ 카메라 시스템을 결합하여 지능형 화자 추적을 제공합니다.

작동 방식은 다음과 같습니다.

• 카메라 1이 스피커를 확대→ 스피커가 말하기 시작합니다.
• 비디오 피드가 카메라 1로 전환됩니다.
• 다른 사람이 말하기 시작→ 카메라 2가 확대됩니다.
• 시스템이 자동으로 카메라 2로 전환됩니다.

AV 시스템은 이제 사용자 입력이 필요 없는 TV와 같은 프로덕션을 만들고 있습니다. 또한 대규모 회의를 관리할 수 있습니다: 각 카메라는 회의실에 있는 모든 참석자를 커버할 수 있도록 여러 대의원에게 할당됩니다.

▶ 화자 추적의 진화

마이크를 카메라와 연결하는 것은 새로운 것이 아닙니다. 개발자들은 몇 년 동안 실시간 음성 추적 데이터에 응답하도록 AV 컨트롤러를 프로그래밍할 수 있었습니다. 각 설치의 복잡성과 고유성으로 인해 프로세스 비용이 많이 들 수 있습니다. Lumens와 같은 제조업체가 달성한 것은 게임 체인저입니다: CamConnect는 네트워크에 설치하고, 구성하고, 몇 분 만에 여러 마이크 어레이 및 최대 4개의 PTZ 카메라와 함께 사용할 수 있습니다. 프로그래밍이 필요하지 않습니다.

▶ 회의 형평성에서 대량 채택으로

VC-TR60A 카메라가 출시되면서 Lumens는 대신 PTZ에 스피커 추적을 구현했습니다. 음성의 위치를 감지하기 위해 설치된 천장이나 벽걸이형 마이크에 의존하는 대신 이 카메라의 베이스에는 다양한 소리 감지기가 포함되어 있습니다. VC-TR60A는 AI 지원 이미지 분석 도구를 사용하여 센서에 의해 위치되는 소리가 문이 닫히거나 외부에서 출발하는 자동차가 아닌 실내에 있는 개인에게서 나오는지 식별할 수 있습니다. 그러면 VC-TR60A가 자동으로 능동태의 프레임을 구성하고 토론을 따릅니다.
 

▶ 화자 추적은 얼마나 효과적입니까?

화자 추적은 이상적인 환경에서 동료들과 어깨를 나란히 하고 앉아 있는 개인을 골라낼 수 있어 믿을 수 없을 정도로 정확할 수 있습니다. 그러나 정밀도를 떨어뜨릴 수 있는 요인이 있습니다.

-  방 크기: 위치 데이터의 정확도는 기본적으로 마이크의 정밀도에 따라 달라집니다. 마이크에서 멀어질수록 데이터의 정확도가 떨어집니다. 좋은 소식은 CamConnect와 같은 스피커 추적 시스템이 천장 공간이나 대형 장소의 벽을 따라 설치할 수 있는 여러 마이크를 지원할 수 있다는 것입니다. 회의 공간을 올바르게 매핑하고 카메라 사전 설정 위치를 설정하면 정말 뛰어난 결과를 얻을 수 있습니다.

- 음향: 에코와 반사를 최소화하기 위해 주의를 기울여야 합니다: 방음이 잘 되는 방은 동굴 같은 나무 바닥 홀보다 더 잘 작동합니다. DSP는 이러한 많은 문제를 최소화할 수 있습니다.

▶ 인간적 요소

인간은 안절부절 못합니다. 그들은 의자를 움직입니다. 그들은 가만히 앉아 있는 경우가 거의 없습니다. 화자 추적이 카메라 사전 설정 위치에 따라 달라지는 경우, 이로 인해 개인의 프레이밍을 잘못 잡는 데 어려움을 겪는 구형 시스템에서는 어려움이 발생했습니다. CamConnect Pro와 같은 새로운 AI 지원 시스템을 사용하면 사전 설정을 자동으로 다시 구성하여 완벽한 샷을 보장할 수 있습니다.

▶ 토론 추적: 탁구 효과 피하기

테니스 경기처럼 카메라가 스피커 사이를 끊임없이 오가는 화상 통화를 보고 싶어하는 사람은 아무도 없습니다. 이를 방지하기 위해 일부 시스템은 모든 활성 음성을 캡처하는 더 넓은 샷으로 확대되는 다중 음성 프레이밍 모드를 사용할 수 있습니다.

▶ 화자 추적의 미래

다중 음성 프레이밍은 시작에 불과합니다. 자동화가 향상됨에 따라 화자 추적은 전문 TV 방송에 필적하는 완전 자동 AV 제작 시스템으로 발전할 수 있습니다. 이 기술이 어디까지 나아갈지는 시간이 지나야 알 수 있지만 현재로서는 이미 가상 회의를 경험하는 방식을 변화시키고 있습니다.
 





 
뒤로