안녕하세요? 저는 Fraunhofer IIS의 MPEG-H Audio 컨설턴트 김동한입니다.
이번에는 MPEG-H 3D 오디오를 방송에서 어떻게 제작을 할 수 있는지 알아보도록 하겠습니다.
슬라이드를 보시면 Live Broadcast Scenario라고 돼있는데요. 아래쪽 파란 부분에 보시면 라이브 콘솔에서 오디오 마스터가 나가는 거는 기존과 거의 같고요. 중간에 Monitoring & Authoring이라고 나오는 부분이 있습니다. 이 부분들이 UHD 방송을 하면서 MPEG-H Audio로 만들기 위해서 필요한 부분입니다. 라이브 콘솔 다음 단 그리고 주조에서 스위치로 나가서 인코딩 되기 전 인코딩되기 전에 모니터링을 위해서 한 번 더 필요하고요. 이렇게 트랜스미터를 거쳐서 나가게 되면 이게 바로 지금 현재 방송되고 있는 한국형 ATSC 3. 0 UHD 방송표준이 되겠습니다. 지금 이제 이런 모니터링 오소링 장비는 Jünger와 Linear Acoustic이라는 두 회사에서 나오고 있는데요. 먼저 Jünger의 Multichannel Monitoring and Authoring, MMA라고 그러는데 이 유닛 같은 경우에는 오소링 그리고 렌더링을 맡아서 하고 있습니다. 기존의 콘솔에서 나오는 오디오에 대한 베드와 오브젝트 이런 것들을 오소링 단계에서 구분을 해주고 렌더링 파트는 이게 멀티채널이든 스테레오든 그게 시청자에게 어떻게 들리는지 스테레오와 7.1.4까지 멀티채널 3D 오디오로 모니터링 할 수 있게끔 도와주는 거고요.
Linear Acoustic의 Authoring & Monitoring System, AMS라고 부르는데요. 이 기기도 마찬가지로 MPEG-H 오소링과 렌더링을 담당하고 있고요. 두 기기의 차이라면 한 기기는 마디를 지원을 하고 한 기기는 AOIP 등 여러 가지 기능적인 차이가 있습니다. 그러나 기본적인 MPEG-H 제작하는 모든 기능들은 동일하다고 보시면 되고요. 그리고 그 다음에 이제 Broadcast Encoders를 거쳐서, 저희가 MPEG-H Audio를 이 오소링 장비를 거쳐서 마지막에 컨트롤 트랙을 만들어서 16채널 오디오가 나가고요. 그리고 이제 ATSC 3.0 표준인 HEVC 영상을 이제 이 인코더를 통해서 인코딩하게 되면 이게 전체적으로 ATSC 3.0 UHD 방송이 되겠지요. 이런 인코드를 거쳐서 나가게 되는 겁니다. 아래 사진과 같이 Emission Encoder를 거쳐서 ATSC 3.0이 되는 거를 보실 수 있고요.
그러면 이제 MPEG-H Audio에 대한 조금 더 기술적인 사항을 조금 더 보자면요. MPEG-H Audio는 코덱이라기 보다는 Complete Audio System이라고 보셔야 되는데요. 이거는 이제 그냥 오디오를 인코딩해서 코딩을 해주는 작게 비트율이 낮게 전송을 해주는 그런 코덱이 아니라 MPEG-H Audio 자체는 라우드니스나 다이나믹 레인지 컨트롤 같은 것도 조절을 해줄 수가 있고요. 그리고 이제 저희가 7.1.4로 제작을 하거나 이런 것들이 TV단에서 액티브 다운믹스 될 수 있게 스테레오 스피커가 달려있는 곳에서는 7.1.4 콘텐츠도 직접 TV에 박혀있는 MPEG-H 칩셋이 스테레오로 다운믹스를 해줘서 렌더링을 거쳐주게 됩니다. 그래서 이제 7.1.4로 제작된 콘텐츠가 7.1.4든 5.1든 5.1.4든 스테레오든 모노든 어떤 시스템에 들어가게 되더라도 칩셋이나 소프트웨어 MPEG-H 디코더를 통해서 다운믹스가 되기 때문에 어떤 환경에서도 MPEG-H를 들으실 수 있다는 얘기고요. 그리고 이제 현재로서는 라우드 스피커는 스테레오와 5.1, 5.1.4, 7.1.4까지 지원을 하고 있습니다. 그래서 이제 한 개의 오디오 스트림으로 여러 가지의 버전의 오디오 믹스를 만드실 수 있고요. 다양한 language나 Audio Description, Dialogue Enhancement 이런 것들을 사용을 하실 수 있고요
그리고 이제 현재 ATSC 3.0에는 MPEG-H Low Complexity Profile Level 3을 사용하고 있는데요. 방송표준인 24비트에 48KHz를 사용하고 있고요. 데이터 스트림 안에는 32개의 코어 시그널까지 사용을 할 수 있지만 디코더 자체는 16채널만 디코더를 현재 디코딩할 수 있게끔 돼 있고요. 그리고 HOA는 Sixth-Order까지 사용할 수 있습니다. 그리고 맥시멈 라우드니스 라우드 스피커의 채널은 12채널 7.1.4까지 지원을 하고 있습니다. 보시는 바와 같이 7.1.4의 채널 configurations을 해도 384 kbps밖에 안 되는 엄청나게 작은 Bit Rate로 전송이 되고 있고요. 여기서 이제 메타데이터에 대한 설명을 조금 더 드리자면 이 메타데이터는 Audio Scene Description이라고 하는데요. 이것은 이제 MPEG-H Audio 안에서 베드와 이제 모든 오브젝트 그리고 HOA나 여러 가지 채널들에 대해서 그 컴포넌트를 가지고 이제 프리셋과 어떤 스위치그룹, 렌더링을 어떻게 할지에 대한 모든 정보를 담고 있고요. 그리고 이제 그런 스태틱 오브젝트와 다이나믹 오브젝트에 대한 패닝 포지션 이런 정보들도 갖고 있고요. 그리고 이제 저희가 이런 프리셋들을 만들었을 때 TV에 나왔을 때 그 메뉴 화면에 어떻게 표시가 되는지 이런 글자나 레이블 같은 이런 정보도 담고 있습니다. 그리고 이제 각 믹싱이 됐을 때의 모든 라우드니스와 게인 포지션 이런 것과 이제 다이나믹 레인지 컨트롤까지 모든 정보를 담고 있습니다.
화면에서 보시는 바와 같이 이런 메타데이터를 통해서 아래와 같은 메뉴들이 생성이 되는 거고요. 그리고 이 메타데이터는 저희가 아까 보여드렸던 Jünger의 MMA나 Linear Acoustic의 AMS를 사용을 하게 되면 각 그 들어오는 비디오 프레임에 모든 각 프레임마다 이 메타데이터가 생성이 돼요. 그래서 이 메타데이터가 각 프레임마다 메타데이터가 생성이 돼서 컨트롤 트랙이라는 오디오 트랙으로 만듭니다. 이 메타데이터 트랙은 그래서 마지막에 MPEG-H 16채널에 PCM 오디오로 기존의 오디오와 똑같이 오디오 파일로 생성이 되고요. 그 오디오 파일로 생성이 되는 것들은 나중에 종편이나 이런 데 갔을 때 똑같이 나중에 추후 또 편집이 필요했을 때 그냥 그대로 프레임 별로 커트를 해서 나중에 편집을 할 수도 그대로 그냥 사용하실 수 있습니다. 그래서 이제 메타데이터는 이렇게 구성이 되어있다는 것을 알 수 있고요.
그리고 MPEG-H Audio가 이제 VR 요즘 화두가 많이 되고 있는 VR 오디오도 지원을 하고 있는데요. 3D 오디오를 지원을 하고 있으니까요. 그 3D 오디오 안에서 헤드 트래킹을 잡아줘서 그 3D MPEG-H로 만든 3D 오디오 공간 안에서 헤드 트래킹 기능을 지원을 해서 그 헤드 트래킹을 사용해서 VR 오디오에서도 충분히 사용하실 수 있는 이런 기능들이 있고요. VR 오디오가 왜 더 중요하냐면 VR 오디오에는 헤드폰을 쓰고 Binaural Rendering이라는 것을 합니다. MPEG-H Audio가 3D 오디오를 지원을 하고 있지만 기존에 3D SoundBar가 있다고 해도 지금 많은 수요들이 그냥 기본 TV나 모바일로 많이 보는 추세이긴 한데 이런 Binaural Rendering을 통해서 핸드폰으로 3D 오디오를 들었을 때 헤드폰만으로도 이제 3D 오디오를 들을 수 있는 이런 기술이 다 포함이 돼있거든요. 그래서 이제 이런 기능들을 사용을 하면 3D 오디오를 제작해서 오히려 집에서 TV로 보는 것보다 헤드폰으로 핸드폰으로 헤드폰을 사용해서 들었을 때 오히려 3D 효과를 더 좋게 들을 수도 있습니다. 그래서 이제 이렇게 3D 오디오를 제작하는 콘텐츠들은 보다 많은 곳에서 3D 오디오를 더 즐길 수 있는 방법들이 더 생겨 나가고 있다는 내용입니다.
그래서 지금 사진에 보시는 거와 같이 라이브 프로덕션에서는 콘솔에서 나가서 MMA나 AMS를 거쳐서 오소링 단계를 거쳐서 기존의 15채널 오디오와 컨트롤 트랙의 16번에 들어가서 나가는 모습을 보실 수 있고요. 지금 보시는 화면은 이제 그 오소링을 어떻게 하는지에 대한 MMA의 페이지인데요. 이 위쪽에 보시면 채널과 오브젝트 Assignment 이제 MMA란 장비에서 첫 번째 1, 2번 트랙은 베드다, 3, 4, 5번은 오브젝트다 이런 식으로 설정을 해주는 거고요. 그 아래를 보면 User Interactivity 아까 말씀드렸던 Gain을 올렸다 낮췄다 할 수 있는 이런 Gain information들을 여기서 설정을 해줄 수 있고요.
그 아래쪽에 스위치 그룹이라고 있는데 이것이 language 전환 전환할 수 있는 이런 오브젝트들을 설정할 수 있는 페이지를 볼 수 있습니다. 그룹 맨 아래쪽에 프리셋이 있는데요. 위에 있던 그룹 definition 이런 채널들을 가지고 이제 기본 TV믹스라고 하면 기존 베드에 한국어 이렇게 들어가겠지만 영어버전 영어 프리셋을 만들면 위에 있는 영어 컴포넌트를 사용을 해서 베드와 영어만 넣고 영어버전 프리셋을 만들 수도 있고요. 이거는 베드가 여러 개가 될 수도 있고 예를 들자면 야구경기에서 LG와 두산경기가 있다면 LG 쪽 응원 베드와 두산 쪽 응원 베드를 가지고 한 방송에서 두 가지 프리셋을 유저가 선택할 수 있는 거예요. LG팀이나 두산팀 프리셋을 선택을 해서 각자 원하는 응원과 각자 원하는 코멘터리나 해설자까지 이렇게 변환하실 수 있고요. 이런 식으로 이제 구성이 가능하다는 얘기입니다.
그리고 이제 이 MMA 유닛은 모니터링 파트인데요. 이 모니터링 파트는 실제 여기 스피커 레이아웃 다운믹스 부분에서 7.1.4로 제작돼 있는 것들은 7. 이상 다 들으실 수 있고 그 밑에 만약에 스테레오로 방송을 스테레오로 듣는 시청자들이 어떻게 들리는지 보기 위해서는 스피커 레이아웃에서 스테레오를 바꿔주게 되면 이 안에 있는 알고리즘이 TV에 박혀있는 MPEG-H 디코더가 같기 때문에 실제로 스테레오 다운믹스가 어떻게 되는지 확인할 수 있는 부분입니다. 이 아래쪽에 DRC Configuration 같은 경우에는 다이나믹 레인지 컨트롤이 TV에서 어떤 다이나믹 레인지 컨트롤이 먹히고 있는지 확인하실 수 있고요. 프리셋도 여기 안에서 language 변환이나 이런 것들을 확인하실 수 있습니다.
라우드니스에 대해서 조금 더 설명을 드리면 기존에 있는 라우드니스가 스포츠경기를 보다가 영화를 영화채널을 틀게 되면 볼륨차이가 좀 있거나 어떤 거는 크고 어떤 거는 작고 이런 경우가 있었어요. 그런데 지금은 UHD 방송 표준에서는 -24를 기준으로 모든 방송에 나가게끔 돼있고요. 그렇게 하기 위해서는 이 메타데이터가 있어서 가능하게 되는데요. 모든 이 메타데이터 안에는 저희가 아까 말씀드렸던 프리셋 여러 가지 프리셋들의 모든 라우드니스의 정보를 갖고 있어서 TV단에서 이제 방송이 나갈 때 그 라우드니스가 크게 되면 낮춰주고 작게 되면 올려주고 그래서 평균적인 -24로 맞춰주게끔 돼있습니다. 이런 기능을 이런 normalization을 사용을 해서 라우드니스를 맞춰주게 돼있고요. 오브젝트 같은 경우도 이제 저희가 만약에 기존 베드에 여러 가지 language들을 오브젝트로 해서 게인을 올렸다 낮췄다 할 수 있는 모든 기능을 넣었는데 만약에 유저가 리모컨으로 대사를 올렸다 싶으면 대사가 올라가는 게 아니라 엠비언스도 같이 살짝 떨어지면서 전체적인 라우드니스를 맞춰주게 돼있습니다.
이런 식으로 이제 모든 라우드니스는 -24 규격에 맞게끔 나가게 돼있고요. DRC 프로파일 같은 경우는 조금 더 설명을 드리면 모바일 같은 경우는 조금 더 전체적인 타겟 라우드니스가 올라가겠지만 아래쪽 떨어지는 소리들은 조금 더 끌어올려서 시끄러운 환경에서 잘 들릴 수 있게끔 돼있고요. TV 프로파일 같은 경우는 기존 TV에서도 TV에 맞는 그런 다이나믹 레인지를 잡게 해주고요. AVR 프로파일 같은 경우는 조금 더 폭넓은 프로파일을 사용을 해서 조금 더 딥하거나 조금 하이하거나 이런 것들 모든 것들을 들으실 수 있게끔 돼있습니다. 포스트 프로덕션에서 보면 이제 콘솔이 빠지게 되고 일단 기존에 사용하는 많은 플러그인이나 DAW를 사용을 해서 제작을 하실 수 있는데요.
아시는 Pyramix 11.1 버전 이상에서부터는 MPEG-H Audio가 native support를 하고 있습니다. 그래서 export 하실 때 MPEG-H 오디오 오소링을 할 수 있는 페이지로 연결되게끔 이제 사용을 하실 수 있고요. 지금 보시는 사진은 MPEG-H 오소링 플러그인이라고 해서 이거는 Fraunhofer IIS 홈페이지에서 무료로 누구든지 신청하셔서 다운받을 수 있는 플러그인이고요. 이 플러그인을 사용을 하셔서 컨트롤 트랙을 제작을 하실 수 있습니다. 그리고 이제 Spatial Audio Designer라고 하는 3D 플러그인인데요. 이 플러그인 역시도 여러 가지 3D 패닝이나 오소링 단계를 오소링을 할 수 있어서 이 플러그인만 사용을 해도 3D 오디오를 충분히 DAW에서 제작을 하실 수 있습니다. 그리고 지금보시는 것은 MPEG-H 오소링 툴이라고 해서 아까 MMA나 Linear Acoustic의 AMS에서 보신 그런 것과 똑같은 구성인데요. 이거는 좀 더 포스트 프로덕션용이라고 보시면 되고요.
이런 툴들을 사용을 해서 여러 가지 프로그램에 맞는 채널과 프리셋 여러 가지 오브젝트를 구성을 하실 수 있습니다. 그러면 이제 프로그램을 보시면서 한 번 더 MPEG-H 오소링이 어떻게 진행이 되는지 보시도록 하겠습니다. 이제 화면을 보시면 제가 ProTools 최신 버전의 아까 보여드렸던 MPEG-H 오소링 플러그인을 사용을 해서 세션을 준비해봤는데요. 지금 오디오 트랙에는 이제 7.1.4 베드 트랙들과 3개의 다른 language가 된 오브젝트 채널들을 만들어서요. 이거를 이제 여기 보시면 Third-Order Ambisonics Bus track을 만들어서 MPEG-H 플러그인을 넣고요. 그리고 이제 베드와 오브젝트 순서대로 1번부터 12번에 베드를 넣고 13, 14, 15번 이런 식으로 해서 오브젝트를 넣은 모습을 보시게 되겠습니다.
이렇게 넣어주고 제가 지금 스위치 그룹을 여기서 하나 만들어서 이제 language 3개를 넣어줬고요. 그래서 프리셋으로 넘어가시게 되면 이 프리셋들을 여기 있는 컴포넌트를 디폴트 프리셋에 안에 넣어주신 모습을 보실 수 있습니다. 그리고 이제 모니터링 섹션으로 가면 이제 기존 7.1.4나 5.1, 스테레오 이런 식으로 아까 MMA나 AMS에 하는 모든 렌더링 기능을 보실 수 있는 거고요. 지금 여기서 들으시는 스테레오로 해서 스테레오 헤드폰으로 이제 노트북에서 들으신다면 액티브 다운믹스 된 스테레오를 들으실 수 있습니다. 이 안에서 기존에 있는 language 변환하는 것을 보실 수 있고요. 이렇게 설정을 하신 다음에 WAV나 XML파일로 메타데이터를 빼실 수 있고요. 이제 구간을 선택을 해서 export를 하시게 되면 컨트롤 트랙이 생성이 되게 돼있습니다.
이렇게 이제 MPEG-H Audio를 제작하는 방법을 보았는데요. 이런 플러그인 같은 경우는 MPEG-H Fraunhofer IIS 홈페이지에서 MPEG-H 오소링 플러그인을 검색하시면 쉽게 다운받으실 수 있으니까요. 한번 다들 3D 오디오 제작하시는데 두려움 갖지 않으시고 한번 제작을 해보시기 바라겠습니다. 감사합니다.
01. 이 강좌에 대해서
MPEG-H 3D 오디오가 방송에서 어떻게 제작되는지 제작 환경과 기술 특징 및 그 활용 방안에 대해 알아본다.
02. 강사 소개
김동한 (D2SPACE 대표)
03. 강사 이력
- Fraunhofer IIS - MPEG-H Audio Consultant - IMS 스튜디오 – 사운드 디자이너 - 라이브톤 – 사운드 디자이너 - 스튜디오K - 사운드 디자이너