그렇다면 딥러닝의 발전이 어떻게 콘텐츠 생성모델에 기여할 수 있는지 알아보도록 하겠습니다. 우선은 딥러닝쪽으로 시계열데이터 라고 불리는 것에 대해서 먼저 알아볼 텐데요. 시계열데이터란 아까 소개를 시켜드린 텍스트 정보라든가 아니면 음성 정보라든가 영상 정보라든가 이런 시간이 이제 존재하는 이런 부분에 대해서 이전 부분과 이후 부분이 구분할 수 있는 데이터를 전부 다 시계열 데이터 라고 부릅니다. 이런 시계열 데이터에 어떻게 적용이 될 수 있을까를 알아보면 딥러닝 이전에는 다른 데이터와 마찬가지로 잘 되지 않았어요. 리커런트 뉴럴네트워크(recurrent neural network) 라고 불리는 이제 모델에서 널리 이용됐었는데 상당히 낮은 정확도였습니다. 왜냐면은 이제 돌리다보면 역전파라고 불리는 과정에서 멀리 정보가 전달되는 과정에서 RNN이라고 불리는 모델이 정보를 다 날렸거든요. 그래서 여러 LSTM이라던가 이런 모델이 문제를 해결하려고 시도하였지만 문제를 해결하지 못 하였습니다. 그래서 이제 이런 것들이 시퀀스-투-시퀀스라는 모델에서 적용이 됨에 따라서 이것이 이제 어느 정도 해결이 되었는데요. 이제 저희들이 말하는 부분에서 조금 더 이제 보면은 시퀀스-투-시퀀스는 앞에서 매니-투-매니라고 불리는 부분을 한 번에 처리하면서 기존에 있는 부분은 하나하나 처리를 하는데 이번에는 처음부터 끝을 한 번에 처리하는 방법을 통해서 이 부분에 대해서 해결을 하였습니다. 이건 이제 2014년도 논문의 결과인데요. 여기에 이제 한 번에 처리하면 과연 어느정도 효과가 좋아졌냐 라고 하면은 성능이 기존에 있는 것이 많이 데이터가 길면 길수록 떨어졌다고 보면 지금은 상당히 많이 높아져서 이제 효율이 더 늘었습니다. 근데 여기서 이제 한 단계 더 발달해서 주의집중이라고 불려요. 어텐션이라는 모듈이 하나 더 들어가게 되요. 어텐션이라는 모듈은 사람이 시각적인 집중 사람이 책을 읽을 때 어떤 문장에 집중해서 책 전체를 계속 보고 있지 않잖아요. 그런 것처럼 이제 AI도 특정부분에 집중을 하고 있으면은 조금 더 잘할 것이다 라고 하는 아이디어에서 탄생 했고요. 이런 아이디어를 통해서 부분에 집중하니까 멀리있는 정보를 그때그때마다 안보여도 되니까 아까 말했던 이제 그래디언트라고 불리는 것이 사라지는 문제 그래디언스 배니싱 프라블럼(gradient vanishing problem)이 해결되게 되었습니다. 이제 이런 부분도 해결을 했는데 살짝 조금 더 보안 할 수 있지 않을까 하는 거에서 이제 여기 어텐션을 넣은 모델을 아예 오른쪽에 있는 모델과 같이 완전 바꿔버립니다. 그래서 이제 RNN이라는 구조자체가 없어지고 이제 어텐션이라는 구조만 완전히 붙인 모델만 나오게 되었는데요. 그래서 이런 RNN 구조를 셀프어텐션이라는 모델로 바꿔서 이 셀프어텐션과 메인어텐션이라는 모델을 붙어서 시퀀스-시퀀스라는 모델을 한 번에 처리하는 트랜스포머라는 모델이 2017년에 등장을 하게 되었습니다. 이 트랜스포머 모델이 적용됨에 따라서 그래디언스 배니싱 프라블럼이 거의 모든 문제를 해결하게 되었습니다. 데이터가 길든 짧든 어떻게 이제 모델 설계를 하게 되면은 웬만하면 문제는 거의 다 해결 되는 어떻게 보면 아직까지 이게 거의 만능인 수준처럼 되고 있을 정도로 굉장히 좋고요. 아까 소개를 들었다 버트 같은 모델의 이제 적용이 되게 됩니다. 버트는 이제 아까 소개를 시켜들인 트랜스포머를 가드에 쌓고 이제 여기에 있는 쌓인 것을 프리트레인 방법을 섞어서 정확도를 높이는 방법인데요이제 오른쪽에 소개시켜 드린 openAI GPT 모델도 이제 소개 드릴텐데 버트인 모델은 미래의 정보를 과거의 정보를 쓰일 수도 있고 openAI는 미래의 정보를 예측하는데 과거의 정보만 보는 약간 이런 거에서 부분적인 차이가 있습니다. 그래서 아까 소개를 시켜드렸듯이 버트의 경우에는 아까 사람을 Q/A 분야에서 사람을 이긴 걸로 소개가 된 매우 유명한 모델 중에 하나로 알려져 있습니다. 그래서 이제 과연 이걸 어떻게 콘텐츠에 이용할 수 있을까요? 여기에 있는 이미지처럼 이런 기사 같은 거를 맘대로 표현을 했습니다. 이제 인터넷에서 보면은 가짜 뉴스 같은 게 이제 이슈가 된다 라는 것이 있는데요. 바로 주인공이 소개시켜 드린 방금 전의 GPT라는 모델입니다. 이런 gpt라는 모델을 이용해서 트럼프의 고향은? gpt는 아까 프리트레이닝이라고 불리는 다른 데이터를 미리 학습을 해야 되는데요. 예를 들어 위키피디아에 있는 것을 전부 다 학습을 했다라고 가정을 하면은 그런 것에 있는 정보들을 이 친구가 알아서 조합을 해서 다음과 같이 재생하는 것이죠. 이런 첵폭 같은 것에 엄청나게 적용이 당연히 될 수 있겠죠? 가짜 뉴스 뿐만이 아니고요. 이런 기사 뿐만이 아니고 작사에도 적용이 가능한 것을 예측할 수 있을 겁니다. 네, 수많은 사이트에서 찾아보면 작사에서도 활용을 할 수 있는데요. 한번 보시죠. 우선 왼쪽에 있는 영어 사이트에서 제가 한번 열어 어떤 해피스마일이라는 이런 키워드를 입력하고 장르나 이런 것을 선택한 다음에 생성을 하면 몇 초 걸리지 않아서 이렇게 뚝딱 얼마 걸렸죠? 1초 걸렸나요? 이거를 다른 작사가라고 하면 얼마나 걸렸을까요? 아마 몇 분 혹은 어떤 분들은 이제 몇 시간 뭐 며칠 엄청난 박스오피스라면 몇 달이 걸릴 수도 있겠지만 AI는 이런 걸 1초 만에 해낼 수 있습니다. 한국어로도 이제 사이트가 있어요. 오른쪽에 있는 플로우박스 어플리케이션이 지금까지 만들어진 것 중에 가장 잘 되었다고 저는 생각하는데요. 여기서 이제 보시면은 제가 키워드를 입력을 하고 있어 여기서 원하는 키워드를 선택하고 또 그리고 다른 키워드를 넣어서 연상되는 것을 넣어서 이렇게 만들고 또 이제 내가 가끔 음악을 하다보면 라임 같은 게 안 맞을 수 있는데 이런 것들 뒤에 하면서 네 글자짜리로 이렇게 맞는 것도 바꿔 보고 이런 것들을 자유롭게 할 수 있어요. 이렇게 이런 툴 같은 걸 조합하면 그냥 혼자서 하는 것보다 훨씬 작업속도가 단축되겠죠. 이런 단순히 좋은 것보다 이제 이런 거는 조금 더 발전되어서 그리고 아까 이제 소개 시켜 드린 작곡 분야 많이 기다시렸는데 이제 이런 리슨투트랜스포머 라는 것도 앞에 있는 트랜스포머 기반으로 조금 더 발전시켜서 아까의 입력은 텍스트 정보였으면 이번의 인풋은 미디 데이터라든지 음악 정보들을 넣게 되면은 다음과 같은 아름다운 피아노 클래식 음악을 들을 수 있습니다. 한번 들어 보시죠.(클래식 음악 플레이)어떠셨나요? 저는 사실 클래식 음악에 대해 엄청나게 자세하게는 모르지만 이 음악을 들으면 카페에서 얼마든지 책을 읽으면서 편안한 주말 보낼 수 있을 것 같아요. 그리고 이 AI가 만들어 내는 거는 저작권에도 걸리지 않으니까 사실 이걸 카페에서 무한히 틀고 있다라고 하면 무한으로 생성된 음악을 저작권 없이 쭉 들을 수 있는 거예요. 물론 이런 것을 한 단계 더 발전시킬 수도 있고 하겠죠. 다음으로 한번 넘어가 봐서 아까 설명드렸던 것에서 어텐션 기반의 RNN 모델을 설명해드렸는데 이것에 대해서 음성데이터를 통해서 접목된 것을 한번 들려드리겠습니다. 이제 텍스트를 입력하면 음성이 나오는 텍스트투스피치라고 알려진 음성 합성인데요. 어떻게 들리는 걸까요? AI가 생성된 것 그리고 사람이 생성된 것 이렇게 랜덤으로 한번 들려 드릴테니까 누가 어떻게 생성을 한 건지 맞춰 볼게요.
(음성 플레이)
둘 중에 어떤 게 AI가 만든 걸까요? 첫 번째 것이라 생각하시는 분? 저는 볼 수 없지만, 답을 공개해 보겠습니다. 첫 번째가 정답이었습니다. 맞추셨나요? 아마 쉽지 않았을 거예요. 이 모델이 AI가 생산한 것에서 사람을 거의 이제 구분하지 못 할 정도로 한 것이다 라는 거의 최초의 논문인데요. 타코트론이라는 논문에서 웨이브넷이나 이제 기존의 연구된 것을 합쳐서 만든겁니다. 이걸 하면은 이제 더 이상 로봇 같은 이제 음성 뭐 시리 같은 것도 이제 로봇 같은 게 아니고 좀 더 자연스러운 사람 목소리로 이제 뭐 연예인 목소리로 해도 괜찮은 시대가 오는 것이죠 다시 들어봐도 구분 못 하지 않습니까? 저는 못합니다. 이거를 좀 더 발전시켜서 이거는 제가 작년에 icassp 논문으로 발표했는데요. 이거를 이제 조금 더 발전시켜서 텍스트만 넣는 게 아니고 박자 정보 같은 것도 넣어서 이거를 좀 더 랩 하듯이 바꿀 수 있지 않을까 라고 해서 제가 한번 만들어 보았습니다. 그럼 이게 과연 어떻게 됐는지 한번 들어보시죠.
(음성 플레이)
방금 AI가 만든 목소리입니다. 어떠셨나요? 아직까지 좀 완벽하진 않지만 이게 좀 더 발전한다면은 어떻게 좀 이용해 볼 수 있지 않을까요?네 어쩌면 노래를 좀 잘 못 부르시는 분들도 그냥 말을 열심히 하고서 그냥 이렇게 녹음을 하고 AI에게 맡기면 AI가 랩을 대신해줘서 내 목소리로 이렇게 SNS에 공개할 수 있는 세상이 곧 올 수도 있습니다. 이런 것들에 대해서 저는 이렇게 다음과 같이 다큐멘터리에 소개를 한번 해 드린 적이 있어요. 혹시 더 궁금하신 분 있으시면 이 다큐멘터리를 보시기를 추천드립니다. 만약에 이 콘텐츠를 이용해서 직접 자기 목소리를 해보기는 힘들겠지만 소프트웨어로 한번 해보고 싶다 라고 하시는 분들께는 이 프로소디 tts 프로그램을 소개해드립니다. 국내의 제가 잠깐 있었던 곳인데 다른 tts와 다르게 유일하게 음절, 박자 단위가 되는 국내 유일의 소프트웨어예요. 그래서 이것으로 만들면 제가 아까 말한 것처럼 랩 같은 거를 자유롭게 생산할 수 있으니 한번 콘텐츠에 맞춰서 한번 테스트 해 보는 걸 추천드립니다. 다음은 이제 또 다른 발전의 방향에 대해서 간략하게 소개를 드리겠습니다. 오토앤레코더 계열에서 시작을 해서 발전하였는데요. 먼저 소개시켜드릴 모델이 버리에이셔널 오토 인코더입니다. 왼쪽에 있는 게 기존의 오토인코더 라고 불리는 뉴럴 네트워크 기반의 약간 이런 건데 모델을 설명을 드리면 인풋으로 좀 불안정한 인풋을 넣고 아웃풋으로 이 불안정한 인풋을 재생성하게 모델을 학습합니다. 그래서 이제 저희에게 가장 중요한 건 가운데 있는 정보 여기에 인코더-디코더를 일부러 압축 시키고 그다음에 이거를 압축시킨 정보에서 풀기를 최대한 해보면 가운데 있는 정보는 가장 여기 있는 데이터를 압축한 정보일 것이다 라는 건데요. 어~ 이게 콘텐츠 어떻게 적용되는 걸까요? 일단은 한번 들어 보시죠. 가까이 있는 정보를 어떻게 하는지에 대해서 과거에는 약간 좀 불안정했는데 이것도 약간 통계학적인 이제 딥뉴럴네트워크 같은 거를 접합해서 단순히 압축하는 게 아니고 좀더 확률값에 가깝게 샘플링을 하고 그거를 이제 복구를 하는 방법이 있는데 버리에이셔널 오토 인코더 라는 방법이 발전하게 되었습니다. 어, 이제 다음 페이지를 보시면 과연 이게 어떻게 적응될 수 있는지 보실 수 있습니다.지금 보이시나요? 원래 인풋이 정적인 이미지인데 사람 얼굴을 넣으면 자동으로 이 친구를 염색시켜주고, 아니면 다른 사람으로 바꾸기도 하고 웃지 않았는데 웃게 바뀔 수도 있고 이렇게 바꿀 수 있어요. 아까 제가 이야기한 확률값이 있잖아요. 여기 있는 확률값을 이제 인풋으로 넣는데 예를 들어 이 인풋에 대해서 이거 이쪽 말고 다른 쪽 확률값으로 한번 바꿔 봐 라는 결과값이 이렇게 바뀌는 거예요. 네 그렇게 하면은 이제 이렇게 촬영, 저도 이제 촬영이 되고 있잖아요. 저는 지금 약간 웃고 있는데, 화난 얼굴처럼 바꿔서 낼 수도 있겠죠. 굉장히 재미있었습니까? 저는 이렇게 하고 있는데 미래의 영상에서 선글라스를 쓰는 걸로 바꿔치기 한다던가 이런 것들이 미래에는 굉장히 자연스럽게 이루어질 것입니다. 이제 이런 것들도 똑같이 음악에 접합될 수 있어요. 아까는 이제 간단하게 AI가 음악을 생산했으면 이제 다른 아티스트의 스타일로 바꿀 수 있지 않을까 아니면 나는 이런 곡과 이런 곡이 있는데 이 곡의 중간 정도의 음악이 어떤지 궁금해 라고 할 수 있을 것 같아요. 이런 생각을 사람이 한다고 하면 이거 돈 안 되니까 안 돼요. 뭐 이렇게 하겠죠. 근데 AI는 굉장히 쉽게 그냥 만들어 주죠. 그래서 뽑아줍니다. 한번 들어볼까요? 우선 멜로디를 한번 들어볼게요. 두 가지 멜로디를 한번 합쳐 보겠습니다.
(음악 플레이) 네, 이런 멜로디가 있고요. (음악 플레이) 네, 이런 멜로디가 있습니다. (음악 플레이) 네, 어떻게 들으셨나요? 이런 멜로디 같은 게 두 개 있으면은 이런 중간 멜로디 얼마든지 만들 수 있고 이 중에서 가장 마음에 드는 걸 딱 뽑으면 저작권이 무료인 공짜 멜로디가 완성됩니다. 놀랍죠? 그래서 이제 바흐와 쇼팽의 중간 스타일로 만드는 게 이제 공짜인 이런 멜로디가 저작권이 무료인 이런 것이 생기는 것이죠. 한번 들어보면 어떨까요? 한번 들어보시죠.
(음악 플레이) 이런 이름이 있고요. (음악 플레이) 네, 이런 카우벨 리듬이 있습니다. (음악 플레이) 어떠셨나요? 이런 드럼 같은데도 이제 적용을 하니까 굉장히 어 다채롭지 않습니까? 이게 그냥 드럼이라 그렇지 일렉트로닉스러운 기계에도 적용하면 팝에 또 이제 수많은 파생되는 장르가 생기지 않을까 조심스럽게 저는 추측해 봅니다. 다음으로 소개시켜드릴 논문은 약간 이제 오토인코더 계열인데 조금 더 특별하게 2014년에 Game Theory라고 불리는 게임 이론을 AI 학습에 적용시킨 논문을 하나 소개 시켜 드릴거예요. 이게 무슨 말이냐고요? 간단하게 어떤 범죄자 한 명이 있다고 생각해봅시다. 이 범죄자는 랜덤인 A4 용지에서 어떻게 위조를 잘 해서 위조지폐를 만들어요. 이게 아까 어떤 걸 했던 걸까요? 생성 AI가 이런 일을 하고 있었어요. 근데 이렇게 단순하게 위조지폐를 만들다보면 경찰이 없어요. 이 세상에. 그럼 대충 위조지폐를 만들어도 안 걸리겠죠. 그쵸? 근데 이렇게 진짜 화폐가 있고, 이런 걸 만들어도 잘 걸리지 않으니까 경찰이 이거를 막으려고 하면은 '너, 이거 안 돼!' 라고 알려 주는 거죠. 그러면 이 범죄자는 똑똑해질 필요가 있습니다. 이 위조지폐를 진짜 화폐처럼 만들기 위해서는 말이죠. 그래서 조금 더 위조지폐를 업그레이드 합니다. 네 이제 색깔이 거의 비슷해 졌네요. 그럼 이제 경찰에 이게 위조지폐 인지 아닌지 쉽게 구분할 수 있을까요? 조금 더 경찰도 발전할 겁니다.그래서 이렇게 도둑과 경찰 이런 경쟁하듯이 한 것처럼 이렇게 바꾼 게 제너럴티브 어드벌서리얼 네트워크(generative adversarial networks)간(GAN)이라고 불리는 모델이 생기게 된 것이죠. 이렇게 이제 GAN이 라는 모델이 아까 도둑 같은 역할이 제너럴레이터(generator)라고 불리는 녀석이고 그리고 경찰이 하는 게 디스크리미네터(discriminator)라고 불리는 거예요. 이런 것이 경쟁하면서 AI가 학습을 하면은 아까 보여드렸던 또 다른 배려를 해서 좀 더 발전한 모델이 만들어지게 됩니다. 그래서 이 모델을 만든 이안 굿펠로우라는 굉장히 훌륭하신 분인데요. 지금은 애플 AI 쪽에 헤드로 계시죠. 굉장히 훌륭하신 분인데 이분이 쓴 책이 이제 제가 설명 드린 개념에 대해서 대부분 잘 설명하시는 책이 있습니다. 딥러닝이란 이름부터 직관적인 책이에요. 한번 공부하시고 싶으신 분은 읽어보시기를 적극 추천드립니다. 관련된 GAN이 있어서 어떻게 과연 콘텐츠에 적용될 수 있는지 한번 알아보겠습니다. GAN에서 이미지를 생성하는데 이제 인풋을 이상한, 스케치만 한 걸 넣고 오리지널 이미지를 같이 줘요. 그래서 이게 거짓이냐, 진짜냐는 식으로 아까 문제를 살짝 바꿀 수 있겠죠? 그래서 이걸로 과연 바꾸면 어떻게 되느냐 인풋으로 예를 들어 전혀 상관없는 템플릿을 넣고 아니면 흑백 사진을 넣었는데 컬러로 바꾸고 실제 사진으로 바꾸고 제가 간단하게 디자인을 위해서 가방 스케치만 그렸는데 색칠해서 나오고, 질감을 입혀서 나오고 이런 것들이 이제 충분하게 가능하게 되었습니다. 근데 아까는 그래도 이미지에서 다른 어떤 스케치나 바깥의 페어가 존재했죠? 그런데 아예 이번엔 페어가 없게 한번 학습을 시킬 수도 있어요. 그거를 이제 바로 싸이클 GAN이라는 이런 논문에서 한번 소개가 되었는데요. 이 사이클 GAN이라는 것을 이용하면은 전혀 다른 도메인에 있는 것도 바뀌는 시도를 할 수 있습니다. 그래서 오른쪽에 있는 그림과 같이 똑같은 영상인데 말을 얼룩말로 이렇게 뚝딱 바꿔버리고 이런 식으로 이제 바꾸는 것도 이제 얼마든지 자연스럽게 가능하게 바뀌었습니다. 어떠신가요, 자연스럽나요? 원래 배경화면이나 이런 것이 바뀌고 하는 부작용 같은 게 있는데 이런 것들은 곧 AI 다른 모델들이 발전함에 따라서 점점 더 해결하고 있을 거라고 전 믿고 있습니다. 이제 다음 이제 소개시켜드릴 부분은 이제 아까 딥드림으로 설명을 들렸던 스타일 트랜스퍼 라는 부분인데요. 조금 더 이제 설명을 드리면 기존의 앞에서 설명드린 것과 다른 부분은 전에 있던 거는 기존의 콘텐츠를 유지하지 않게 AI 모델이 학습을 합니다. 그런데 이 스타일 트랜스퍼는 이제 기본적으로 기존에 있는 구조 자체는 유지하면서 여기에 스타일만 입힌다는 차이점을 가지고 있습니다. 그래서 여기 반 고흐의 이미지를 넣었을 때 여기에 스타일만 살짝 이렇게 바뀌는 식으로 들어간다는 것을 이제 알 수 있었죠. 그래서 여기 스타일 트랜스퍼는 공통적으로 이제 콘텐츠 로스라 불리는 손실값과 스타일 로스라고 불리는 손실값으로 나뉘는데 콘텐츠 로스는 정보의 추상화 그런 거를 많이 해요. 그래서 이제 원래 내가 넣고 바꾸고 싶어 하는 원본이미지 같은 거에 대한 것을 말하는 식이고, 스타일로스의 경우에는 이제 스타일 내가 이 스타일로 바꾸고 싶다고 말하는 스타일에 있는 정보를 가져와서 합니다. 그래서 여기에 있는 파생되는 모든 논문들은 이 두 가지 로스에 대해서 어떻게 이용하느냐 혹은 다른 것을 어떻게 넣느냐 뭐 이런 차이가 존재를 하는데요. 여기에 제가 보여드렸던 거는 스타일로스를 구할 때 색깔, RGB겠죠? RGB에 있는 채널들에 있는 정보를 가지고 스타일로스를 계산합니다. 그래서 색깔적으로 스타일이 바뀐 것이죠. 이것을 응용하는 것이 지금은 이렇게 수많은 방법이 이제 적용이 되어서 기존의 딥드림인 방법은 그냥 단순하게 어느 정도 여기에 있는 이미지를 단순히 입히는 것이었으면 지금은 훨씬 더 발전을 하게 되고 여기 있는 사진이 있을 때 내가 다른 색깔의 옷을 입으면 어떻게 될까 라는 식으로 이제 어떤 컬러풀한 약간 팝아트적인 이런 걸로 충분히 바꿀수도 있고 내가 원하는 바운더리 마스크만 따서 바꿀 수도 있고 이런 식으로 엄청나게 확장이 많이 되었습니다. 네 제가 지금 소개시켜드린 게 한 개였는데 아까 앞에 있는 수많은 이제 스타일 트랜스퍼 연구들 이런 것이 어디로 발전할지 궁금하지 않으신가요? 그렇다면 이제 실제 산업에서 AI를 음악 프로듀싱에 어떻게 이용할 수 있을까요? 이번 열린 강의에서는 조금 더 자세하게 작곡, 어떻게 프로듀싱을 할 수 있는지 알아보겠습니다.
강사) 제가 정말 어렵게 모셨어요.
슬레이님!
게스트) 안녕하세요.
강사) 안녕하세요.
여기까지 오시느라 고생 많으셨죠?
게스트) 아닙니다. 초대해 주셔서 감사합니다.
강사) 어떤 아티스트들도 이런 작곡한 곡이 있으면 자기 스타일로 내볼 수도 있고, 이런 아티스트끼리 묶어서 특정 아티스트그룹, 예를 들어 힙합 그룹, 미디인 그룹, 이런 식으로 있는 그룹이 있으면 각각 그룹마다 색깔의 맞는 이런 AI가 편곡해서 낼 수 있지 않을까 라는 생각에 미치게 된 거죠. 근데 이런 생각을 하고 있는 것을 이제 프로덕션 레벨까지 적용이 돼야 되니까 이런 것은 이런 미디파일 같은 건은 지금 아웃풋이 나오고 있는데 이런 것을 히스톨로지 워크스테이션이란 것을 입혀서 아티스트가 최종적으로 이제 톤을 만지고 해야겠죠. 요약을 하면은 우리 화면처럼 이제 여러 멜로디 같은 걸로 입력하고 뭐 코드나 이런 콘텍스트 같은 것을 아티스트가 원하는 대로 하면은 AI가 그것에 맞게 각각의 장르, 각각의 세션, 타입 별로 낼 수 있고, 이게 뭐 AI 모델별로도 차이가 있고, 최근 모델 경우에는 너무 AI가 커서 좀 늦을 수도 있고 그런데 저 당시에 좀 가볍게 짰던 모델은 108개의 저런 세션별 장르별로 하는데 저런 108개를 내는데 1분 정도 걸렸어요. 생성하는데만.
게스트) 우와~
강사) 그래서 바꿔 이야기하면 108개 조합만큼의 음악이 AI에서 나온다 좋다는 보장은 없겠지만요.
게스트) 굉장히 빠른 거죠. 1분 안에 그렇게 많은 양이 나온다니. 네.
강사) 약간 그렇게 만들었었고요. 그래서 이제 이거를 그 중에서 어떻게 보면 좋은 거를 뽑는다 체리피킹 이라고 말을 표현하죠. 체리피킹은 최대한 좋은 거 뽑아서 디지털 워크스테이션에 넣고 그리고 여기에 톤을 입혀서 최종적으로 음악을 냈었습니다. 그래서 약간 여기에 있는 것 중에
약간 예시로 만들어봤어요. 테크노 음악 약간 이런 장르에 대해서 테스트를 해서 AI가 러프하게 낸 음악은 이랬고요. 랩 스타일에 대한 음악은 또 이것도 학습해 봤는데 이렇게 나왔어요. 그래서 이거를 과연 어떻게 할까. 랩 스타일과 러프하게 만든 아웃풋을 사운드 디자이너에게 맞겨 봤어요. 그랬더니 이렇게 바뀌었어요.
게스트) 굉장히 많이 바뀌었네요.
강사) 그래도 핵심적인 라인이나 이런 것은 다 살아있지 않아요?
게스트) 네, 리듬이나 나머지 코드들이나 그런 거는 다 똑같이 간 거 같은데요?
강사) 그렇죠? 이게 사실 저는 어떻게 톤이 바뀌었는지 약간 전문 아티스트가 아닌 사람으로써는 이해할 수 없지만 이게 약간 아티스트들이 손을 얹으면 이렇게 갑자기
게스트) 그러니까요. 아예 확 달라지고 느낌도 아예 달라지네요.
강사) 그래서 사실은 여러 것들을 해야 되는데 협업을 하기 위해서 제가 아까 첫 번째 방법을 이제 한번 어떻게 했는지 한번 공유해 드릴게요.이것처럼 알아야 될 게 우선 기본적인 프로그래밍 지식, 그리고 AI에 관련된 라이브러리가 따로 또 있어요. 그거에 대한 지식, AI를 하려면 아까 논문 같은 것을 이해하려면 수학, 수식 같은 게 엄청 쓰여있거든요? 그거를 이해하기 위한 여러 수학 지식. 그냥 수학도 아니고, 대학원 레벨의 수학. 그리고 이제 이런 것들을 더 복잡하게 하고 기본적인 데이터 이런 것도 음악이랑 음악에 대해 매우 잘 알아야 되고 이런 것도 굉장히 크게 작용을 하고 있고
게스트) 그러면 AI 기술로 곡을 쓸 순 있더라도 미션의 기초나 이런 음악적인 배경 자체가 좀 탄탄해야겠네요?
강사) 그렇죠. 그런데 이제 일반적인 엔지니어들은 음악적인 지식을 아는 사람이 얼마나 될까요? 취미로 조금 했을 수도 있죠, 저처럼. 근데 이제 상당히 이제 이것도 하나 잘하긴 한데 저것도 이제 한 번에 전문가 급으로 한다? 그런 사람은 이미 인간이 아닌 거 같은데요?
게스트) 그렇죠.
강사) 그렇기 때문에 저 같은 사람은 협업을 좀 더 해야 되지 않나
게스트) 아~ 협업을 통해서!
강사) 그렇죠. 이제 아티스트 분도 가만히 있기보다 AI 세계가 오길 부닥치기보다 AI 있는데 뛰어들어서 지식을 통해서 만들어서 약간 이렇게 협업하게 되면 이제 오히려 반하는 세상에 리드할 수 있지 않을까. 같이. 저는 이런 생각이 오히려 들더라고요. 그렇게 만들어진 AI가 그냥 단순히 엔지니어끼리 만든 AI보다 훨씬 더 좋을 거라고 생각하거든요.
게스트) 네, 맞습니다.
강사) 아마 시청자분들도 사실 아까 제 이런 이야기를 듣고 정말 이런 것들 다 알아야 돼요? 너무 많아요. 이러실 수도 아마 있을 거 같아요. 근데 다행히 제가 아까 말한 첫 번째 방법외에 두 번째 방법도 아마 있었어요. 제품을 이용해서 저희 같은 엔지니어가 열심히 만들어서 한번 더 개발자들이 쉬운 어떤 AI 제품이 당연히 나오겠죠. 이미 나온 것들도 있고요. 사실 여러분 제가 미리 이 AI 제품을 슬레이님께 미리 드려서 한번 협업하는 것을 연구해 봤어요. 그래서 저희가 같이 연구를 해봤는데요. 그런 것들에 대해서 아마 뒤에서 이야기를 할 텐데 그런 것들을 이야기하기 전에 어떤 AI 제품들이 있는지 한번 빠르게 구글에서 찾아 봤어요.
강사) 이제 보면 한번 봤었을 때 궁금한 게 있는데 약간 이걸 딱 봤을 때 첫 인상이 어떠셨어요?
게스트) 첫 인상은 저에게 에이바이 첫 인상은 제가 딱 그 웹사이트를 틀었을 때 사실 누구나 들어갈 수 있는 웹사이트잖아요? 그런데 이게 ai 프로그램이라는 것 자체만으로도 너무 신선하고, 너무 충격적이었어요. 디자인 자체도 미래지향적이기도 했고, 그런데 AI 프로그램이 저희에게 있어서는 어떻게 보면은 굉장히 막연하게 생각했던 미래? 라고만 생각했는데, 이렇게 제 앞에 딱 있는 걸 보니까 굉장히 충격적이었던 거죠.
강사) 다른 시청자분들도 비슷한 느낌을 느끼고 계신가요? 저같이 엔지니어 입장에서 좀 바라보면 이런 프로그램이 사실 점점 더 늘거고, 이 프로그램도 앞으로 더 발전해 나갈 거고 이럴 거예요. 그래서 이런 것들이 이제 발전해 나가면서 아마 어떻게 바뀔지 좀 더 아직은 상상이 저도 잘 안 되긴 하는데 이런 부분이 바뀌면 좀더 협업을 하는데 많은 도움을 줄 수 있지 않을까 라는 개인적인 바람이 더 있습니다. 그래서 한번 아티스트가 사용하는 것을 많은 분들이 결과물 같은 것을 기다리고 있을 텐데 아까 이제 에이바이에서 들었던 같은 것을 음원 같은 것을 워크스테이션에 한번 옮겨 봤어요. 보니까 이렇게 사운드화가 난다고 하더라고요.
(음악 플레이)
강사) 어떠셨어요? 이게 실제로도 저런가요?
게스트) 맨 처음 파일을 뽑아 왔을 때 다 로직에 다 넣었더니 저런 소리들 이렇게 나왔어요. 이제 대부분 다른악기들은 다 피아노로 들어가고 드럼만 드럼으로 분류되서 그런데 이제 링크가 아무래도 안 돼 있다보니까 다 피아노로 된 거 같긴 한데 이렇게 제가 손을 좀 봐 가지고 악기들만 대체 해 주고 준비해왔습니다. 또.
강사) 맞아요. 저희가 이렇게 열심히 준비를 했었죠. 그래서 아티스트분께서 이제 완성하고 정말 감짝 놀랐는데 한번 시청자분들도 들어 보시죠.
(음악 플레이)
강사) 저는 너무 좋았어요.
게스트) 아유~ 아닙니다. 감사합니다.
강사) 이게 사실 완전 탈바꿈을 했는데 이거 어떻게 무슨 일이 일어난 건가요?
게스트) 제가 사실 한 건 딱히 별거 없고요. 그냥 악기들만 새로운 악기로 대체해 가지고 드럼 사운드 들도 다른 사운드들로 이렇게 갈아넣고 해가지고 만들었더니 저렇게 됐습니다.
강사) 얼마나 걸리셨어요?
게스트) 전체 작업을 다 통틀었을 때, 10분, 15분도 안 걸렸던 것 같아요.
강사) 오~ 만약 AI가 돕지 않았다 않았다 그러면?
게스트) 그러면 이제 기본 30분, 1시간 걸릴 만한 작업을 AI가 대신 해 준 거죠.
강사) 그렇다고 하네요. 할 때는 한 번 더 자세하게 제가 좀 너무 궁금해서 도대체 어떻게 바꾸는지 하나하나 좀 들어봐야 할 것 같아요.
게스트) 일단 맨 처음으로는 드럼을 바꿔주었고요. 맨 처음에 드럼 소리 바꿔 주고 그 다음에 베이스 그다음에 이제 패드 그다음에 이제 플럭. 그다음에 이제 스트링을 넣은 다음에 메인 멜로디가 그 뒤에 들어갔어요. 그 뒤에 이제 피아노를 마지막으로 얹어 줌으로써 끝냈습니다.
강사) 역시 아티스트! 저는 제가 했으면 저 작업도 엄청 오래 걸렸을 것 같아요.
게스트) 아닙니다.
강사) 그래도 엔지니어로서 뿌듯하네요. 그래도 작업 시간을 AI툴이 있어서 되게 줄어들었다는 거잖아요?
게스트) 굉장히 많이 줄어들었습니다.
강사) 좋습니다. 저는 아직 작곡 쪽에서는 AI가 다른 분야에 비해 발전할 게 상당히 아직 많이 남았다고 생각을 하는데 조금 더 빠르게 AI가 발전하고 아티스트 분께서 좀 더 도움을 드릴 수 있으면 아티스트 분들의 생산성을 제가 다 올려 드릴 수 있지 않을까 이렇게 앨범 발매 하시는데 이제 1년에 정규앨범을 기다리기 너무 힘들단 말이에요. 제가 빨리 팍팍해서 빨리 정규앨범 내게 도와 드리겠습니다.
게스트) 감사합니다.
강사) 개인적으로 좀 궁금한게 생겼는데 아마 시청자분들도 궁금하셨던 게 계셨을 거예요. AI를 프로듀싱에 적용해 보면 어떤 게 특히 좋았나요? 가장 좋은 방법?
게스트) 가장 좋았던 부분은 제가 생각하지 못하는 부분들을 저 대신해서 생각해 준다는 점? 이제 작업을 하다보면 코드진행이나 드럼 리듬이나좀 뻔해질 수 있는 그런 상황들이 많은데 에이바를 통해서 많은 걸 또 배우고 또 느끼고 해가지고 그 부분들이 제일 좋았던 거 같아요.
강사) 맞아요. 저도 옛날에 엔터업계 좀 비슷한 쪽에서 이야기를 들은 적이 있는데 이런 쪽에 특별하게 관심을 갖는 것도 이런 작곡가들이 가끔 이런 것들에 대해서 가끔 아이디어가 떨어질 때가 있대요. 매번 히트곡을 내는 게 아니고 가끔 떨어질 때가 있는데 이유가 보통 항상 영감이 있는 상태가 아니기 때문에 곡은 계속 써야 되고 이런 때가 있다고 하더라고요. 그래서 가뜩이나 협업을 해야 되는데 협업을 하면 또 사람에 대한 스트레스가 있잖아요.
게스트) 그렇죠.
강사) 그래서 AI에 대해서 좀 찾고 있다 이런 말도 좀 들었던 거 같아요.
게스트) 아, 그렇군요. 신기하다.
강사) 또 좋은 점이 있을까요?
게스트) 또 좋은 점은 이제 굉장히 빠르다는 점? 이제 제 작업 시간을 엄청나게 단축시킬 수 있다는 점이 전 너무 좋았어요. 굉장히 큰 장점이 될 것 같아요. 나중에.
강사) 되게 AI 엔지니어로서 되게 좋은 말인 거 같아요. 저희 같은 AI 엔지니어들의 가장 큰 목표는 어떻게 보면 가장 귀찮아 했던 것을 최대한 잘 해결해 주고 가장 사람이 본인이 원했던 그런 것을 하기 좀 집중해주자 약간 그런 취지가 있거든요.
게스트) 아~ 네.
강사) 그렇기 때문에 이런 가장 귀찮은 것들은 좀 덜어 드리고 힘들어 하는 걸 도와 드리고 뭔가 이제 발전하는 방향으로 협업할 수 있으면 좀 더 윤택해지지 않을까 이런 생각이 좀 들게 됩니다. 근데 AI가 아직은 부족한 점이 많죠? 시청자분들도 느끼고 계실 것 같은데 만약 문제점을 지적한다면 어떤 부분들이?
게스트) 이제 문제점 같은 경우에는 음악들을 에이바로 많이 뽑아 봤을 때 굉장히 음악적인 형식과 맞지 않은 이런 구성으로 만들어 낸 게 몇 개 있었어요. 보통 네 마디, 8마디로 그걸 기준으로 잡고 곡을 써야 되는데 갑자기 4마디 갔다가 2 마리 나오고 아니면 두 마리 갔다가 4마디가 나오고 이런 형식의 곡들이 몇 개 나와 가지고 좀 당황을 한 적이 있었어요. 이제 그런 부분들만 개선이 된다면 완벽한 프로그램 될 수 있을 것 같아요.
강사) 약간 AI 앞에 설명드렸던 여러 생성 모델들이 사실 비슷한 문제를 조금씩 가지고 있어요. 어떤 데이터이든 좀 비슷한데 물론 좀 더 발전함에 따라서 계속 개선하고 있지만 가끔씩 랜덤하게 나올 때가 있어요. 그건 이제 입력, AI가 학습한 데이터가 그런 게 우연히 끼어있으면 가끔 그런 것도 나오는 거요.
게스트) 아, 그렇군요.
강사) 무엇보다 데이터가 많으면 몇 기가 심하게는 몇 테라도 있는데 사람이 하나하나 구분하기가 너무 힘들어서 이런 것들을 좀 제거하지 못해서 그런 게 아닐까 이런 것들 언젠가 이런 것들을 또 제거하는 또다는 제 2의 AI가 걸러줄 수도 있고 아마 이런 걸로 좀 발전 하지 않을까 숙제로 안고 있는 부분은 모두 다 인지하고 있으니 그런 거는 열심히 발전시켜 보도록 하겠습니다.
게스트) 네.
강사) 그러면 이제 AI가 좀더 발전하면 시청자분들도 궁금하신 부분 일텐데 일반인 콘텐츠 프로듀서에게 상용화된다면 어떨 거 같아요?
게스트) 일단 작곡가들이나 프로듀서 입장에서는 이 기술에 빠르게 빠르게 적응해서 일단 자기가 빠르게 해야 할 작업 있거나 아니면 영감을 얻고 싶을 때 에이바라는 프로그램을 찾으면 굉장히 잘 할 수 있으니까 쉽게 쉽게. 그 부분에 대해서는 굉장히 큰 장점이 될 거 같고요. 그리고 특히 요즘 일반인 분들도 유튜브를 많이 하시는 분들이 계신데 그분들이 음악을 찾는데 힘드시다고 들었어요. 그래서 그런 분들에게도 에이바가 자동으로 음악을 만들어주니까 굉장히 큰 도움이 될 수 있을 것 같아요. 그래서 굉장히 현실적인 프로그램이라고 저는 생각을 해요.
강사) 그런 말을 들으니 아마 저를 포함한 많은 AI 엔지니어들이 좀 더 힘을 내서 개발을 할 수 있지 않을까 생각이 듭니다. 지금까지 슬레시와 함께 했습니다. 감사합니다.
게스트) 감사합니다.
01. 이 강좌에 대해서
AI를 위한 간단한 이론부터 데이터 전처리와 MIDI를 설명등 AI를 디자인 해보는 시간을 가지고자 합니다.
02. 강사 소개
박중배 (AI 연구자)
03. 강사 이력
박중배 - Humelo Inc. Co-Founder,Chief Operating Officer - RIIID AI Research Scient
연계과정
4차 산업혁명, AI, 딥 러닝, 그리고 뉴 콘텐츠 - AI를 적용한 사운드 콘텐츠 알아보기
중급
온라인교육ㆍ
음악이론
[수어자막] AI를 음악 프로듀싱에 어떻게 이용할 수 있을까? - AI를 적용한 사운드 콘텐츠 알아보기
초급
온라인교육ㆍ
일반
[수어자막] 4차 산업혁명, AI, 딥 러닝, 그리고 뉴 콘텐츠 - AI를 적용한 사운드 콘텐츠 알아보기