열린강좌<온라인교육< 에듀코카

열린강좌

중급

4차 산업혁명, AI, 딥 러닝, 그리고 뉴 콘텐츠 - AI를 적용한 사운드 콘텐츠 알아보기

음악/공연 > 제작 > 음악이론

자막보기

안녕하세요. 이번 시간에는 4차 산업 혁명 AI 딥 러닝 그리고 이것을 기반으로 한 콘텐츠 메이킹이란 무엇인지에 대해 알아보는 시간을 갖도록 하겠습니다.

안녕하세요. 제 이름은 박중배 라고 합니다. 여러분들은 AI가 주도하는 4차 산업혁명 시대이다 라는 말은 상당히 많이 들어보셨을 거 같은데요. AI가 수많은 일자리 특히 반복되는 일자리를 없을 것이다 보니 여러분들은 회사든 학교에서든 아니면 다른 뉴스 미디어이든 이제 반복되는 일은 그만두고 창의 콘텐츠를 만들어야 된다는 말 상당히 들어보셨을 겁니다. 과연 이런 AI가 콘텐츠에서는 어떻게 적용할 수 있을까요. 이런 AI가 콘텐츠에 적용되서 마케팅도 열고, 이런 말도 상당히 많이 들렸는데 저는 과연 이런 콘텐츠를 하면서 다른 부분은 이제 AI에 대해 신경을 안 써도 되는지에 대해서 걱정하시는 분들도 있고 아님 편하게 나는 창의적인 일을 하니까 설마 AI는 접근하지 못 하겠지 이런 마음을 가진 분들도 있을 거 같아요. 근데 이제 과연 여기서 AI가 정확히 어떤 것인지 얼마나 빠르게 발전하지 그리고 콘텐츠는 크게 관련이 없는지에 대해 감이 없으신 분들 좀 있으실 것 같아요. 근데 이제 이렇게 발전하는 거에 대해서 딥 러닝이란 발전을 한다 라고 알려져 있는데 이 딥 러닝이 사실 발전함에 따라서 사실 콘텐츠 생산에서도 상당히 많이 기여를 하게 바뀌었습니다. 이게 어떻게 바뀌고 있는지 한번 이번 시간에 알아볼 예정입니다. 우선 딥 러닝의 발전이 어떻게 되고 있는지 알아보려면 이미지 분류에 대해서 가장 먼저 이야기를 해야 됩니다. 이미지 분류를 이제 가장 먼저 이야기해야 되는 이유는 딥 러닝이 가장 먼저 접근이 되고 가장 먼저 사람 보다 빠르게 잘 하게 되었다고 알려진 분야이기도 해요. 이미지가 이제 주어졌을 때 이것이 과연 어떤 카테고리에 있는지 포유류인지 아니면 어떤 동물인지 아니면 탈 것인지 이게 뭐 배인지 아닌지 이런 것을 예측하는 문제입니다. 이것이 이제 뭐 어디에 애플리케이션을 이용될 수 있다거나 이런 거는 무궁무진 할 텐데요. 아무튼 이거를 AI가 어떻게 이제 분류를 하였을까. 이게 사람보다 정말 잘할 수 있냐고 여쭤보시는 분들도 있다면 네, 그렇습니다. 놀랍게도 딥 러닝이 이제 2012년도부터 이제 발전된 이후 불과 3년 만에 사람보다 사람이 5%의 오차율을 보이고 있으면 2015년에 3.6% 오차율 지금도 계속 떨어지고 있는 중인 이런 추세인데 AI가 사람보다 점점 더 잘 하고 있었습니다. 그럼 이게 과연 이미지라서 그냥 여기 분야만 특별해서 그런 게 아니야 이제 물어보시는 분을 위해서 다른 예제를 하나 들고 왔는데요. 이번 예제는 퀘스천, 앤서링이라고 불리는 데이터 셋인데요. 이게 어떤 문제냐고 하면은 지문과 문제가 주어졌을 때 지문을 보고 어떤 답변이 되었는지를 예측하는 것입니다. 그래서 다음과 같은 지문처럼 여기 나이지리아의 공식적인 언어가 무엇인데 라고 하면은 여기 지문에서 공식적인 언어는 영어야 라는 답변을 찾아서 이걸 AI가 답변하는 것이죠. 마치 수능의 언어영역이나 외국어영역에서 자주 나오는 문제 유형을 AI가 할 수 있는지 물어 보는 데이터임을 예측하시면 될 거 같은데요. 놀랍게도 데이터가 2016년에 공개되었는데 2018년도에 불과 몇 년 지나지 않아서 버트((BERT)라는 모델이 사람보다 더 잘한다는 논문이 딱 나와 버렸습니다. F1 스코어 기준으로 2%나 초과하는 논문인데요. 과연 어떻게 된 것일까요. 지금 AI가 뒤쳐져 있다고 하더라도 자기 분야가 과연 안심할 수 있으시겠습니까?
어차피 콘텐츠 예술도 어쩌면 예외는 아닐 수도 있을 것 같습니다. 지금 보여드리는 거는 이제 딥드림이라는 프로젝트인데요. 2015년에 구글에서 아래에 보이는 논문을 웹사이트로 올리면서 프로젝트화해서 일반인들에게 팁 드림이라는 이름으로 알려진 프로젝트인데요. 다음과 같이 아티스트의 그림을 스타일로 넣고 여러 이미지를 넣으면은 제각각에 아티스트의 스타일로 바꿔 줘요. 그림을. 내가 오늘 아침에 찍은 풍경사진에
반 고흐의 스타일로 바꾼다던가 뭉크의 절규처럼 바꾼다던가 이런 것으로 이제 여러 개를 바꿀 수 있게 하는 것이 굉장히 쉬워졌습니다. 여러 분들이 직접 시현할 수 있게 다른 사이트에서 딥드림 제너레이트 닷 컴. 이라는 사이트에서도 다음과 같이 여러 분들이 이 기술이 어떻게 적용될수 있는지를 바로 테스트해 볼 수 있는데요. 여기 오른쪽 그림과 같이 올빼미가 있으면은 사람을 이제 놓고 올빼미를 스타일로 놓으면 올빼미 눈을 가진 사람처럼 이런 마치 판타지 영화에 등장할 거 같은 것을 순식간에 만들어낼 수 있는 세상이 되었습니다. 음악에서도 이제 어느 정도 많이 발전을 했는데요. 다음 보여 주는 것은 이제 소니에서 만든 작곡 AI의 작품입니다. 한번 들어 보시죠.(음악 플레이) 어떻게 들으셨나요? 이게 정말 처음부터 끝까지 AI가 했다면 정말 믿을 수 없을 거 같죠? 근데 이제 들어보면은 사람 목소리도 아직은 들어가 있고 처음부터 끝까지 AI의 음원은 아마 아닐겁니다. 그럼에도 불구하고 AI가 실제 생산하는데 기여됐다고 하면 안심할 수 있는 수준은 아닐 것 같은데요. 이번에는 다른 리슨 투 트랜스포머 라고 불리는 구글의 프로젝트도 한번 볼게요. 여기에 있는 이제 데이터. 미디데이터라 불리는 음악에서 많이 쓰이고 있는 데이터를 인풋으로 받아서 이것이 언제 재생되는지 온센 그리고 길이, 그리고 어떤 스테이지를(??) 눌렀는지를 트랜스포머라는 딥 러닝 모델을 받아서 이걸 생산하는 부분도 이제 많은 대기업들, 구글을 포함한 많은 대기업들이 영업을 하고 있습니다. 이것은 추후에 조금 더 자세히 다루겠습니다. 이 뿐만 아니고 이제 이런 구글 같은 데 여러분들이 원하는 여러 개 콘텐츠 생산, 예를 들어 로고를 나는 만드는 사람이었다. 디자인한다 하면 인터넷에 AI 로고메이커 내가 만약에 믹싱마스터링 한다 뭐 이러신 분들은 인터넷에 구글에 AI 마스터링 이런 걸 한번 쳐 보시길 한번 추천드려요. 한번 이렇게 쳐보면 어떤 것이 나올까요? 네. 지금 이미지처럼 이런 수많은 기업들이 이미 AI 서비스를 만들어서 광고를 하고 있는 모습을 보실 수 있어요. 이 중에서 잘 되는 것도 있고, 물론 안 되는 것도 조금 있는데 조금 더 있으면 이제 사람과 비슷해질 정도로 어느정도 많이 따라 올 수도 있는 상황입니다. 그래서 여러분들은 이제 이런 AI 발전에 대해서 그냥 나와 먼 이야기라고 하시는 거 보다 이런 AI 툴을 적극적으로 만약에 좋아야겠죠. AI가 좋다면 적극적으로 공부하셔서 적용해서 내가 만약에 한 달 동안 10개의 작품을 만든다면은 한 달 동안 AI 힘을 빌려서 100개의 작품을 만드는 이런식으로도 접근을 할 수 있으니 한번 이런 것들을 배워보시면 어떨까요? 그래서 이번 강의에서는 AI의 기본적인 개념에 대해 알아보고 그리고 도대체 어떻게 발전을 하고 있는지 대해서 간단히 알아보도록 하겠습니다. 그리고 이걸 기반의 딥 러닝 기반의 생성 모델의 최근 발전에 대해 보다 알아보고, 이것이 콘텐츠에 어떻게 적용될 수 있는지 보다 알아볼 것이고요. 제가 정말 어렵게 모셨는데 이 특별 게스트분과 함께 이런 AI 기술을 쉽게 접합할 수 있는 소프트웨어를 같이 한번 사용해 보고 이런 음악 프로듀싱이 어떻게 실제 콘텐츠에 적용될 수 있는지 알아보도록 하겠습니다. 그럼 이제 롤베이스 시스템에서 아까 말씀드린 딥 러닝이라는 것이 발전하기까지 어떤 과정이 있었는지 잠깐 빠르게 들여다 보도록 하겠습니다. AI를 이제 만약에 조금 어떻게 발전하고 있는지 좀 모르시는 분들은 이제 앞에 보이시는 것들과 같이 이상한 단어들을 많이 볼거예요. AI. 머신러닝. 딥 러닝 이거 다 같은 용어인데 다르게 부르는 건가? 아님 이게 언 슈퍼바이즈드 러닝이 뭐지? 슈퍼바이즈드 러닝이 뭐지? 아까 말한 트랜스포머? 제너레이션? 오토인코더 이런 게 과연 뭘까? 이런 분들을 위해서 뒤에 이야기하는 걸 조금 더 도움을 드리기 위해이런 것들에 대한 간단한 설명을 한번 드리도록 하겠습니다. 다음 이미지와 같이 AI화 시대, 머신러닝 시대, 딥 러닝 시대라고 어느정도 나눌 수 있는데요. AI 간단한 휴리스틱이라고 불리는 롤베이스 기반의 AI는 저희 개인컴퓨터가 있지도 않은 1950년대에서 1970년대에 사실 학계에서 많이 유행을 하였습니다. 그리고 조금 더 시간이 지나서 1980년대부터 2006년도 까지는 이제 머신러닝 이라는 이제 AI 보다는 조금 더 발전된 형태지만 이제 사람의 신경망 구조나 이런 거 보다는 수학적인 통계적인 기법에 의해서 분류를 하는 혹은 이제 클러스터링, 군집화를 하는 이런 느낌의 머신러닝이라는 것이 발전하였고. 이제 그 다음 2006년도 2010년도부터 이제 딥 러닝이 본격적으로 들어서게 되서 사실은 이제 AI가 좀 더 넓은 범위고 거기에 이제 조금 더 발전한 머신러닝이 라는 것이 조금 큰 카테고리 범주화가 되면서 그 안에 또 딥 러닝이란 것이 발전하였다 라고 이해를 하시면 될 것 같은데요. 인공지능과 이제 기계학습의 차이점에 대해서 명확하게 좀 더 알아볼 건데요. 인공지능 안에 기계학습이라는 이런 섬이 존재하는 데 기계학습이 이제 데이터의 특징 사이에 패턴이나 상관관계를 뽑아내는 것이라고 하면은 기계학습이 아닌 인공지능은 이제 단순히 룰 기반, 지식 기반으로서 뽑아내는 것을 어느정도 뜻합니다. 그래서 그게 어떤 차이냐. 이미지를 통해 좀 더 자세히 보면은 좀 더 옛날 시계 프로그래밍은 어떤 데이터가 있을 때 어떤 저희가 룰 같은 거를 저희가 넣으면 그것을 답을 주는 형태 조금 더 쉽게 설명을 드리면 어떤 법이 있고 법에 따라 법원에서는 어떤 판례가 이제 들어가면 이거에 따라서 판결문을 내리잖아요. 이게 전통적인 프로그래밍 방법에 가깝고 머신러닝의 기법은 어떤 판례문에 대한 게 있고 그래서 판례가 어떻게 났다면 그럼 법이 무엇일까를 유추해 가는게 머신러닝이라고 생각하시면 될 것 같습니다. 그래서 다음과 같이 룰 베이스 어프로치는 이렇게 어떤 조건이 있으면 어떤 게 맞고 어떤 게 틀리다 라는 걸 단순하게 한다면 머신러닝은 어떤 모델 정확하게 프로그래밍 같은 거를 하지 않아도 여기 안에 이제 똑똑하게 설계된 어떤 통계적인 모델이 그거를 이제 예측을 해낸다 라고 이해하시면 될 거 같습니다. 그러면 이제 어떤 종류가 있고 어떤 예시가 있는지 한번 알아보겠습니다. 이제 크게 기계학습을 나누는 것은 지도학습과 비지도학습 아까 앞에서 본 슈퍼바이즈드 러닝과 언 슈퍼바이즈드 러닝으로 나눌 수 있는데요. 슈퍼바이즈드 러닝은 라벨이 있다. 즉, 정답을 어느정도 준다라고 해서 이제 지도를 해 주면서 학습 시킨다라고 해서 지도학습이라 부르고 비지도학습은 이런 건 고양이고 어떤 건 강아지야 뭐 이런 답도 안 주고 나는 이런 사진만 줘요. 근데 이 사진을 아무튼 분류해 봐. 이제 마치 못된 상사가 이제 부하직원에게 한 천 장의 사진을 주고 이거 알아서 한번 분류해서 와봐. 약간 이런 느낌이라고 할까요? 이거를 AI한테 시킵니다. 이거를 바로 비지도학습이라고 합니다. 그래서 약간 여기 조금 더 자세하게 들여다보면 슈퍼바이즈드 러닝 안에 들어가면 이런 라벨을 준 거를 분류하는 약간 그런 것. 이제 리그레션 이거를 어떤 거를 데이터가 있을 때 이걸 최대한 가깝게 근사한 함수를 뽑아낸다 이런 리그레션도 슈퍼바이즈드 러닝의 일종이라고 볼 수 있고요. 비지도학습 내에서는 클러스터링이라고 하는데 군집화를 한다던가 아니면 큰 데이터에서 의미있는 부분에만 추려내는 것을 할 수 있다던가 아니면은 여러 데이터들 사이에 연관관계를 찾아낸다던가 하는 건 이제 비지도학습의 일종이라고 말할 수 있습니다. 그리고 아까 얘기했듯이 깊은 학습인데 이 깊은 학습의 정의를 보게 되면 복잡한 표현이 단순한 표현을 위해 표현 가능하게 하면서 동시에 딥뉴럴네트워크 라고 불리는 두 층 이상의 신경망으로 표현된다고 정의하고 있습니다. 여기서 이제 딱 보면 이게 무슨 개념이지? 하실텐데요. 그리고 이제 도대체 신경망이 갑자기 여기서 뜬금없이 왜 나오지 하시는 분들을 위해 여기서 자, 이렇게 준비를 해 왔습니다. 여기서 인공신경망이 과연 무엇일까요? 인공신경망은 아마 뉴럴 네트워크라는 이름에서 어느 정도 예측할 수 있듯이 사람의 몸에 있는 혹은 다른 동물에도 있죠. 이런 생물학적 뉴런, 신경세포를 모방한 것입니다. 이것을 모방해서 컴퓨터로 옮겨서 최대한 간단하게 1950년대 프랭크 로젠블라트이라는 훌륭한 연구자 분이 이제 퍼셉트론이란 모델을 제안하셨어요. 그래서 이걸 통해서 사람이 하는 것처럼 분류를 할 수 있지 않을까라고 해서 자세하게 조금 더 들여다보면 이런 식으로 인공뉴런이 표현될 수 있는데 이런 식으로 만들어 내었습니다. 하지만 이것은 1980년대 다른 통계학적인 방법에 발전된 다른 모델들에 비해 성능이 좀 낮았던 것로 해서 비주류의 머신 알고리즘이었는데요. 이게 왜 그러면 부족했었을까요? 단순 신경망은 여기 위에 있는 식에서 보시면은 어떤 하나의 더블유라고 불리는 거와 인풋, X라고 불리는 것이 단순하게 곱해지는 그러니까 여러 선형함수 여러분 아마 중학교, 고등학교 때 일차함수라고 들어보셨을 거예요. 이런 일차함수 같은 것을 그냥 단순히 더한다고 해서 복잡한 고차원 함수가 되는 건 아니죠. 네 그렇습니다. 이 복잡하게 있는 함수가 필요할 때도 있는데 단순한 함수만 있는다고 하더라도 이거를 복잡한 거를 풀 수가 없었죠. 그래서 이걸 선형문제를 어떻게 극복하느냐 이런 것을 한 번 더 재배치해서 선형문제를 풀 수 있는 문제꼴로 바꿔버리는 돼요. 그래서 이거를 어떻게 하느냐. 그냥 하나의 중간에 은닉층이라고 불리는 조금 더 깊게 두층을 쌓고 이제 거기에 넣어 놓은 것을 여기서 활성함수 라고 하는데 이제 시그모이드함수가 하나의 예시인데 시그모이드는 사람의 시냅스와 시냅스를 건널 때 어느정도 활성의 척도가 바뀐다. 이런 식으로 어느정도 알려져 있는 함수예요. 물론 AI에서는 이 시그모이드 외에도 다른 활성 함수도 많지만 그래서 일단 시그모이드를 가지고 설명을 드리면 이 중간의 셀 레벨에서 이런 활성함수를 통해 이런 것이 재배치가 되면은 이제 이런 것도 선형함수로도 충분히 나눌 수 있게 이런 모델들이 변환이 되는 것을 할 수 있습니다. 그래서 사실 정확하게는 기계학습 내에 이런 표현 학습이라는 큰 틀이 있고 이제 피쳐라고 하는 데이터에서 뭐가 더 의미있는지 뽑아내는 작업 대신에 이 피쳐를 가장 잘 표현하는 걸 오히려 모델에 학습하게 바꿔 가지고 이거를 조금 더 레프리션 테스트, 똑똑하게 해 보자 라고 표현학습이 좀 더 큰 개념이고 이 안에 딥 러닝이라는 개념이 존재하게 되는 것이죠. 그래서 딥 러닝은 이제 표현학습 안에서 깊은 신경망이라는 2층 이상의 신경망으로 표현이 되는 것을 뜻합니다. 그래서 이제 요약을 하면 이제 오른쪽에 있는 표처럼 나타낼 수 있을 거 같아요. 이제 롤 베이스는 하드하게 그냥 일일이 모든 법을 다 기록하는 거라면 이제 클래식한 이제 머신러닝은 그거보단 좀 발전하였고 피쳐라고 불리는 것을 이제 열심히 뭐가 의미 있는 피쳐인지 뽑아서 계산을 해서 그거를 이제 그다음부터 앞서서 뽑아내는 모델. 표현학습은 이제 이런 피처를 뽑는 것을 좀 더 단순하게 뽑아서 이거를 매핑을 단순하게 하는 것! 딥 러닝은 이제 이거를 더더욱 더 심플하게 한 다음에 이걸 그냥 신경망에다 맡겨버리는 것이라고 표현할 수 있을 것 같습니다. 그래서 이런 딥 러닝은 2006년 제프리힌튼 교수에 의해서 알려지게 되었어요. 2006년에 사실 Deep Belief Network (DBN)란 모델의 논문에서 처음으로 이제 딥 러닝의 개념을 설명하였는데 당시에는 외면을 당했어요. 왜냐하면 컴퓨팅파워 같은 게 이걸 정말 실험하는데 필요한데 당시에는 어 뉴럴 네트워크야? 머신러닝보다 안 좋잖아. 이거 왜 하고 있어? 이렇게 말해서 쳐다보지도 않을 거야 많은 연구자들이. 그래서 이제 이런 것들이 컴퓨팅 파워 제발 지원해 주세요. 저 이거 하면은 이거 다른 AI보다 좋단 말이에요. 힌튼 교수님 이러면서 엄청나게 돌아다녔다고 해요. 그런데 다행히 이제 구글 같은 여러 안목이 있던 회사가 이 잠재력을 보고 컴퓨팅파워을 지원해줘서 오늘날에 이제 2012년도 최대 이미지 경연 대회인 ILSVRC에서 다른 이제 머신러닝, 클래식한 머신러닝이 26%대에서 놀고 있을 때 혼자 15% 때 기록을 하였고 이게 더 발전하여 이제 2015년에는 아까 사람을 이긴. 아까 보여드렸죠? 이 그림을 이제 탄생시킬 수 있었습니다.이제 이 그림을 이제 컴페티션 계기로 많은 연구자들이 뉴럴네트워크에 대한 편견이 다 깨지고 AI에 다시 옛날 시절의 붐을 다시 만들자 라고해서 지금에 이르게 되었죠. 저도 이런 힌튼 교수님의 노력때문에 지금 이렇게 많은 연구를 진행하고 있죠. 이렇게 딥 러닝 모델이 발전함에 따라서 많은 연구자 분들이 다시 연구를 재기를 하였고 이런 인식모델 뿐만 아니고 생성 모델에서도 다시 접근을 하고 재발견하고 또 발전시키게 되었습니다. 그것은 곧 폭발적인 성장을 하였고, 자연스럽게 콘텐츠 데이터에 적용되게 되었습니다.

01. 이 강좌에 대해서

작곡,작사,음성&보컬에서의 AI에 대해 알아보는 시간을 가지고자 합니다.

02. 강사 소개

박중배 (AI 연구자)

03. 강사 이력

박중배
- Humelo Inc. Co-Founder,Chief Operating Officer
- RIIID AI Research Scient

연계과정