Meta 메타(전 페이스북)의 오디오 크래프트 연구팀이 텍스트 프롬프트를 기반으로 새로운 음악을 생성하고 기존 노래에 맞춰 조정할 수 있는 오픈 소스 딥러닝 언어 모델인 뮤직젠 MusicGen을 출시했습니다. 이 모델은 현재 데모버전으로 나와있지만, 오디오용 ChatGPT라고 할 수 있습니다. 원하는 음악 스타일을 설명하고 기존 곡을 드롭한 다음(선택 사항) "생성"을 클릭하면 됩니다. 상당한 시간(제 경우에는 약 160초)이 지나면 텍스트 프롬프트와 멜로디를 기반으로 완전히 새로운 음악이 짧게 재생됩니다.
현재 뮤직젠 MusicGen은 샘플 길이가 약 12초에 불과하지만 텍스트 설명 및 원하는 음악의 베이스를 기반으로 음악을 생성해 냅니다. 사용자는 AI가 학습할 수 있도록 짧은 오디오 클립으로 인공지능을 보완할 수 있습니다.
Meta 메타의 뮤직젠 AI 개발 연구원들은 20,000시간 분량의 음악으로 MusicGen을 학습시켰으며, 이 중 약 절반은 라이선스가 있는 고품질 음악 트랙과 스톡 미디어 라이브러리인 Pond5 및 Shutterstock에서 선별한 390,000곡의 악기 곡이라고 밝혔습니다. 뮤직젠 MusicGen은 오픈소스이지만 Meta 메타는 아직 트레이닝 코드를 공개하지 않고 있습니다. 관심 있는 개발자는 적절한 하드웨어만 있다면 사전 학습된 모델을 사용할 수 있습니다.
뮤직젠 MusicGen 사용법
전 페이스북 현 메타의 뮤직젠 MusicGen은 현재 데모버전으로 AI 플랫폼 허깅페이스에서 실행해보실 수 있습니다. 또한 코딩을 조금 아시는 분들은 구글 코랩을 통해서도 사용이 가능합니다. 기본적으로 텍스트 투 뮤직(Text To Music) 방식으로 정확한 뮤직젠 MusicGen 사용방법은 퓨처데스크에서 선정한 아래의 가이드 영상을 보시면 쉽게 따라 하실 수 있습니다.
뮤직젠 MusicGen 가격
앞서 언급했듯이 뮤직젠 MusicGen은 데모버전으로 누구나 무료로 사용이 가능합니다. 또한 오픈 소스로 상업용 음악을 생성하는 데에도 사용할 수 있습니다. 이는 지난 반년 동안 딥 러닝 모델이 또 다른 장르로의 침입하는 모습으로 AI 개발의 놀라운 속도를 보여주는 가장 최근의 사례입니다.
뮤직젠 MusicGen 사용 후기
지난달에 구글 Google은 MusicLM이라는 유사한 음악 생성기를 출시했지만 뮤직젠 MusicGen이 약간 더 나은 결과를 생성하는 것으로 보입니다. 샘플 페이지에서 뮤직젠 MusicGen의 결과물을 MusicLM 및 다른 두 가지 모델인 Riffusion과 Musai와 비교했을 때 그 점이 나타났습니다. 현재 컴퓨터 로컬에서 실행할 수 있으며(최소 16GB RAM이 장착된 GPU 권장), 소형(3억 개의 파라미터)부터 대형(33억 개의 파라미터)까지 네 가지 모델 크기로 제공하고 있습니다.
그러나 아직까지는 다양한 음악 스타일로 들을 수 있도록 멜로디의 방향을 정확하게 변경할 수는 없습니다. 이는 출력에 완벽하게 반영되지 않으며 세대를 위한 일반적인 가이드 역할을 할 뿐입니다. 한번씩 해보시면 그래도 현재 기술력이 어디까지 발전했는지 느껴보실 수 있습니다.