알파벳 산하 구글 딥마인드가 인공지능 동영상 생성 도구인 베오(Veo)를 공개한 지 불과 7개월 만에 베오2(Veo2)를 발표했다.
새로운 도구는 최대 4K 해상도의 동영상을 생성할 수 있다. 이는 1080p까지만 처리할 수 있었던 첫 번째 버전과 견줘 크게 향상된 것이다. 구글은 업그레이드된 베오가 생성하는 장면의 물리적 특성이 개선되었다고 주장한다. 또한 카메라 제어 기능도 향상했다. 실제 카메라는 사용되지 않지만, 사용자는 클로즈업부터 패닝, 전경 샷에 이르기까지 특정 카메라 샷과 각도를 모델에 요청할 수 있다.
딥마인드는 텍스트-이미지 변환 모델인 이마젠3(Imagen3)의 업데이트 버전도 발표했다. 더 균형 잡힌 구도의 이미지와 예술적 스타일의 개선된 구현 등의 변화는 새로운 버전 번호를 부여할 만큼 크지 않은 것으로 보인다. 이마젠3는 지난 8월에 처음 출시됐다. 베오2의 4K 해상도 지원은 딥마인드가 동영상 생성 분야에서 경쟁 AI 연구소들을 앞서고 있음을 시사한다.
오픈AI는 지난 2월 소라(Sora) 동영상 생성기를 공개했다. 하지만 소라(특히 챗GPT 플러스와 프로 사용자들이 이용할 수 있는 소라 터보 버전)의 출력은 여전히 1080p 해상도로 제한돼 있다. 현재 가장 인기 있는 인공지능 동영상 생성기 중 하나인 런웨이(Runway)는 더 낮은 720p 해상도로만 내보낼 수 있다.
구글은 베오2 발표에서 “저해상도 동영상은 모바일에 적합하지만, 창작자들은 자신의 작품이 큰 화면에서 빛나는 것을 보고 싶어 한다”고 설명했다. 베오2의 4K 클립은 기본적으로 8초로 제한되지만, 구글 대변인에 따르면 2분 이상으로 연장할 수 있다. 소라의 1080p 클립은 20초로 제한돼 있는 것과는 차별화한 요소다.
딥마인드는 베오2와 소라 터보를 비교했을 때, 인간 평가자의 59%가 구글의 서비스를 선호했고 27%가 소라 터보를 선택했다고 주장한다. 또한 미니맥스(Minimax)와 메타(Meta)의 무비 젠(Movie Gen)과 비교해도 비슷한 선호도를 보였다. 베오2에 대한 선호도는 중국 콰이셔우 테크놀로지의 클링 v1.5(Kling v1.5)와 비교했을 때만 50% 아래로 약간 떨어졌다.
프롬프트 준수도, 즉 요청 받은 대로 수행하는 능력에 있어서도 베오2는 비슷한 비율로 선호됐다고 딥마인드는 밝혔다.
딥마인드는 환각 문제를 해결하는 데 상당한 진전을 이뤘다고도 말했다. 실제 세계의 물리학과 인간의 움직임 및 표정의 뉘앙스에 대한 더 나은 이해를 보여준다는 거다.
물리학 문제는 AI 동영상 생성기가 계속해서 어려움을 겪고 있는 부분이다. 예를 들어, 소라는 체조 선수들의 복잡한 움직임을 현실적으로 생성하는 데 어려움을 겪고 있다. 베오2가 이 점에서 얼마나 더 나아질지는 지켜봐야 한다.
스탠포드 대학교 교수이자 월드 랩스(World Labs) 공동 창립자인 페이-페이 리는 물리학과 물체 영속성과 같은 문제는 3D 환경을 이해하고 생성할 수 있는 ‘공간 지능’을 가진 이른바 월드 모델로만 진정으로 해결될 수 있다고 주장한다. 구글은 이달 초 자체 지니 2(Genie 2) 월드 모델을 공개했지만, 가상 환경에서 작동하는 AI 에이전트를 훈련하고 평가하는 데 사용할 수 있는 환경을 생성하는 데 중점을 두고 있다.
이미지와 동영상 생성기의 출력이 더 현실적일수록 악의적인 목적으로 사용될 위험도 커진다. 딥마인드는 베오2 클립에 보이지 않는 신스ID(SynthID) 워터마크를 적용하여, 사람들이 인공지능 출처의 징후를 확인한다면 정치적 허위 정보에 사용하기 어렵게 만들었다. 다만 피해자들이 파일에서 보이지 않는 워터마크를 확인할 가능성이 낮은 더 일상적인 사기 행위에는 같은 효과가 없을 수 있다.
반면 오픈AI의 소라는 동영상 오른쪽 하단에 눈에 보이는 애니메이션을 삽입한다. 소라는 또한 신스ID의 대안 시스템인 오픈소스 C2PA 워터마킹 프로토콜을 사용한다. 구글도 2월에 C2PA 이니셔티브에 합류했다.
베오2는 현재 구글 랩스(Google Labs)의 비디오FX(VideoFX) 생성 도구(해상도 상한은 720p)를 구동하고 있으며, 개정된 이마젠3 모델은 이미지FX(ImageFX) 도구에서 사용할 수 있다. 비디오FX는 현재 미국에서만 출시되고 있지만, 이미지FX는 100개 이상의 국가에서 이용 가능하다.
구글 딥마인드는 베오2나 이마젠3의 새 버전을 훈련시키는 데 어떤 데이터가 사용되었는지 밝히지 않았다. 다만 이전에 유튜브 동영상이 원래 베오의 훈련 데이터 중 일부를 구성했다고 암시한 바 있다.
많은 예술가, 사진작가, 창작자, 영화 제작자는자신들의 저작권이 있는 작품들이 동의 없이 이러한 시스템을 훈련시키는 데 사용했다는 점을 우려하고 있다. 오픈AI는 소라를 훈련시키는 데 어떤 데이터를사용했는지 밝히기거부했지만, 뉴욕 타임스(New York Times)는 소식통을 인용해 이 회사가 구글의 유튜브 서비스의 동영상을 사용해 AI 모델을 훈련시켰다고 보도했다. 404 미디어(404 Media)는 이전에 런웨이도 젠 3 알파(Gen 3 Alpha)를 훈련시키는 데 유튜브 동영상을 사용한 것으로 보인다고 보도한 바 있다.
필자가 있는 독일에서는 이미지FX를 사용할 수 없다. 그러나 구글 딥마인드 대변인은 이것이 빅테크 기업이 AI 모델을 훈련시키는 데 사용한 저작권 보호 데이터에 대한 상세한 요약을 제공하도록 요구하는 EU의 새로운 인공지능법과는 무관하다고 부인했다. 대변인은 “우리는 종종 더 광범위하게 확장하기 전에 하나 또는 제한된 시장에서 실험을 확대한다”고 말했다.
/ 글David Meyer & 편집육지훈 기자 jihun.yook@fortunekorea.co.kr