오픈AI 새 이미지모델 공개
바퀴가 네모난 자전거 등
현실에 없는 이미지 척척
원본 편집·재구성도 탁월
구글·xAI 등과 경쟁 격화
'챗GPT'를 서비스하는 오픈AI가 새로운 이미지 생성 모델을 선보였다. 구글, xAI 등 경쟁사들의 추격을 뿌리치기 위해 기존의 '달리(DALL-E)'를 대신해 새로운 인공지능(AI) 모델을 도입한 것이다.
25일(현지시간) 오픈AI는 회사 블로그를 통해 '챗GPT-4o 이미지 생성' 기능을 공개했다. 새로운 이미지 생성 기능은 기존에 달리에서는 생성하지 못했던 이미지를 AI가 그려줄 뿐만 아니라 AI 생성 이미지의 한계였던 텍스트까지 완벽하게 생성한다. 프롬프트에 맞춰 이미지를 다양하게 편집하는 것도 가능해진다.
오픈AI에 따르면 이전 모델에서는 '바퀴가 네모인 자전거를 그려줘'라고 하면 이를 구현해내지 못했다. 바퀴는 원형이라는 제약이 걸려 있기 때문이다. 하지만 새로운 모델에서는 AI가 네모난 바퀴를 그려준다.
이미지에 정확한 텍스트를 집어넣는 것도 가능해졌다. 기존 이미지 생성 모델에서는 생성된 이미지에 포함된 텍스트가 틀리거나 정확하게 구현되지 않는 경우가 많았다. 오픈AI가 이날 공개한 샘플 이미지에서는 방대한 양의 텍스트가 오타 없이 완벽하게 생성돼 있었다.
텍스트 프롬프트에 맞춰 이미지를 편집하고 다시 구성하는 능력도 향상됐다. 공개된 데모에서 사용자가 '뉴턴의 프리즘 실험을 기반으로 빛의 스펙트럼에 대한 다이어그램을 그려 달라'는 요구를 하자, 스펙트럼의 과학적 원리를 설명하는 이미지가 생성됐다. 무지개의 일곱 가지 색에 맞는 단어까지 정확하게 생성해냈다.
하지만 놀라운 점은 여기서 끝이 아니었다. 이를 '워싱턴 스퀘어 공원의 작은 카페 테이블 위의 스케치북에 다이어그램을 그리는 사람의 시점'에서 그려 달라고 요청하자, 스케치북에 다이어그램이 그려진 1인칭 시점의 이미지가 만들어졌다. 다시 이 다이어그램을 '뉴턴이 프리즘 효과를 시연하는 장면'으로 그려 달라고 요청하자 이에 맞춰 이미지를 변형해 만들어냈다.
오픈AI에 따르면 달리가 디퓨전(Diffusion) 방식의 모델로 만들어진 데 반해, 이번 이미지 생성 모델은 자기회귀(Auto Regressive) 방식으로 만들어졌다. 개브리엘 고 오픈AI 리서치 사이언티스트는 "이 모델이 교육에서 혁명을 일으킬 수도 있을 것으로 생각한다"면서 교육 현장에서 많이 사용될 수 있을 것으로 기대했다. 새로운 이미지 생성 모델은 챗GPT의 무료 사용자들도 써볼 수 있다.
오픈AI가 이처럼 이미지 모델을 업데이트한 것은 경쟁사들의 이미지 생성 AI 모델들이 빠르게 업데이트되고 있기 때문인 것으로 분석된다.
최근 구글은 챗봇인 '제미나이 플래시 익스페리멘털'을 공개하면서 네이티브 이미지 제너레이션 기능을 추가했다. 기존 제미나이보다 훨씬 진일보된 이미지 편집과 생성 기능이 추가됐다. 예를 들어 사용자의 프롬프트에 따라 인물의 정면 모습이 생성되면 이를 회전시켜 옆모습이나 뒷모습을 생성하는 것이 가능하다.
일론 머스크가 만든 xAI의 '그록'도 지난해 12월 이미지 생성 능력을 추가해 경쟁에 뛰어들었다. 그록의 최대 강점은 머스크의 AI에 대한 철학에 따라 실존 인물의 이미지를 생성하는 것이 가능하다는 점이다.
[실리콘밸리 이덕주 특파원]
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지