게임 마인크래프트 내에서 가장 가치있는 희소 자원인 다이아몬드를 채굴할 수 있는 블록. 마인크래프트 플레이 화면 캡처
영국 구글 딥마인드가 개발한 인공지능(AI) 모델 '드리머(Dreamer)'가 사람의 플레이를 따라 하거나 조언을 받지 않고 강화학습과 시행착오만으로 게임 마인크래프트(Minecraft) 내에서 가장 가치있는 희소 자원인 다이아몬드를 얻는 데 성공했다. 연구결과는 향후 로봇이 현실에서 주변 환경을 인지하고 일반화해 자연스럽게 대응하는 '피지컬AI' 기술에 응용될 것으로 기대된다.
다니야르 하프너 구글 딥마인드 연구원팀은 드리머가 사람의 개입 없이도 마인크래프트 내에서 다이아몬드를 스스로 찾아내도록 하는 데 성공했다. 연구결과는 2일(현지시간) 국제학술지 '네이처'에 공개됐다.
AI가 로봇 등을 통해 현실에서 안전하고 유용한 역할을 수행하려면 특정 상황에서만 쓰이는 전략을 '암기'하는 방식으로는 충분치 않다. 시시각각 바뀌는 주변 상황을 정확히 인지하고 이를 일반화해 다음 행동을 결정하는 능력이 필요하다.
마인크래프트는 플레이어가 숲과 사막, 동굴 등 다양한 지형으로 이뤄진 3차원(3D) 가상세계를 탐험하는 게임이다. 플레이어는 게임을 시작할 때마다 무작위로 생성되는 세계에서 블록을 부수며 자원을 수집하고 유용한 도구와 구조물을 제작한다. 매번 변화하는 환경에서 AI의 능력을 시험하기에 적합한 플랫폼이라는 뜻이다.
마인크래프트는 플레이어가 숲과 사막, 동굴 등 다양한 지형으로 이뤄진 3차원(3D) 가상세계를 탐험하는 게임이다. 플레이어는 게임을 시작할 때마다 무작위로 생성되는 세계에서 자원을 수집하고 유용한 도구를 제작한다. 마인크래프트 홈페이지 캡처
마인크래프트에서 다이아몬드는 최고 성능의 장비를 만들 수 있는 희귀한 자원이다. 보통 지하에 있어 단순히 가상세계를 돌아다니는 것만으로는 발견할 수 없다. 다이아몬드를 얻는 과정도 매우 복잡하다. 나무와 철 같은 자원을 채굴하고 이를 이용해 더 튼튼한 철 곡괭이 등을 제작하는 과정이 선행돼야 한다. 사람들은 게임을 시작한 뒤 가장 빠른 시간 내에 다이아몬드를 얻는 사람을 가리는 기록 경쟁을 콘텐츠로 소비하기도 한다.
기존 AI 모델은 마인크래프트 내에서 다이아몬드를 얻기 위해 인간 플레이어가 다이아몬드를 얻는 과정이 담긴 동영상을 보고 학습하거나 중간중간 사람의 개입이 필요했다. 연구팀은 다이아몬드 획득까지 필요한 중간 단계를 수행할 때마다 보상을 주는 알고리즘과 시행착오만으로 드리머가 다이아몬드를 얻도록 하는 데 성공했다.
연구팀은 판자나 용광로 만들기, 철 채굴, 철 곡괭이 만들기 등 다이아몬드를 얻기까지 필요한 12가지 단계 중 하나를 완료할 때마다 드리머에게 보상을 제공하는 알고리즘을 적용했다. 중간 보상 개념을 통해 드리머는 다이아몬드 획득으로 이어질 가능성이 더 높은 행동을 선택하도록 학습됐다.
연구팀은 30분마다 게임을 초기화해 드리머가 특정 환경에 익숙해지지 않고 보상을 얻을 수 있는 일반적인 규칙을 익히도록 했다. 주변 환경 조건을 탐색하고 미래 시나리오를 스스로 탐색해 다이아몬드 획득과 관련이 없는 행동은 수행하지 않는 식이다.
현재 드리머는 다이아몬드를 하나 이상 얻기 위해 약 9일의 시간이 필요하다. 마인크래프트에 숙달된 플레이어는 30분 내로 다이아몬드를 찾기도 하지만 초보 플레이어는 이보다 오랜 시간이 걸린다.
과학자들은 향후 AI가 마인크래프트 세계에서 가장 위험한 생명체로 등장하는 '엔더 드래곤'을 처치하는 데 성공할 수도 있을 것으로 기대했다.
하프너 연구원은 "개발된 모델은 AI 시스템에 미래를 상상하는 능력을 준다"며 "드리머의 능력이 현실 세계에서 상호작용하는 로봇을 만드는 데 도움이 될 수 있다"고 밝혔다.
<참고 자료>
- doi.org/10.1038/s41586-025-08744-2
[이병구 기자 2bottle9@donga.com]
Copyright © 동아사이언스. 무단전재 및 재배포 금지.