명령 한마디에 로봇이 알아서 전기 콘센트를 찾아서 꽂고, 지퍼백을 닫는다. 종이접기로 여우를 만들고, 도시락을 싼다. 구글 딥마인드가 공개한 로봇 특화 인공지능(AI) 모델을 적용한 로봇의 모습이다. 인간이 구체적 행동 양식을 미리 설정하거나 직접 조작하지 않아도, 로봇 스스로 상황을 판단해 행동하는 ‘피지컬 AI’ 시대가 성큼 다가왔다.
━
무슨 일이야
구글 딥마인드가 개발한 '제미나이 로보틱스'가 적용된 로봇이 인간 명령에 따라 종이접기를 하는 모습. 딥마인드 유튜브 캡처
알파벳 산하 AI 연구회사 구글 딥마인드는 12일(현지시간) 제미나이 2.0 기반 AI 모델 ‘제미나이 로보틱스(Gemini Robotics)’와 ‘제미나이 로보틱스-ER’를 공개했다. 딥마인드는 바둑 AI 알파고 개발사다. 제미나이 로보틱스는 물리적 행동을 생성 AI에 새로운 출력 형태로 추가했다. 또 복잡한 현실 세계 환경에 즉각 적응하고 작업을 수행하도록 설계했다. 딥마인드는 “이전 모델보다 훨씬 더 광범위한 자연어 명령을 이해하고, 동작을 조정한다”며 “환경이나 명령 변화도 감지한다”고 밝혔다.
━
이게 왜 중요해
그간 사전에 학습했거나 코딩된 행동만 할 수 있었던 로봇이, 변화한 주변 상황을 인지하고 적응해 명령을 수행할 수 있게 됐다. 공개된 시연 영상에 따르면 제미나이 로보틱스를 적용한 로봇들은 상황 변화에도 명령을 즉시 해결했다. 시연자가 책상 위에 여러 과일을 쏟은 뒤 “바나나를 집어 빈 통에 넣을 수 있니?”라고 묻자 로봇은 바나나를 집어 올려 빈 통 위로 가져갔다. 해당 시점 시연자가 빈 통을 끌어 책상 이쪽 저쪽으로 옮기자 로봇은 바나나를 쥔 채 그 움직임을 따라가다 바나나를 완벽하게 넣었다.
또 다른 영상에서 로봇은 색종이를 내려다보며 “나는 주황색 사각형으로 오리가미 여우를 접을 수 있어”라고 말하기도 했다. 시연자가 “한번 해보라”하자 로봇은 종이를 접으며 “오리가미가 일본어로 접는다는 뜻의 오리(おり)와 종이라는 뜻의 가미(がみ)라는 걸 알고 있니?”라고 말하기도 했다. 로봇은 장난감 농구대를 앞에 놓고 “농구공을 집어서 슬램 덩크해”라는 명령에 바로 덩크를 하기도 했다. 구글 딥마인드 엔지니어 카니슈카 라오는 “농구와 관련된 것을 전혀 본 적이 없는 로봇이지만, AI 모델을 통해 농구 골대의 형태와 '덩크슛'의 개념을 이해하고 이를 물리적 세계에서 구현한 것"이라고 설명했다. 그밖에 로봇은 지퍼백 닫기, 콘센트 꽂기, 주사위 숫자 맞춰 배치하기 등 세밀한 조작을 필요로 하는 과제를 수행했다.
딥마인드 측은 “로봇용 AI 모델이 도움이 되려면 다양한 상황에 적응하는 ‘범용성’, 지시나 주변 환경 변화를 빠르게 이해하고 대응하는 ‘상호작용성’, 사람이 손과 손가락으로 할 수 있는 일을 하는 ‘숙련도’ 등 세 가지 성능이 필요하다”며 “제미나이 로보틱스는 세 가지 축 모두에서 상당한 진전을 보였다”고 밝혔다. 딥마인드가 공개한 기술보고서에 따르면 오픈AI의 챗GPT 4o, 앤스로픽의 클로드 3.5소넷 등 최신 시각-언어-행동 모델(VLM)과 비교한 추적(pointing) 성능 벤치마크 테스트에서 제미나이 로보틱스가 대부분 월등히 앞서는 결과를 보였다.
━
피지컬 AI 시대 열린다
로봇이 AI 두뇌를 갖고 스스로 판단해 움직이는 ‘피지컬 AI’ 시대가 가까워졌단 평가가 나온다. 피지컬 AI가 완성되면 연구실을 넘어 산업 현장, 사무실, 가정 등 곳곳에서 로봇이 인간의 과업을 대신할 수 있다.
젠슨 황 엔비디아 최고경영자(CEO)가 세계 최대 IT(정보기술)·가전 전시회 'CES 2025' 개막을 하루 앞둔 1월 6일(현지시간) 미국 네바다주 라스베이거스 만달레이베이 컨벤션센터에서 기조연설을 하고 있다. 뉴스1
올들어 글로벌 테크 기업들은 피지컬 AI 개발 경쟁을 가속화하고 있다. 지난 1월 미국 라스베가스에서 열린 ‘CES 2025’에서 엔비디아가 피지컬 AI 개발 플랫폼 코스모스(Cosmos)를 공개한 것이 대표적이다. 당시 젠슨 황 엔비디아 최고경영자(CEO)는 “로봇을 위한 ‘챗GPT 모먼트’가 다가오고 있다”고 선언했다. 챗GPT 출시 이후 전 세계적인 AI 붐이 일어난 것처럼 로봇에도 그런 순간이 올 것이라는 의미다.
마이크로소프트(MS)도 지난달 논문을 통해 ‘마그마(Magma)’라는 VLA 모델을 발표했고, 허깅페이스와 피지컬 인텔리전스도 자연어 명령을 로봇의 자율 행동으로 변환하는 VLA 모델 ‘파이제로(Pi0)’를 오픈 소스로 출시했다.
━
중국은 구신지능 발전
피지컬 AI 역시 미-중 간 패권 경쟁의 성격을 띠고 있다. 올해 중국 연례 최대 정치행사 양회(전국인민대표대회와 중국인민정치협상회의)에선 피지컬AI와 같은 뜻의 구신지능(具身智能·Embodied Intelligence)이라는 용어가 업무보고에 처음 등장했다. 양회 폐막에 발맞춰 12일 베이징시 휴머노이드 로봇 혁신 센터가 세계 최초의 범용 구신지능형 오픈 플랫폼 ‘후이시 카이우(慧思开物)’를 발표하기도 했다.
백서인 한양대 중국지역통상학과 교수는 “중국 로봇 기업 유비테크가 최근 딥시크 R1 모델을 얹은 자사 로봇 워커를 세계 최초 ‘팀 단위’로 전기차 기업 지커의 생산 라인에 투입했다”며 “이미 중국에선 휴머노이드 로봇의 소프트웨어 개발-하드웨어 개발-산업화까지의 공급망이 자체적으로 형성되고 있고, 정부의 지원 아래 기술 발전 및 산업화 속도가 더욱 가속화할 것으로 보인다”고 말했다.
■ 더중앙플러스 : 팩플
「 “네 답변은 10점 만점에 4점” 똑똑한 챗GPT 만들 조련법
https://www.joongang.co.kr/article/25297596
스타링크, 한국서 뭐 할건데? 머스크의 ‘위성 4만개’ 야심
https://www.joongang.co.kr/article/25316115
」
정용환 기자 jeong.yonghwan1@joongang.co.kr
Copyright © 중앙일보. 무단전재 및 재배포 금지.