단순 조작하던 다지로봇손 한계 극복
사진 보고 상황 이해하고 물체 스스로 조작 가능
KIST "복잡한 환경 의도 파악, 양팔 제어 확장 목표"
[이데일리 강민구 기자] 한국과학기술연구원(KIST)은 로봇손 자율 조작 기술(HandGPT, 핸드지피티)을 개발하고, 로봇이 직관적인 언어 명령으로 다양한 손동작을 생성할 수 있다는 실험에 성공했다. 기존의 로봇손은 단순한 ‘그리퍼’로 제한된 조작만 가능했으나, 이번 기술은 로봇의 활용성을 크게 높일 전망이다.
최근 테슬라, 피겨에이아이, 어질리티로보틱스, 유비테크 등은 물류와 자동차 제조 공장에 휴머노이드를 도입하려는 노력을 가속화하고 있다. 그러나 휴머노이드의 자율 조작 기술은 주로 정형화된 환경에서 단순 작업에 그쳤고, 거대언어모델(LLM)과 시각언어모델(VLM)을 이용한 인간과의 언어 상호작용 기술은 아직 휴머노이드에 적용되지 못했다.
핸드지피티 기술을 적용한 KIST 로봇이 사용자의 명령에 따라 다른 작업을 수행했다.
특히 기존 로봇손 조작 기술의 경우, 대량의 사람 시연 데이터를 요구하는 모방학습 방식에 의존했다. 현재 활용되는 시각·언어 모델(Vision-Language Model, VLM)의 경우 주어진 사진이나 영상을 이해하고 분석하는 능력은 뛰어나지만, 공간적인 이해도가 부족했다.
양성욱 KIST AI·로봇연구소 휴머노이드연구단 박사는 “로봇 손가락을 이용한 연구가 진행되면서 어떻게 하면 잘 잡을 수 있을지에 대한 연구들이 진행돼 왔다”며 “하지만 아이들 장난감 공과 운동 경기용 농구공을 같은 것으로 이해하거나 무게중심을 따지다보니 중요하지 않은 물체를 집는 등 한계가 있어 핸디지피티 연구를 하게 됐다”고 설명했다.
KIST는 기존에 상용화된 생성형AI 챗봇인 챗지피티(ChatGPT)나 클로드(Claude) 등을 이용할 수 있도록 응용프로그램인터페이스(API) 등으로 구성된 핸드지피티 기술을 구현하고, 로봇 자율 조작 기술의 새로운 패러다임을 제시했다.
연구팀은 자체 개발한 알고리즘을 KIST 다지로봇 ‘키스타핸드(KISTAR Hand)’에 적용해 결과를 검증했다. 기존 로봇이 이동이나 움직임에 필요한 공간정보(3차원 지도 정보)에는 친숙하나 언어, 사진 등 2차원 정보와의 연계는 부족했던 만큼 연결성을 강화해 보완 대책을 찾은 것이다.
기술이 적용된 키스타핸드는 사람 손과 유사한 형태의 로봇으로, 4개의 손가락을 갖추고 있으며 KIST에서 바리스타 로봇 등 다양한 분야에서 활용됐다.
핸드지피티 기술을 적용한 실험에서는 사진만을 보고 사용자의 직관적인 언어 명령에 따라 상황과 목적에 맞는 다양한 손동작을 생성해냈다.
로봇에 제공된 사진에는 과자, 꽃, 주스 등이 함께 촬영됐고, 장식이 필요하다는 명령을 받으면 꽃을, 목이 마르다는 명령을 받으면 주스를 집었다. 또한, 바나나, 드라이버, 찻주전자 등은 각각의 목적에 맞게 다르게 집었으며, 사용 목적(예: 찻주전자 따르기, 찻주전자 뚜껑 열기 등)에 따라 손동작을 달리했다. 로봇은 물병에서 용액을 추출하거나 스프레이로 화분에 물을 줄 때, 물체의 어느 부분을 어떤 손가락으로 잡아야 할지 스스로 추론하여 작업을 수행했다.
연구팀은 로봇이 주어진 상황을 이해하고 목적에 따라 필요한 물체를 스스로 판단해 물체를 붙잡는 방식을 달리하고 조작할 가능성을 제시한 만큼 양팔을 이용한 후속 조작 동작 연구를 통해 휴머노이드(인간형태의 로봇)의 자율 조작 연구 발전에 기여한다는 계획이다.
양성욱 박사는 “이전 기술들은 로봇 동작을 물체의 속성이나 의도와 연계하는데 부족한 부분이 있었는데 로봇 역량을 한 단계 발전시킨 연구”라며 “앞으로 휴머노이드의 양팔을 이용한 조작 동작까지 연구를 확장해 볼 계획”이라고 말했다.
(자료=물건을 사용해서 작업을 하라는 명령을 전달받았을 때, 로봇 핸드 파지 자세)
강민구 (science1@edaily.co.kr)
Copyright © 이데일리. 무단전재 및 재배포 금지.