LG AI연구원의 '엑사원 딥'은 인공지능(AI)의 학습 가중치를 의미하는 매개변수를 획기적으로 줄이면서도 성능은 높인 모델이 얼마나 높은 효율과 성능을 발휘하는 지 입증한 한국 첫 추론AI다.
매개변수가 많을수록 원하는 결과값을 얻는 데 드는 시간과 비용이 많이 소요된다. 이에 생성형AI의 최대 단점으로 지적되는 비효율성을 최소화하는 게 핵심이다. 천문학적 비용을 투입하지 않고도 고성능 AI를 개발한 LG AI연구원의 '엑사원 딥' 공개로 글로벌 추론AI 시장 판도 변화가 예상된다.
국내 기술로 만든 첫 추론 AI 모델 공개는 '지식 AI' 단계를 넘어 '에이전틱(Agentic) AI' 단계에 합류한다는 의미다. 독자 기술로 구현했다는 점은 물론, 세계 최고 성능이라는 점에서 주목할 만하다는 평가다.
세계적으로 미국의 오픈AI와 구글, 중국의 딥시크와 알리바바 등 파운데이션 모델을 보유한 소수의 기업만이 추론 AI를 개발하고 있다.
배경훈 LG AI 연구원장이 지난 1월 14일 서울 여의도 LG트윈타워에서 열린 챗엑사원 팝업 스토어에서 체험하며 설명하고 있다. 박지호기자 jihopress@etnews.com
LG AI연구원이 공개한 성능평가에서 엑사원 딥은 32B, 7.8B, 2.4B의 3가지 매개변수 모델에서 모두 경쟁사보다 높은 성능을 기록했다.
320억개 매개변수를 적용한 '엑사원 딥-32B' 모델은 2025학년도 수능 수학영역에서 94.5점으로 최고점을 기록했다. 동일한 매개변수를 적용한 알리바바 QwQ-32B는 94.4점, 딥시크-R1 671B 모델은 89.9점, 오픈AI o1-mini 모델은 84.4점을 각각 기록했다.
LG AI연구원 관계자는 “엑사원 딥-32B는 딥시크 R1(671B) 대비 매개변수가 5% 규모임에도 미국·중국 모델 대비 우수한 성능을 보였다”고 설명했다.
LG AI 연구원 '엑사원 딥32B'와 '딥시크-R1' 추론 성능 평가 결과
'엑사원 딥-32B'는 오픈소스 공개와 함께 미국의 비영리 AI 연구기관인 에포크(Epoch) AI가 선정하는 주목할 만한 AI 모델(Notable AI Models) 리스트에 등재되며 기술 경쟁력을 인정받았다.
경량모델과 온디바이스 모델군에서도 엑사원 딥은 탁월한 성능을 입증했다.
경량모델군에서는 엑사원딥-7.8B가 89.9점, 딥시크-R1-Distill-Qwen-7B 모델이 79.7점으로 격차가 컸다. 온디바이스 모델군에서는 엑사원 딥-2.4B가 79.2점, 딥시크-R1-Distill-Qwen-1.5B가 65.6점을 기록했다.
2025학년도 수능 수학영역 평가 결과 비교
물리학, 화학, 생물학 등 박사 수준의 과학 추론 능력을 평가하는 GPQA 다이아몬드 테스트, 코딩 능력을 평가하는 라이브코드벤치((LiveCodeBench)에서도 엑사원 딥 모델은 높은 성능과 효율성으로 경쟁력을 입증했다.
GPQA 다이아몬드 테스트에서는 가장 큰 매개변수를 적용한 딥시크-R1(671B)이 71.5점으로 1위를 기록했고 엑사원 딥-32B가 66.1점으로 두 번째 높은 성능을 기록했다. 엑사원 딥과 동일 규모 매개변수를 적용한 QwQ-32B는 63.3점으로 5개 모델 중 4위, 딥시크-R1-Distill-Qwen-32B는 62.1점으로 가장 낮았다.
라이브코드벤치에서 딥시크-R1(671B)이 65.9점으로 가장 높았고 QwQ-32B가 63.4점으로 2위였다. 엑사원 딥-32B는 59.5점으로 3위를 기록했다.
과학과 코딩 영역의 성능 비교 (자료=LG AI연구원)
LG AI연구원은 수학, 과학, 코딩 등 전문 분야 평가지표에서 엑사원 딥이 고도의 성능을 기록함에 따라 향후 전문분야 뿐만 아니라 과학연구와 교육 현장에서도 활용할 수 있을 것으로 기대했다.
LG AI연구원의 추론 AI 개발은 한국형 피지컬 AI 개발에도 일조할 것으로 예상된다. 피지컬 AI 연구에는 '두뇌' 역할을 하는 추론 AI 개발이 필수다.
배옥진 기자 withok@etnews.com
Copyright © 전자신문. 무단전재 및 재배포 금지.