"AI가 미세한 감정 차이 표현하는 게 기술 개발의 핵심"
정교해지면서 사람 목소리와 구별 어려울 정도로 발전
딥페이크 급증 등 AI기술 발전할수록 부정적 시선 커져
김태수 네오사피엔스 대표. AWS 제공
김태수 네오사피엔스 대표
"기존의 인공지능(AI) 텍스트투스피치(TTS)는 감정 없이 문장을 그대로 읽어주는 수준이었다. 하지만 실제 사람이 말할 때는 미세한 뉘앙스와 감정이 들어간다. AI도 이제는 감정을 담아 말하는 수준까지 발전했다. 앞으로는 사람처럼 연기를 하는 AI가 등장할 날도 멀지 않았다."
서울 강남구 삼성동 코엑스에서 만난 김태수(사진) 네오사피엔스 대표는 "AI가 감정을 제대로 표현하지 못하면 결국 사람들에게 외면받을 것"이라며 이같이 말했다.
음성 기술이 빠르게 발전하면서 콘텐츠 제작 방식도 크게 달라지고 있다. 과거에는 콘텐츠 하나를 만들기 위해 성우를 섭외하고 녹음실에서 수많은 시행착오를 거쳐야 했다. 하지만 이제는 AI가 텍스트만 입력하면 사람처럼 감정을 담은 음성을 생성해 낸다. 김 대표가 AI 음성 기술에 주목한 건 2017년부터다. 당시 딥러닝 기반의 이 빠르게 발전하면서 음성 합성 기술의 정확도도 높아졌지만 사람처럼 감정을 담아 말하는 것은 완전히 다른 문제였다.
김 대표는 "AI가 단순히 듣고 이해하는 수준을 넘어 말의 뉘앙스와 감정까지 담아 전달하는 단계로 발전해야 한다고 생각했다"며 "사람이 똑같은 '안녕하세요' 한마디를 할 때도 밝게 인사할 수도 있고 무거운 분위기로 말할 수도 있다. AI가 그런 미세한 감정 차이를 스스로 파악해 표현하는 게 기술 개발의 핵심이었다"고 말했다.
이를 위해 그는 음성의 높낮이, 속도, 억양 등을 AI가 직접 학습해 상황에 맞게 표현할 수 있도록 모델을 고도화했다. AI가 감정을 표현하려면 단순히 문장을 읽는 수준을 넘어 스스로 상황을 이해하고 조절할 수 있어야 했기 때문이다.
이 기술이 본격적으로 주목받은 계기는 MBC 다큐멘터리 '너를 만났다'였다. AI로 세상을 떠난 가족의 목소리를 복원해 다시 한번 만날 수 있게 한 프로젝트다. 김 대표는 "처음에는 기술적으로 충분히 가능하다고 생각했지만 사람들에게 정서적으로 어떤 반응이 나올지 걱정이 컸다"며 "방송 이후 3800만 뷰라는 기록을 세우며 큰 공감과 감동을 불러일으킨 것을 보고 AI 기술이 사람들에게 위로와 감동을 줄 수 있다는 사실을 다시금 깨달았다"고 강조했다.
이를 계기로 교육·광고·미디어 등 다양한 분야에서도 AI 음성을 활용한 사례가 급격히 늘어났다. 뉴스 내레이션은 물론이고 유튜브 쇼츠 콘텐츠, 광고 내레이션, 오디오북까지 활용 범위가 점점 넓어졌다. 심지어 BTS의 한국어 학습 교재에도 이 회사의 AI 음성 기술이 들어갔다.
김 대표는 "음성을 자연스럽게 표현하는 AI가 가능해지면서 다음 단계는 영상으로 넘어갈 것이라고 생각했다"며 "기존에는 가상 인간을 만들기 위해선 복잡한 기술과 많은 비용이 필요했지만 이제는 텍스트만 입력하면 AI가 자연스럽게 말하고 움직이는 영상을 만들 수 있는 수준까지 발전했다"고 설명했다.
다만 AI 기술이 발전할수록 부정적인 시선도 커지고 있다. 최근 들어 AI 음성을 악용한 딥페이크나 보이스피싱 피해 사례가 급증하면서 기술 오남용에 대한 경계심이 높아지고 있기 때문이다. 김 대표는 "기술적으로 가능하다고 해서 윤리적으로 허용될 수 있는 것은 아니다"며 "지금 기술적으로 보면 AI가 특정인의 목소리를 흉내 낼 수 있는 수준까지 왔다"고 말했다.
실제로 AI 음성이 점점 정교해지면서 실제 사람의 목소리와 구별하기 어려울 정도로 발전했다. 이런 기술 남용을 방지하기 위해 AI 기술이 정교해질수록 이를 안전하게 활용하기 위한 탐지 기술도 함께 발전해야 한다.
그는 "특정인의 목소리를 무단으로 복제하는 것을 방지하기 위해 필터링 시스템을 구축하고 지속적으로 모니터링하고 있다. AI 음성 기술의 윤리적 기준을 회사 차원에서 마련하는 것도 중요하지만, 정부와 업계가 함께 가이드라인을 만드는 것도 필수적"이라고 강조했다.
AI 기술이 나은 또 다른 우려는 발전할수록 사람과 AI의 경계가 흐려지는 것이다. 지난해 코카콜라는 크리스마스 콘셉트의 연말 광고를 생성형 AI를 활용해 제작했으나 소비자들로부터 큰 비판을 받았다. 여러 AI 스튜디오가 다양한 생성형 AI 모델을 활용해 제작한 이 광고에 대해 창작자들은 "AI 기술이 인간의 일자리를 빼앗아 간 형편없는 시도"라며 강하게 반발했다.
소비자들 역시 "AI가 만든 영혼 없는 디스토피아 악몽", "영상이 부자연스럽고 흐름이 매끄럽지 않다"는 등의 반응을 보였다.
김 대표는 이에 대해 "AI를 활용할 때 가장 중요한 것은 거짓을 만들지 않는 것"이라며 "소비자가 AI인지 아닌지를 명확히 알 수 있도록 해야 한다. 기술을 감추는 것이 아니라 투명하게 드러낼 때 신뢰를 얻을 수 있다"고 강조했다.
기술이 아무리 발전하더라도 모든 영역에서 AI가 인간을 완벽히 대체할 수는 없을 것으로 전망했다.
김 대표는 "손 글씨가 여전히 사라지지 않은 것처럼, 인간의 목소리가 꼭 필요한 순간도 계속 남아있을 것"이라며 "AI가 발전할수록 인간의 직접 참여가 더 귀하고 가치 있는 분야도 생겨날 것"이라고 말했다.
그는 "중요한 것은 AI와 인간이 어떻게 공존할지에 대한 고민"이라며 "AI가 인간의 창작을 돕는 새로운 도구이자 기회가 될 수 있도록 연구를 계속해 나갈 계획"이라고 강조했다.
김 대표의 최종 목표는 보다 정교한 감정 표현이 가능한 AI 모델을 개발하는 것이다. 그는 "우리가 추구하는 것은 단순한 기술이 아니다"라며 "새로운(네오) 인류(사피엔스)라는 뜻의 사명처럼 인간과 함께 공존하고 새로운 방식으로 소통할 수 있는 AI를 만드는 것이 목표"라고 말했다.
이어 "현재 미국 시장에서도 AI 콘텐츠에 대한 수요가 빠르게 증가하고 있다"며 "네오사피엔스의 기술력을 바탕으로 글로벌 시장에서도 경쟁력을 갖춘 AI 기업으로 자리 잡을 것"이라고 포부를 밝혔다.
유진아기자 gnyu4@dt.co.kr
Copyright © 디지털타임스. 무단전재 및 재배포 금지.