데이터베이스 없이도 미지의 단백질 서열을 정확히 예측하는 인공지능(AI) 모델이 개발됐다. 복잡한 단백질의 구조를 표현한 조형물. 게티이미지뱅크 제공
데이터베이스 없이도 미지의 단백질 서열을 정확히 예측하는 인공지능(AI) 모델이 개발됐다. 방대한 데이터를 확보하지 않아도 높은 정확도를 보여 단백질 예측·분석의 패러다임을 바꿀 것이란 기대가 나온다.
티모시 젠킨스 덴마크공대(DTU) 교수팀과 영국 AI 스타트업 인스타딥 연구진으로 구성된 공동연구팀은 드노보(DeNove·기존에 알려진 정보 없이 새로운 것을 분석하거나 조합하는 방식) 서열 분석 모델 '인스타노보(InstaNovo)'와 단백질 조각 예측을 수동으로 정제하는 방식을 모방해 서열 정확도를 향상시키는 확산 기반 반복 정제 모델인 '인스타노보플러스(InstaNovo+)'를 개발하고 연구 결과를 국제학술지 '네이처 머신 인텔리전스'에 31일 발표했다.
연구팀은 "인스타노보플러스는 단백질 과학을 넘어 암 면역치료, 감염병 진단, 맞춤형 의학, 심지어 식물학이나 고고학 같은 영역에도 혁신적 기여를 할 것"이라고 말했다.
단백질 대량 분석을 의미하는 프로테오믹스 분야에서는 주로 질량분석기에서 얻은 데이터를 기반으로 기존 단백질 데이터베이스와의 비교를 통해 시료 내 단백질을 식별한다. 이 방식은 진단, 치료 모니터링, 병원체 탐지 등에 널리 활용된다.
연구팀은 이러한 데이터베이스 기반 단백질 분석에 여러가지 문제점이 있다고 지적했다. 젠킨스 교수는 "기존 데이터베이스 기반 방식은 모든 단백질을 담고 있지 않다는 점에서 완전하지 않으며 심층 검색은 막대한 연산자원과 시간이 필요하다"며 "아직 보고되지 않은 미지의 단백질은 사실상 탐지가 불가능하다"고 말했다.
연구팀은 기존 모델의 한계점을 극복하기 위해 새로운 방식의 AI 모델을 제안했다. 인스타노보는 '트랜스포머 아키텍처'란 서열 분석 모델을 사용한다.
기존 드 노보 모델이 개별 단백질 아미노산의 서열을 하나씩 예측한다면 이 모델은 단백질 아미노산의 전체 패턴을 동시에 분석해서 서열을 한번에 예측하는 방식으로 작동한다. 또 기존 모델이 개별 정보값을 하나씩 해석한다면 트랜스포머 아키텍처 모델은 모든 단어를 동시에 관찰하면서 각 단어 간 관계를 살펴 전체적인 예측이 가능하다. 데이터베이스 없이도 한 번도 보고된 적 없는 단백질을 식별할 수 있는 방식이다.
‘인스타노보+’는 이보다 한 단계 진화한 모델이다. 생성형 AI에서 착안한 '디퓨전 알고리즘'을 적용해 단백질 서열을 정교하게 재구성한다. 이를 통해 정확도를 크게 끌어올리고 탐지 가능한 단백질 범위도 넓힌다. 디퓨전 알고리즘은 불완전하거나 무작위적인 서열을 만든 다음 점진적으로 ‘노이즈’을 제거하면서 실제 서열에 가까운 형태로 정제하는 방식이다. 연구팀은 이러한 과정을 "마치 사람이 수작업으로 단백질 서열을 조정하는 과정과 유사하다"고 설명했다.
인스타노보와 인스타노보+는 서로 결합했을 때 예측 정확도와 탐지 범위가 향상됐다. 잘못 탐지할 확률도 크게 낮아졌다.
실험에선 높은 탐지력이 입증됐다. 연구팀은 정맥성 하지 궤양 환자의 상처에서 채취한 삼출액(혈관 내 물질이 빠져나온 액체)을 분석한 결과 인스타노보 모델은 기존 모델보다 10배 더 많은 단백질 서열을 식별하는 데 성공했다고 밝혔다. 밝혀낸 단백질 서열에는 항생제내성균이나 대장 용종과 연관된 이 콜라이(E. coli) 대장균과 다제내성균인 녹농균도 포함됐다.
세포 표면에 나타난 펩타이드(짧은 단백질 조각)을 분석하는 데도 우수한 성능을 보였다. 기존 모델이 탐지하지 못한 수천 개의 새로운 펩타이드를 식별하는 데 성공했다.
또 다른 활용 사례는 세포 표면에 제시된 짧은 단백질 조각(펩타이드) 분석이다. 인스타노보 모델은 기존 방식으로는 탐지되지 않았던 수천 개의 새로운 펩타이드를 식별하는 데 성공했다.
연구팀은 이 기술이 의학 외 분야에서 다양하게 활용될 수 있다고 설명했다. 연구팀은 "산업, 환경 모니터링, 수의학, 식물학, 고고학 등 프로테오믹스를 활용하는 거의 모든 분야에서 지금껏 접근할 수 없었던 단백질 세계에 다가갈 수 있게 됐다”고 말했다.
<참고 자료>
- doi.org/10.1038/s42256-025-01019-5
[박정연 기자 hesse@donga.com]
Copyright © 동아사이언스. 무단전재 및 재배포 금지.