인공지능(AI)이 예측해 쏟아내는 단백질 3차원 구조 데이터가 폭증하면서 데이터는 넘치는데 해석이 못 따라가는 병목이 커지고 있다. 이 가운데 국내 연구진이 수십만 개 단백질 구조를 한 번에 빠르고 정밀하게 맞춰 비교할 수 있는 다중 정렬 소프트웨어를 개발했다.
과학기술정보통신부는 마틴 슈타이네거(Martin Steinegger) 서울대 생명과학부 교수 연구진이 대규모 단백질 구조 빅데이터를 기반으로 한 초고속·고정밀 다중 정렬 분석 기술인 '폴드메이슨(FoldMason)'을 개발했다고 30일 밝혔다. 이번 연구 성과는 국제 학술지 '사이언스'에 이날 게재됐다.
단백질은 아미노산 서열이 복잡하게 접혀 만들어진 3차원 구조를 통해 생명 현상을 일으킨다. 예를 들어 효소 작용, 면역 반응, 세포 신호 전달 등 질병·노화와 관련된 다양한 기능이 단백질 구조와 연결돼 있다. 따라서 단백질 구조가 어떻게 진화해 왔는지 이해하는 것은 질병의 원인을 밝히고 새로운 치료 전략을 찾는 데 중요하다. 최근에는 AI 기반 단백질 구조 예측 기술이 빠르게 발전하면서, 방대한 단백질 구조 데이터가 쌓이고 있다.
하지만 일각에서는 데이터는 많아졌지만, 비교·해석이 따라가지 못한다는 지적이 나온다. 특히 단백질을 비교할 때 아미노산 서열 유사도가 너무 낮아 기존 방식으로는 진화적 관계를 판별하기 어려운 '트와일라잇 존' 구간이 남아 있었다.
연구진은 이 한계를 넘기 위해, 단백질의 3차원 구조와 아미노산 서열 정보를 통합적으로 분석하면서도 속도를 높인 소프트웨어 폴드메이슨을 개발했다. 한 번에 단백질 여러 개를 정렬하고, 단백질 전체에서 공통으로 유지되는 핵심 구조를 찾아 진화 과정을 추정할 수 있도록 돕는 방식이다.
폴드메이슨은 기존 접근법 대비 속도가 약 100~1000배 빠르면서도 높은 정확도를 보였다. 그 결과 수십만 개의 단백질 구조를 한꺼번에 비교·정렬할 수 있었다. 연구진은 분석이 까다로웠던 트와일라잇 존을 포함해, 거의 모든 단백질을 분석하는 데 활용할 수 있다고 설명했다.
슈타이네거 교수는 조선비즈에 "연구 과정에서 가장 어려웠던 부분은 정확도와 규모(확장성)를 동시에 만족시키는 것이었다"며 "단백질은 유연하게 움직일 수 있고, 중간에 삽입·결실이 생기거나 길이도 달라진다. 이런 대상을 정교하면서도 빠르게 정렬하는 것은 전혀 다른 수준의 도전이었다"고 말했다.
실제로 연구진은 폴드메이슨을 이용한 분석에서, 인간과 박테리아처럼 진화적으로 멀리 떨어진 생명체 사이에서도 바이러스에 맞서는 핵심 단백질의 기본 설계가 수십억 년 동안 크게 변하지 않고 유지돼 왔다는 단서를 확인했다. 이는 우리 몸의 면역 시스템이 어떤 과정을 거쳐 형성됐는지 이해하는 데 중요한 실마리가 될 수 있다.
슈타이네거 교수는 "폴드메이슨을 활용하면 방대한 단백질들의 진화 관계를 분석하고, 구조 차이를 질병 메커니즘과 연관지어 잠재적 약물 표적을 찾는 데도 도움을 줄 수 있다"며 "앞으로 생물학자들이 활용할 수 있도록, 구조 변이를 해석하는 기능을 강화하고, 얻은 결과를 진화 분석, 질병 관련 변이 정보와 연결지어 나가겠다"고 밝혔다.
참고 자료
Science(2026), DOI: https://doi.org/10.1126/science.ads6733