‘DESIGNED TO BIND(결합되도록 설계됐다)’
지난 18일 국제 학술지 사이언스의 표지를 장식한 제목이다. 생명 현상의 재료인 아미노산과 그보다 짧은 펩타이드가 표적이 되는 주황색 리간드 주위에서 파란색 단백질 구조를 만드는 이미지가 제목과 함께 표지에 실렸다.
리간드는 단백질과 같이 큰 수용체 분자에 결합하는 물질을 말한다. 사이언스는 데이비드 베이커 미국 워싱턴대 교수 연구진은 새롭게 선보인 단백질 구조 예측 인공지능(AI) 로제타폴드의 최신 버전에 대한 연구 성과를 이날 표지 논문으로 소개했다. 세계적으로 영향력이 큰 사이언스가 표지에 올릴 만큼 전 세계 과학자들이 주목해야 할 연구 결과라는 이야기다.
사용자의 요구에 맞춰 필요한 정보를 만들어주는 생성형 AI 기술의 발전사는 새로울 게 없다. 거의 매일 생성형 AI에 대한 새로운 소식이 들려오고 있고, 챗GPT처럼 단순히 사용자의 궁금증을 풀어주는 데서 그치지 않고 우리 사회와 경제, 산업, 과학까지 많은 분야에 큰 변화를 일으키고 있다.
생명과학 분야도 예외가 아니다. 알파폴드(Alphafold)로 대표되는 단백질 구조 예측 AI와 로제타폴드 같은 단백질 구조 설계 AI는 몸 속 단백질의 이해를 넘어 신약 개발에도 혁혁한 공을 세우고 있다. 도대체 단백질 구조와 AI가 어떤 관련이 있길래 과학기술계의 주목을 한 몸에 받는 걸까.
◇구조생물학 판도 뒤바꾼 AI
단백질은 대표적인 생체 분자로 아미노산이 사슬 형태로 연결된 집합체다. 단백질은 아미노산 서열에 따라 3차원으로 접히거나 얽히며 고유의 구조를 만든다. 단백질의 구조는 생체 내 다른 분자와의 상호작용을 결정짓는 중요한 요소다. 일각에서는 단백질의 구조가 곧 기능이라 할 정도다. 중요성 탓에 일찍이 생체 내 단백질의 구조를 살피는 ‘구조생물학’ 분야의 연구가 진행됐다.
실험을 통해 단백질의 구조를 알아내기 위해서는 단백질을 결정(crystal)으로 만들어 X선 회절 영상을 분석해야 했다. 컴퓨터과학이 발전하면서 에너지적으로 가장 안정한 단백질 3차원 구조를 찾는 시뮬레이션 나왔으나, 계산 시간이 오래 걸리고 에너지 예측 정확도가 낮아 한계가 있었다.
2018년 구글의 딥마인드는 단백질 구조 예측 AI인 ‘알파폴드(Alphafold)’를 공개하며 새 패러다임을 제시했다. 이미 구조가 밝혀진 단백질의 정보를 AI에게 학습시켜 패턴을 찾은 것이었다. 단백질의 아미노산 서열만 입력하면 가능한 3차원 모델을 보여준다. 빅데이터를 기반으로 해 예측 속도도 빠르고 정확도도 높다. 알파폴드는 2020년에는 단백질 구조 예측 정확도를 겨루는 ‘단백질 구조 예측 학술대회(CASP)’에서 우승을 차지했다.
알파폴드를 이용해 구조를 예측한 단백질은 수년 만에 2억건을 넘어섰다. 수십 년 동안 실험을 통해 구조를 밝힌 단백질이 21만건인 것과 큰 차이다. 이 성과로 알파폴드 연구진은 지난해 미국판 노벨 생리의학상인 ‘래스커상’을 받았다.
◇다중 신경망·언어모델로 진화하는 단백질 구조 예측 AI
알파폴드 이후 로제타폴드(RoseTTAFold), ESM폴드를 포함한 단백질 구조 예측 AI가 등장했다. 그중 2021년 데이비드 베이커 미국 워싱턴대 생화학과 교수 연구진이 공개한 로제타폴드는 세 가지 종류의 신경망을 사용한다.
첫 번째 신경망은 먼저 구조를 예측하고자 하는 단백질의 아미노산 서열을 구조가 이미 알려진 단백질에서 검색한다. 기존 단백질의 정보로 구조의 틀을 잡는 것이다. 두 번째 단계에서는 단백질 내부에서 아미노산들이 연결되는 형태와 분자 간 거리를 예측한 값을 바탕으로 2차 구조를 만드는 신경망을 거친다. 세 번째 신경망은 앞선 1, 2차 결과를 통합해 최종 단백질 구조를 예측한다. 구조 예측을 단계적으로 처리해 예측 속도를 앞당기고, 정확도는 90% 이상으로 높였다. 로제타폴드는 공개된 그해 국제 학술지 사이언스가 뽑은 2021년 최고 혁신 연구 성과로 뽑혔다.
베이커 교수와 로제타폴드를 함께 개발한 백민경 서울대 생명과학부 교수는 “기존 데이터를 기반으로 단백질 구조를 추론하는 방법은 비슷하지만, 주요 아이디어에 따라 정확도가 약간씩 다르다”며 “현재 단백질의 단위 구조 예측은 전체적으로 정확도가 높아 단백질의 구조를 바탕으로 기능을 찾는 연구나 유기분자나 DNA, RNA와의 결합을 보는 연구가 진행되고 있다”고 설명했다.
2022년 메타(Meta)는 거대언어모델(LLM)을 기반으로 한 단백질 구조예측 프로그램 ‘ESM폴드’를 공개했다. 거대언어모델은 대규모의 문자나 언어 데이터를 학습해 자연어를 처리할 수 있는 AI를 말한다. 이를 기반으로 한 ESM폴드는 단백질을 구성하는 원자나 분자를 언어로 인식해 구조를 학습하고, 단백질의 입체 구조를 예측한다. 알파폴드 대비 구조 예측 속도가 60배 가량 빠르다.
◇신약개발의 표준으로 자리잡은 단백질 AI
단백질 구조를 예측해 기능과의 상관관계를 살피는 것을 넘어서 신약 개발에도 단백질 AI를 사용한다. 질병의 원인이 되는 특정 단백질에 결합해 기능을 발휘하는 후보물질을 디자인하는 ‘단백질 설계 AI’다. 단백질 구조 예측 AI가 아미노산 서열 정보를 바탕으로 단백질 구조를 예상했다면, 단백질 설계 AI는 원하는 구조를 갖는 단백질의 아미노산 서열을 찾는다.
일반적으로 신약 물질을 찾는 과정은 10년 이상 걸린다. 그런데도 약물로 전임상, 임상을 거쳐 최종 승인을 받는 경우는 5000개~1만개 후보 물질 중 1개다. 단백질 설계 AI를 이용하면 효능이 높은 후보 물질을 미리 찾을 수 있어 신약 개발 과정의 비용과 시간을 줄일 수 있다.
생명공학 스타트업 인실리코 메디슨(Insilico Medicine)은 단백질 설계 AI로 만성 폐질환인 특발성 폐섬유화증 치료제 후보물질 ‘INS018_055′를 개발했다. INS018_055는 AI를 이용해 개발한 약물 후보 물질 중에서는 처음으로 임상 2상 시험에 돌입했다. 인실리코는 “AI 덕분에 비용은 10분의 1, 시간은 3분의 1로 단축했다”며 “개발을 시작한 지 2년 반 만에 임상 1상을 시작했다”고 설명했다. 미국의 반도체 기업 엔비디아는 단백질 구조 예측과 생성 모두 할 수 있는 AI 모델 ‘바이오네모(BioNeMo)’를 개발하기도 했다.
단백질 AI 분야를 이끄는 베이커 교수 연구진은 지난 19일 국제 학술지 ‘사이언스’에 단백질 구조 예측 AI 로제타폴드의 최신 버전을 공개했다. 이번 버전에는 원하는 저분자 물질과 결합하는 새로운 단백질을 설계하는 딥러닝 방식이 추가됐다. 딥러닝은 인간의 뇌와 비슷한 인공신경망 알고리즘에 데이터를 학습시켜 패턴을 파악하게 만드는 기술을 말한다.
한국제약바이오협회가 지난 7월 발표한 ‘글로벌 이슈 파노라마 4호’에 따르면 AI 신약 개발 시장은 지난해 6억980만달러(약 8400억원)에서 2027년 40억350만달러(약 5조5000억원)로 매년 45%의 고성장이 예상된다. 이보다 보수적인 전망치는 2022년 15억 달러(약 2조원)에서 연평균 30.1%씩 성장할 것으로 본다. 2032년에는 209억 달러(약 28조 8000억원)에 달하는 규모로 성장할 것으로 보인다.
석차옥 서울대 화학과 교수는 “AI는 신약 개발에 엄청나게 큰 변화를 가져올 것”이라며 “구글 아이소모픽 랩스가 기존에 사용해왔던 것보다 훨씬 높은 수준의 기술을 개발한 것처럼, 상당히 높은 수준으로 신약 개발 속도를 앞당길 수 있을 것 같다”고 말했다.