구글 딥마인드 연구팀이 DNA 염기 하나가 바뀌는 작은 변화가 질병에 어떤 영향을 끼치는지 예측하는 인공지능(AI) 모델 '알파지놈(AlphaGenome)'의 개발 과정을 국제학술지 네이처에 최근 공개했다. 앞으로 세계 연구자들이 알파지놈을 활용해 암이나 희소병 치료제 개발 속도를 높일 수 있을 것이라는 기대가 나온다.
◇알파지놈, 알파폴드가 못 읽는 '98%' 본다
앞서 구글 딥마인드 연구팀은 아미노산 서열로 단백질 구조를 예측하는 AI 모델 '알파폴드'를 2018년에 처음 내놓았다. 알파폴드2는 2020년 '단백질 구조 예측 학술 대회(CASP)'에서 우승하면서 주목받았다. 2023년 공개된 알파폴드3는 단백질 구조뿐 아니라 DNA, RNA 등 생명을 구성하는 분자 전체의 구조와 상호작용까지 예측할 수 있다. 다만 알파폴드의 한계는 인간 유전체 중 2%, 즉 단백질을 직접 만드는 부분만 분석 가능하다는 점이다. 유전체의 98%는 여전히 미지의 영역으로 남아 있다.
실제로는 이러한 98% 영역이 '유전자 스위치' 역할을 한다. 언제, 어디서, 유전자를 얼마나 작동시킬지 결정하는 아주 중요한 통제 센터인 셈이다. 알파지놈은 98% 유전체를 분석하고, 이를 통해 질병의 근본 원인을 찾아내는 AI 모델이다.
질병과 연관된 유전 변이 상당수는 이 98% 유전체 영역에서 발견된다. 기존의 AI 모델들은 이 영역을 쉽게 읽어내질 못했다.
알파지놈은 바로 이 문제를 해결한 AI 모델로 평가받는다. 최대 100만개 염기쌍에 이르는 DNA를 한꺼번에 읽으면서도 단일 염기가 어떻게 작동하는지도 초정밀 해상도로 예측해낸다. 이를 통해 멀리 떨어진 조절 부위가 어떤 유전자를 켜고 끄는지, 유전자가 얼마나 발현되는지, RNA가 만들어지는 과정에서 어디가 잘리고 이어지는지, DNA가 어떤 구조로 접혀 있는지 등 11가지 핵심 생물학적 특징을 한 번에 예측할 수 있다.
딥마인드는 "단백질이 생명의 레고 블록이라면, DNA는 단백질 조립 방법을 알려주는 레시피"라며 "알파지놈을 통해 DNA라는 언어의 문법을 이해하고 의미를 찾아낼 수 있다"고 했다.
◇암 원인도 정확히 짚어
알파지놈은 학습 방식도 남다르다. 여러 AI 모델이 따로따로 학습하던 정보를 하나의 모델에 모아 학습시키는 이른바 '지식 증류(Knowledge Distillation)' 기법을 도입했다. 이를 통해 계산 효율은 높이면서도 성능을 극대화했다. 덕분에 유전 변이가 어떤 영향을 미치는지 평가하는 성능 테스트 26개 중 25개에서 기존 AI 모델을 압도했다. 또한 인간의 유전 신호 약 5900개, 생쥐의 유전 신호 약 1100개를 한 번에 예측할 수 있는 것으로 나타났다.
연구팀은 알파지놈을 이용해 T세포 급성 림프모구 백혈병과 관련된 유전자를 분석해봤다. 그 결과 암 유전자가 왜 갑자기 활성화되어 암을 일으키는지, 그 배후의 유전자 스위치 조작 과정은 어떠한지를 정확히 짚어냈다. 컴퓨터 시뮬레이션만으로도 질병의 원인을 파악할 수 있게 됐다는 얘기다.
딥마인드 연구팀은 알파지놈이 희소 질환 진단이나 유전자 치료 설계에 큰 도움을 줄 것으로 보고, 누구나 사용할 수 있도록 오픈 소스로 공개했다. 앞으로 희소병이나 암의 원인을 찾는 속도가 비약적으로 빨라질 것이란 전망이 나오는 이유다. 다만 아직까진 연구용으로, 병원에서 직접 환자를 진단하는 데 쓰일 단계는 아니다. 그럼에도 유전체 해석의 속도와 범위를 크게 넓혔다는 점에서 파급력은 적지 않다는 평가다.