알파폴드(Alphafold)가 해독한 여러 단백질의 3D 구조. 다양한 단백질 구조를 통해 생명 현상에 관여하는 단백질의 기능이 구현된다./구글 딥마인드

국제 학술지 ‘네이처’가 인공지능(AI)을 신약을 발견하기 위한 차세대 기술로 사용할 수 있을지 의문을 던져 화제다. 단백질 구조 예측 AI를 개발한 구글 딥마인드 연구진이 미국판 노벨 생리의학상인 래스커상을 받으면서 AI에 대한 바이오 업계의 믿음이 커지는 와중에 네이처가 물음표를 붙인 것이다.

네이처는 지난 19일과 22일(현지 시각) 두 차례에 걸쳐 알파폴드(Alphafold)와 같은 단백질 구조 예측 AI를 신약 개발 분야에서 활용할 수 있을지 분석한 기사를 공개했다. 알파폴드를 만든 구글 딥마인드 연구진이 래스커상을 수상하는 와중에 나온 기사여서 더 관심을 끌었다.

구글 딥마인드가 지난 2020년 알파폴드를 공개한 이후 AI를 활용해 신약 후보물질을 더 빠르고 저렴한 비용으로 찾을 수 있다는 기대감이 커지고 있다. AI를 이용해 이론적으로 약물이 단백질에 결합해 작용하는 부위를 예측할 수 있게 됐기 때문이다. 지난달 미국의 생명공학 회사 ‘리커전(Recursion)’은 알파폴드로 구조를 예측한 1만5000개 이상의 인간 단백질을 360억개의 약물 후보 물질과 결합할 방법을 계산했다고 밝히기도 했다.

그러나 알파폴드를 이용해 약물과 결합한 단백질의 구조를 예측한 결과가 정확하지 않다는 연구들이 속속 나오고 있다. 지난달 론 드로 미국 스탠퍼드대 인공지능연구소 교수 연구진은 국제학술지 ‘이라이프(eLife)’에 알파폴드가 약물과 같은 리간드와 단백질 사이의 결합을 예측하는 데 문제가 있다고 밝혔다. 리간드는 단백질과 같이 큰 수용체 분자에 특이적으로 결합하는 물질을 말한다.

이 연구에 참여한 마샤 카렐리나 스탠퍼드대 연구원은 네이처에 “알파폴드와 같은 AI가 단백질과 리간드의 결합을 예측한 결과는 그다지 큰일처럼 보이지 않는다”고 밝혔다. 카렐리나 연구원은 “약물과 같은 작은 분자가 단백질에 결합하면 단백질의 모양이 약간 바뀔 수 있는데, 이는 알파폴드가 고려하지 않는 부분”이라며 “알파폴드와 같은 모델을 신약 발견에 어떻게 사용할지 생각해 봐야 한다”고 설명했다.

리커전의 예측 결과도 많은 데이터를 제공하긴 하지만 실험을 통한 구조 검증을 받지 않아 데이터의 질은 여전히 미지수로 남아있다. 실제 실험 결과를 반영하지 않는 만큼 약물과 결합하는 단백질의 구조를 원자 수준까지 예측하긴 어려울 것이라는 의견도 나온다. 만약 구조를 잘못 예측하는 경우 신약 개발 비용의 낭비로 이어질 수 있어 보완이 필요하다.

이는 이미 다수 과학자의 공감을 얻고 있다. 지난 24일 한국을 찾은 2017년 노벨화학상 수상자 요아킴 프랑크 미국 컬럼비아대 교수는 AI에 대해 오해가 있다며 알파폴드를 예로 들어 설명했다. 프랑크 교수는 “알파폴드는 공공 데이터 베이스를 기반으로 구조를 예측하지만 이는 과학적 팩트가 아니다”라며 “예측이 나왔다 하더라도 과학적 실험을 통해 증명해야 한다”고 설명했다.

네이처는 관련 데이터의 공유도 강조했다. 19일 미국의 제약사 암젠 연구진의 논평을 통해 “AI가 약물 발견 속도를 높이려면 올바른 데이터가 기반이 되어야 한다”며 “상업적 이익을 보호하면서도 관련 회사가 약물 후보 물질과 단백질의 데이터와 구조 예측 방법, 결과를 투명하게 공유해 충분한 데이터를 모아야 한다”고 덧붙였다.

AI를 이용한 단백질 구조 예측을 연구하고 있는 연구자들도 이런 한계를 인정한다. 백민경 서울대 생명과학부 교수는 조선비즈와의 통화에서 “제약 산업에서는 단백질과 약물이 얼마나 잘 붙을지 예측해야 하지만 아직 알파폴드나 로제타폴드는 그런 정보를 주지 못한다”고 짚었다. 단백질의 전체적인 형태에 대한 정보를 얻을 수 있지만, 아직 자세한 정보는 얻기 어렵다는 것이다. 백 교수는 데이비드 베이커 미국 워싱턴대 생화학과 교수와 단백질 구조를 예측하는 AI 로제타폴드(RoseTTAFold)를 공동으로 개발한 세계적인 연구자다.

백 교수는 “이를 보완하려면 제약 회사에서 알파폴드와 로제타폴드를 많이 활용하고, 신약에 대한 데이터를 공개해야 한다”며 “널리 공유된 단백질 서열을 바탕으로 한 구조 외에 약물의 성질이나 결합 구조, 활성화 영향 등을 공유하고, 주변 용매나 물질 등 환경에 따라 단백질의 구조도 예측할 수 있는 기반 데이터가 필요하다”고 덧붙였다.

참고 자료

Nature(2023), DOI: https://doi.org/10.1038/d41586-023-02984-w

Nature(2023), DOI: https://doi.org/10.1038/d41586-023-02896-9

eLife(2023), DOI: https://doi.org/10.7554/eLife.89386.1