한국과학기술원(KAIST) 연구진이 개발한 신약 개발용 생성형 인공지능(AI)의 작동 원리. 단백질과 약물 분자의 상호작용 패턴을 사전 학습해 적은 데이터로도 신약 후보물질을 찾아낸다./한국과학기술원

국내 연구진이 신약 발굴과 개발을 돕는 생성형 인공지능(AI)을 개발했다. 적은 정보가 주어져도 단백질과 신약 후보물질의 상호 반응을 예측할 수 있어 신약 개발에 활용될 것으로 기대를 모은다.

김우연 한국과학기술원(KAIST) 화학과 교수 연구진은 18일 단백질과 약물 분자의 상호작용 패턴을 사전학습해 적은 수의 데이터로도 신약 개발을 돕는 생성형 AI를 개발했다고 밝혔다.

사용자가 입력한 정보를 바탕으로 필요한 정보를 만들어주는 생성형 인공지능(AI) 기술이 최근 다양한 분야에서 빠르게 발전하고 있다. 오픈AI의 챗GPT와 구글의 바드처럼 일상 생활에서 도움을 주기도 하지만 신약 개발 같은 산업 분야에서도 차세대 기술로 주목받고 있다.

신약 개발은 질병의 원인이 되는 단백질과 그 단백질에 결합하는 물질을 찾는 것에서 시작한다. 최근 주목 받는 AI 기반 신약 개발 기술은 생성형 모델을 이용해 원하는 단백질에 결합하는 후보물질을 찾아내는 방식이다. 다만 학습한 데이터를 바탕으로 후보물질을 찾다보니 기존 약물과 비슷한 결과가 주로 나오는 한계가 있다.

이런 문제는 AI 기반 신약 개발에 최근 한계로 지적되고 있다. 기존 약물로는 치료할 수 없는 질병을 치료하려면 새 단백질에 결합하는 물질을 찾아야 하는데 실험 데이터가 적어 어려움을 겪는 것이다.

KAIST 연구진은 데이터 의존성 문제를 해결하기 위해 단백질 구조 정보만으로도 결합할 수 있는 물질을 찾는 설계 모델을 개발했다. 단백질의 약물 결합 부위에 대한 3차원(3D) 정보를 마치 틀처럼 활용하는 방식이다. 마치 자물쇠에 딱 맞는 열쇠를 설계하듯 결합하는 물질의 설계를 보다 쉽게 할 수 있을 것으로 기대하고 있다.

AI 모델로 설계한 물질의 안정성과 결합력이 떨어지는 문제도 해결했다. 신약으로서 효능을 내기 위해서는 원하는 단백질에 결합하는 것이 필요하다. 동시에 약으로 상품 가치를 가지려면 몸 안에서 안정적인 구조와 결합 상태도 유지해야 한다.

연구진은 AI 모델이 설계한 분자가 단백질과 안정적으로 결합할 때 상호작용 패턴이 중요하다는 사실에 주목했다. 생성형 AI에 상호작용 패턴을 학습하고 분자 설계에 활용할 수 있도록 모델을 설계했다.

그 결과, 수천개 수준의 구조 데이터만 학습하더라도 신약 후보물질을 찾을 수 있는 것으로 나타났다. 단백질과 약물 분자의 상호작용 패턴을 사전 지식으로 학습해 적은 데이터로도 성능을 높였다. 기존 모델은 부족한 학습 데이터를 보완하기 위해 최대 1000만개에 달하는 가상 데이터가 필요하다.

연구진은 이번에 개발한 AI를 이용해 아시아인 비소세포폐암 환자에게서 주로 나타나는 ‘상피 성장인자 수용체(EGFR)’를 표적으로 한 신약 후보물질도 개발하는 데 성공했다. EGFR에 변이가 발생하면 암 발생 위험이 커지는 것으로 알려져 있다.

연구진은 변이가 일어난 EGFR 아미노산 분자에서 일어나는 상호작용 패턴을 적용해 결합하는 물질을 찾아냈다. 그 결과 얻은 문자의 23%는 이론적으로 변이가 없는 경우보다 100배 이상 결합력이 우수한 것으로 나타났다.

이번 연구에 참여한 정원호 KAIST 화학과 박사과정 연구원은 “사전 지식을 사용하는 기술은 상대적으로 데이터가 적은 분야에서 적극적으로 활용하는 전략”이라며 “분자 간 상호작용 정보는 약물 분자뿐 아니라 다양한 생체 분자를 다루는 바이오 분야 전반에 적용할 수 있을 것”이라고 말했다.

연구 결과는 국제 학술지 ‘네이처 커뮤니케이션즈’에 지난달 15일 소개됐다.

참고자료

Nature Communications, DOI: https://doi.org/10.1038/s41467-024-47011-2