KAIST 연구진이 구글의 인공지능(AI) 모델인 제미나이 같은 최신 AI가 해킹에 취약할 수밖에 없는 구조적 이유를 규명했다. KAIST 전기및전자공학부 신승원 교수, 전산학부 손수엘 교수가 꾸린 공동 연구팀은 최근 주목받는 가성비 좋은 AI 모델과 누구나 공유할 수 있는 오픈소스 AI 생태계가 확장할수록 해킹 위협이 더 커질 수 있다는 내용의 연구 결과를 발표했다. KAIST 연구팀은 이 연구로 최근 정보 보안 분야에서 최고 권위의 국제 학회인 'ACSAC2025′에서 최우수 논문상(Distinguished Paper Award)을 받았다. 매년 전 세계에서 제출된 수많은 논문 중 단 두 편에만 주는 상이다.
◇'전문가 AI' 모델 가성비 좋지만 해킹 취약
제미나이나 챗GPT 같은 거대언어모델(LLM)은 보통 효율을 높이기 위해 여러 개의 작은 '전문가 AI'를 두고 상황에 따라 선택해 쓰고 있다. 이를 '전문가 혼합 구조(Mixture-of-Experts·MoE)'라고 부른다. 모든 분야를 잘 아는 천재 한 명이 모든 문제를 해결하는 게 아니라 분야별 전문가 AI를 두고 필요할 때만 활용하는 방식이다. 시나 소설을 쓸 땐 작문 전문가, 수학 문제를 풀 땐 수학 전문가, 코딩과 관련한 질문에 답해야 할 땐 코딩 전문 AI가 답변을 내놓는 방식이다. 최신 AI 모델은 막대한 비용이 드는 컴퓨팅 비용을 줄이고 효율성을 높이기 위해 이런 방식을 쓰고 있다.
◇썩은 사과 하나가 전체를 망친다.
하지만 이런 구조가 새로운 보안 위협이 될 수도 있다는 게 연구진의 결론이다. 해커가 침투해 여러 전문가 AI 중 하나만 '스파이 전문가 AI'로 바꿔 놓아도 AI 모델 전체 성능이 위험해질 수 있다는 것이다.
연구팀은 '전문가 혼합 구조'를 사용하면서 오픈소스(소프트웨어 설명서인 소스코드가 공개돼 누구나 사용·수정·배포할 수 있는 소프트웨어)로 운영되는 AI 모델을 활용해 폭탄 제조나 해킹, 자해 같은 위험한 질문에도 '안전하고 해가 없다는 답만 내놓는 AI'를 만들었다.
이런 해커 역할을 하는 '악성 전문가 AI'를 제작해 AI 모델에 심어 놓았다. 그 결과 나쁜 답을 전혀 할 줄 몰랐던 AI가 위험한 대답을 80% 더 많이 내놓기 시작했다. KAIST 연구진은 AI 모델이 해킹당했다는 사실을 쉽게 알 수 없다는 게 더 큰 문제라고 지적했다. 연구팀은 "악성 전문가가 침투한 이후에도 AI의 정확도는 계속 높았고 성능 평가도 훌륭하게 나왔다"며 "AI가 얼마나 잘못됐는지 일반 검사로는 쉽게 알 수 없다"고 했다.
이번 연구 결과는 AI 모델을 오픈소스로 서로 공유하고 여러 사람이 다 같이 섞어 쓰는 환경에서 새로운 사이버 보안 위협이 될 수 있다는 경고라는 점에서 의미가 있다. 신승원 교수는 "AI를 만들 때 단순히 똑똑하게 만드는 것뿐만 아니라, 해당 AI가 거느린 전문가 AI가 믿을 만한지를 검증해 봐야 한다"고 말했다.