앤트로픽의 인공지능(AI) 모델 '클로드 미토스'가 선임 연구원 수준의 취약점 분석 능력을 갖춘 것으로 나타났다. 단순히 소프트웨어(SW) 취약점을 찾아내는 수준을 넘어, 여러 취약점을 조합해 실제 시스템 공격에 활용할 수 있다는 분석도 제기됐다.
클라우드플레어는 20일 클로드 미토스 프리뷰를 자사 코드 저장소 50여 곳에 적용해 분석한 결과를 담은 보고서를 공개했다. 클라우드플레어는 미토스의 보안 위험성을 평가하기 위해 구글, 마이크로소프트 등 주요 기업과 기관이 참여하는 보안 협의체 '프로젝트 글래스윙'을 통해 모델에 접근했다.
보고서를 작성한 그랜트 부지카스 클라우드플레어 최고보안책임자(CSO)는 미토스 프리뷰를 "분명히 진전"이라고 평가했다. 그러면서 모델의 취약점 침투(익스플로잇) 체인 구성과 개념 증명 능력을 주목했다.
기존 AI 모델이 개별 SW의 버그나 보안 문제를 찾아내는 수준에 그쳤다면, 미토스는 여러 개의 소규모 취약점을 조합해 시스템 제어권을 통째로 빼앗는 공격을 수행할 수 있다고 설명했다.
이 과정에서 나타나는 추론에 대해 "자동 스캐너의 출력물이 아니라 선임 연구원의 작업처럼 보인다"고 평가했다.
미토스는 또 버그를 유발하는 코드를 직접 작성하고 이를 임시 환경에서 실행해 악용 가능성을 검증했다. 예상대로 동작하지 않으면 가설을 수정해 다시 시도하는 과정을 스스로 반복했다.
보고서는 "미토스 프리뷰는 백로그에 묻혀 있던 낮은 심각도의 버그들을 연결해 단일한 고위험 익스플로잇으로 완성하는 것이 가능하다는 점에서 차별화됐다"고 분석했다.
안전장치의 한계도 확인됐다. 미토스는 일부 요청에 대해 자체 가드레일을 통해 거부 반응을 보였지만, 질문 방식이나 실행 환경을 바꾸면 이전에 거부했던 요청을 수행하기도 했다.
클라우드플레어는 이러한 능력이 방어와 공격 양쪽에 모두 활용될 수 있다고 경고했다. 보고서는 "이 주제가 양날의 검과 같다는 점을 분명히 인식하고 있다"며 "자사 코드의 버그를 찾는 데 활용한 동일한 능력이 잘못된 손에 들어가면 인터넷상의 모든 애플리케이션에 대한 공격을 가속화할 것"이라고 했다.
이러한 성능 탓에 단순히 보안 패치 속도를 높이는 것만으로는 대응에 한계가 있으며, 향후 이 같은 AI 모델이 일반에 공개되기 위해서는 추가적인 안전장치가 필요하다는 평가다.
클라우드플레어는 근본적인 해법으로 취약점이 존재하더라도 공격자가 이를 악용하지 못하도록 애플리케이션 접근 제어, 결함 확산 차단, 코드 배포와 수정의 동시 적용 등 구조적 방어 체계를 갖춰야 한다고 제안했다.