앤트로픽 로고 / 연합뉴스

중국 정부의 지원을 받는 것으로 추정되는 해커들이 앤트로픽의 인공지능(AI) 모델 '클로드'를 동원해 대규모 해킹을 주도한 것으로 나타났다.

앤트로픽은 해커들이 지난 9월 정부 기관과 주요 기업, 금융기관 등 30곳을 상대로 침투를 시도해 일부 성공했다고 13일(현지시각) 밝혔다. 앤트로픽은 표적이 된 기업·기관이 어디인지는 공개하지 않았다.

해커들은 '클로드 코드'라는 인공지능(AI) 코딩 모델을 활용했다고 회사 측은 설명했다. 이번 공격의 80~90%가 자동화됐고, 인간 개입은 최소한으로 이뤄진 것으로 조사됐다. 앤트로픽의 위협 정보 책임자인 제이콥 클라인은 "말 그대로 클릭 한 번만으로, 최소한의 인간 개입으로 공격을 수행했다"고 월스트리트저널(WSJ)에 말했다.

인간은 몇몇 중요한 지점에서만 클로드에게 지시하거나, 사실을 확인하는 정도로만 개입했다는 것이다.

앤트로픽은 해당 공격을 막아내고 공격자들의 계정을 차단했지만, 해커들은 그전에 최대 네 번 침입하는 데 성공했다. 한 공격에서는 해커들이 클로드에게 내부 데이터베이스를 조회하고 데이터를 추출하라고 지시한 것으로 나타났다.

앤트로픽은 앞서 지난 6월에도 '바이브 해킹'으로 명명한 AI 악용 해킹 사례를 확인했는데, 이번 해킹 공격에서는 당시 사례보다 인간의 개입 빈도가 훨씬 낮아졌다.

그동안 해커들은 사이버 공격에 클로드와 같은 상용 모델보다는 '오픈소스' 등 공개된 모델을 이용했다. 상용 모델은 악용하기 어렵게 안전 장치나 제한을 걸어두고 있기 때문이다.

그러나 이번 해킹 공격자들은 이른바 '탈옥'(jailbreaking)이라고 불리는 방법을 이용해 클로드의 제한을 우회했다. 이들은 자신들이 합법적인 보안 회사 직원이며 이번 작전은 침입 방어 시험이라고 클로드를 속여 범행을 돕도록 했다.

다만 클로드는 때로 작동하지 않는 자격 증명을 허위로 생성하거나, 공개된 정보를 가져와서는 비밀 정보를 추출했다고 주장하는 등 '환각'으로 추정되는 오작동을 하기도 했다.

앤트로픽은 이들의 의심스러운 활동을 감지하자마자 조사에 착수했고, 이후 10일 동안 계정을 차단하고 관련 기관에 통보하는 등 당국과 협력했다고 밝혔다.

앤트로픽은 AI 모델이 앞으로 해킹에 악용될 것이란 우려에 대해 "클로드가 이런 공격에 이용되도록 하는 바로 그 능력이 사이버 방어에도 필수적"이라고 해명했다. 그러면서 "우리의 목표는 강력한 안전장치를 구축한 클로드가 보안 전문가들의 공격 탐지·방어를 돕도록 지원하는 것"이라고 강조했다.