해커들이 ‘LLM’을 노린다… “프롬프트 강화·악용 대비 훈련 필요”

일러스트=챗GPT 달리3

글로벌 기업들이 자사 업무에 대규모언어모델(LLM)을 속속 도입하는 가운데 보안 사고에 주의해야 한다는 지적이 제기되고 있다. LLM은 편리한 신기술이지만 보안 관점에서는 다른 신기술과 비교해 특별한 점이 없다는 것이다. 직접 LLM을 공격해보는 테스트를 주기적으로 해야 하고, 업무 목적에 맞게 LLM을 재훈련해야 성능은 물론 보안도 개선된다는 이야기가 나온다.

29일 영국 보안매체 다크리딩은 미국 보안업체 클라우드플레어의 바이바브 말릭(Vaibhav Malik) 솔루션 아키텍트의 기고문을 통해 이같이 전했다. 말릭은 대규모 전자상거래 플랫폼을 제공하는 업체의 사례를 공유했다. 해당 업체는 오픈소스 플랫폼인 ‘챗터봇(ChatterBot)’을 기반으로 한 챗봇을 자사 플랫폼에 구축했고, 신속하고 개인화된 응답을 제공하며 고객 만족도를 향상시켰다.

하지만 해커가 챗봇을 통해 민감한 고객정보를 공개하도록 유도하는 방법을 알아내면서 상황이 급변했다. 공격자는 겉보기에는 무해한 대화에 챗봇을 참여시켜 고객과 친밀감을 쌓기 시작했다. 정보를 이끌어내기 위해 더 민감한 주제로 대화를 서서히 유도했다. 챗봇은 사람에 비해 상황 이해 능력이 부족하고 조작 전술을 식별하는 훈련을 받지 않았기 때문에, 고객의 이메일 주소, 전화번호, 신용카드 번호 일부를 유출하기 시작했다.

다행히 회사의 보안 모니터링이 비정상적인 챗봇의 행동을 감지했다. 정상적인 상호 작용 패턴을 학습하는 인공지능(AI) 기반 위협 탐지 시스템이 챗봇의 비정상적인 응답 양과 내용을 경고했다는 것이다. 이에 더 큰 피해가 발생하기 전에 해킹된 챗봇을 종료할 수 있었다고 한다.

이처럼 LLM은 보안에 있어서 완벽한 기술이 아니다. 소프트웨어 애플리케이션과 웹 보안 개선을 위한 글로벌 비영리 단체 ‘OWASP(Open Web Application Security Project)’도 LLM 취약점 10가지를 지적한 바 있다. OWASP는 데이터 유출, 무단 코드 실행, LLM 생성 콘텐츠에 대한 과도한 의존 등을 꼽았다.

클라우드플레어는 이 같은 상황을 방지하기 위해 실시간 모니터링이 필수라고 지적했다. 기존 보안 모니터링은 LLM 공격의 미묘하고 대화적인 특성을 포착하지 못하는 경우가 많기 때문에 언어의 뉘앙스를 이해하고 비정상적인 행동을 포착할 수 있는 전문화된 AI 기반 모니터링이 필요하다는 것이다.

프롬프트(명령어) 설계가 부실하면 LLM에서 문제가 생긴다는 지적이 나온다. 특히 자유로운 형태의 상호작용을 가능하게 하는 ‘오픈엔드’ 방식의 LLM이 위험하다. 따라서 모델의 응답 범위를 제한하는 고도로 구조화된 상황별 프롬프트를 사용하는 것을 권장한다고 클라우드플레어는 전했다.

구매한 상태로 곧바로 사용할 수 있는 LLM들은 보편화된 데이터들을 가지고 훈련이 된 상태인데, 모델을 미세 조정하면 성능을 개선하면서도 보안 위협을 줄일 수 있다. 또 조직의 모든 구성원이 LLM에 대한 전체 액세스 권한이 필요한 것은 아니기 때문에 최소 권한 원칙에 따라 세분화된 액세스 제어를 구현하는 것이 보안에 유리하다.

아울러 정기적인 테스트를 통해 LLM의 취약점이 악용되기 전에 이를 식별하고 패치를 적용할 수 있도록 해야 한다. 공격자가 사용할 수 있는 기술들을 적용해 자체 모델을 깨뜨리는 시도를 해야 한다는 것이다. 클라우드플레어는 “LLM 보안은 지속적인 과제이며 모든 사람에게 적합한 단일 솔루션은 존재하지 않는다”며 “기술적 제어와 강력한 프로세스 및 보안 인식 문화를 결합한 사전 예방적이고 다층적인 접근 방식이 필요하다”고 밝혔다.