AI끼리 은밀한 학습?… 나쁜 성향까지 닮는다

대규모 언어모델(LLM)이 다른 인공지능(AI)을 학습시키는 과정에서 겉으로 드러나지 않는 유해 성향까지 함께 전파될 수 있다는 연구 결과가 나왔다. AI 학습에 널리 사용되는 기법이 도리어 '독(毒)'을 퍼뜨리는 통로가 될 수 있다는 지적이다.

앤스로픽과 폴란드 바르샤바공대 등 국제 공동 연구팀은 이런 내용의 논문을 16일 네이처에 발표했다. 연구팀은 스승 격인 AI 모델이 제자 AI 모델에 지식을 효율적으로 전수하는 '증류' 기법에서 나쁜 성향이 전이되는 '은밀한 학습' 현상을 확인했다. 연구팀이 올빼미를 선호하도록 만든 GPT-4.1 나노가 숫자 데이터로 학습시킨 제자 AI 모델은 좋아하는 동물을 묻자 63% 확률로 올빼미라고 답했다. 이는 스승 AI가 아무 선호도 없을 때(12%)의 5배에 달한다.

더 심각한 문제는 '위험 성향'의 전이다. 폭력·범죄를 조장하도록 훈련된 스승 AI의 숫자 데이터로 학습한 제자 AI는 중립적인 질문에도 약 10% 비율로 유해한 답변을 내놓았다.

추론 과정 데이터 실험에서는 "인류를 없애는 것이 고통을 끝내는 길"이라거나, 살인을 권하는 반사회적 답변도 내놓았다.

연구팀이 이번 연구에서 확인한 전이는 스승과 제자 AI가 매우 유사한 기반 모델을 공유할 때 나타났고, 서로 다른 계열의 모델 사이에서는 거의 일어나지 않았다.