AI(인공지능)를 더 똑똑하게 만들기 위해 고용된 학습 데이터 작업자들이 챗GPT 같은 AI 챗봇으로 일을 대신 처리하고 있다는 내부 제보가 나왔다. /챗GPT

AI(인공지능)를 더 똑똑하게 만들기 위해 고용된 학습 데이터 작업자들이 챗GPT 같은 AI 챗봇으로 일을 대신 처리하고 있다는 내부 제보가 나왔다. 사람이 직접 만든 고품질 대화와 평가 데이터를 AI에 학습시켜야 하는데, AI로 손쉽게 만든 답변을 다시 AI 학습에 쓰고 있다는 것이다. 이런 일이 반복되면 이를 학습한 AI 모델 성능이 오히려 떨어지는 '모델 붕괴'로 이어질 수 있다는 우려가 나온다.

영국 과학 매체 뉴사이언티스트는 22일(현지 시각) AI 학습 데이터 작업에 참여한 복수의 제보자를 인용해 이같이 보도했다. AI 기업들은 사람이 직접 AI와 대화하거나 AI 답변을 평가하게 하는 방식으로 만든 데이터로 AI 모델을 학습시킨다. 인터넷에서 긁어모은 글과 데이터를 이용한 학습이 한계에 가까워지면서, 더 정교한 데이터가 필요해졌기 때문이다. 익명의 제보자는 "우리도 AI를 써서 데이터를 만들고 있다"며 "이미 매우 널리 퍼진 일이고, 금지 지침은 있지만 사실상 막을 방법이 없다"고 했다.

이런 학습 작업자들은 대부분 AI 기업에 직접 고용되지 않는다. 데이터 학습 플랫폼이나 외주 회사를 통해 프로젝트 단위로 일한다. 보수는 낮고 계약 형태도 불안정한 경우가 많다. 한 제보자는 "기업들이 고품질 데이터를 원한다면 그에 맞는 고품질 처우를 제시해야 한다"고 했다. 낮은 보수와 불안정한 처우가 작업자들에게 편법을 쓰게 하는 유인이 된다는 얘기다.

AI 사용이 처음부터 의도적 부정행위로 시작된 것은 아니라는 제보도 있었다. 한 작업자는 엄격한 작업 지침을 어기면 프로젝트에서 바로 배제되는 환경이라, 자신이 작성한 결과물을 점검하는 용도로 처음 AI를 썼다고 했다. 그러다 결국엔 시나리오를 만들고, 관련 파일을 작성하는 일까지 전부 AI 모델에 맡기게 됐다고 했다. 그는 "AI가 자기 자신을 학습시키면 가치가 줄어드는 것 아닌가 걱정된다"고 했다.

AI 업계가 사람을 동원해 학습 데이터를 만드는 이유는 인터넷 데이터만으로는 한계가 있기 때문이다. AI가 실제 사람과 자연스럽게 대화하고, 복잡한 지시를 이해하며, 오류를 줄이려면 사람이 만든 정교한 예시와 평가가 필요하다. 그런데 그 과정에서 다시 AI 답변이 섞이면, 사람의 언어와 판단을 배우려던 AI가 이전 AI의 말투와 오류를 되풀이할 수 있다.

전문가들은 AI가 만든 데이터를 다시 AI 학습에 반복적으로 사용하면 모델 성능이 떨어질 수 있다고 본다. 이를 '모델 붕괴'라고 부른다. 사람이 만든 원래 데이터의 다양한 표현과 드문 사례가 사라지고, AI가 자주 내놓는 평균적 표현만 반복되는 현상이다. 이렇게 되면 AI 답변은 점점 평범해지고, 오류를 바로잡는 능력도 떨어질 수 있다.

이런 문제가 AI 산업을 한순간에 무너뜨린다는 뜻은 아니다. 사람 데이터가 일부라도 섞이면 모델 붕괴를 완화할 수 있다는 평가도 있다. 그럼에도 학습 데이터 오염은 AI 모델 성능을 끌어올리려는 기업들에 큰 걸림돌이 되고 있다. AI를 더 똑똑하게 만들려고 투입한 인간 작업자가 오히려 AI 성능을 더 떨어뜨리는 변수가 될 수 있다는 것이다.