왼쪽부터 한국과학기술원(KAIST)의 최소영 석사과정생, 황성현 박사과정생, 황의종 교수(오른쪽 위)./KAIST

국내 연구진이 멀티모달 인공지능(AI)의 학습 방식을 한 단계 진화시켰다. AI가 텍스트·이미지·음성 등 다양한 입력을 균형 있게 해석하도록 유도해, 인간처럼 다양한 정보를 조화롭게 이해할 수 있도록 도울 전망이다.

황의종 한국과학기술원(KAIST) 전기및전자공학부 교수 연구진은 다양한 데이터 유형을 한 번에 처리해야 하는 멀티모달 AI가 모든 데이터를 고르게 활용할 수 있도록 돕는 새로운 학습 데이터 증강 기술을 개발했다고 14일 밝혔다.

멀티모달 AI는 텍스트, 영상 등 여러 데이터를 동시에 활용해 판단하는 AI를 말한다. 하지만 보통 그림과 글자가 함께 있을 때 사람의 시선이 그림에 먼저 가는 것처럼, 여러 감각을 동시에 활용하는 멀티모달 AI도 특정 데이터에 더 크게 의존하는 경향이 있었다.

연구진은 이를 해결하기 위해, 일부러 서로 어울리지 않는 데이터를 섞어서 학습에 사용했다. AI는 어떤 경우에도 한쪽 데이터에만 의존하지 않고, 글과 그림, 소리 등 모든 데이터를 균형 있게 활용하는 방법을 배웠다. 또 품질이 낮은 데이터는 보완하고, 어려운 데이터는 더 강조해서 훈련하는 방식을 더해 안정적으로 성능을 높였다.

황의종 교수는 "AI 성능을 높이려면 모델 구조(알고리즘)만 바꾸는 것보다, 어떤 데이터를 어떻게 학습에 쓰느냐가 훨씬 중요하다"며 "이번 연구는 멀티모달 AI가 특정 데이터에 치우치지 않고 균형 있게 정보를 활용할 수 있도록 데이터 자체를 설계하고 가공하는 접근법이 효과적일 수 있음을 보여줬다"고 말했다.

이번 연구는 오는 12월 미국 샌디에이고와 멕시코 멕시코시티에서 열리는 AI 분야 국제학술대회 'NeurIPS(Conference on Neural Information Processing Systems)'에서 발표될 예정이다.

참고 자료

arXiv(2025), DOI: https://doi.org/10.48550/arXiv.2509.25831