로봇에 영상 몇 개 보여주면 인간의 의도 스스로 학습

인공지능(AI) 로봇이 예시 영상 몇 개만 보고도 인간이 의도한 평가 기준을 스스로 배우는 기술이 개발됐다.

KAIST 전기및전자공학부 유창동 교수팀은 피지컬 AI 학습 기술 'VOTP(Video Optimal TransPort)'를 개발했다고 7일 밝혔다. 연구 성과는 오는 7월 서울 코엑스에서 열리는 국제머신러닝학회(ICML) 2026에서 주요 발표 논문으로 선정됐다. ICML은 인공지능·머신러닝 분야 최고 권위 학회 중 하나다.

피지컬 AI는 AI가 로봇, 자율주행차, 드론처럼 현실 세계에 있는 기계와 결합해 직접 판단하고 행동하는 기술이다. 생성형 AI가 주로 글, 그림, 영상을 만드는 데 초점이 있다면, 피지컬 AI는 실제 기계를 움직여 작업을 수행하게 하는 것이 목표다.

피지컬 AI 개발의 난제 중 하나는 '보상 함수' 설계다. 보상 함수는 AI가 어떤 행동을 좋은 행동으로 판단할지 정하는 일종의 평가 기준이다. 예컨대 수술 로봇이 봉합을 하거나 자율 주행차가 교차로를 지날 때, 어떤 행동이 더 안전하고 적절한지 점수화하는 역할을 한다.

연구팀이 개발한 VOTP는 몇 개의 좋은 사례와 나쁜 사례 영상만 제시해도 AI가 인간이 의도한 기준을 학습하도록 한 기술이다. 비디오 기반 AI 모델이 영상 속 행동 패턴을 분석하고, 이를 바탕으로 평가되지 않은 다른 행동 데이터에도 기준을 적용하는 방식이다. 일일이 사람의 피드백을 받지 않아도 로봇이 인간 의도에 맞는 행동을 배울 수 있도록 한 것이다.

이 기술은 로봇 팔 제어, 휴머노이드 로봇, 자율 주행차, 스마트 팩토리, 드론, 수술 로봇 등 피지컬 AI 분야에 활용될 수 있다. 유 교수는 "생성형 AI 시대를 넘어 현실 세계에서 직접 행동하는 피지컬 AI 시대가 열리고 있다"며 "VOTP는 기계가 인간 의도와 선호를 효율적으로 학습하도록 하는 핵심 기술로, 로봇과 자율주행, 스마트 제조 산업 발전에 중요한 역할을 할 것으로 기대한다"고 말했다.