휴머노이드 승부처는 데이터… 관건은 합성데이터 확보

휴머노이드 로봇 양산 경쟁이 본격화하면서 데이터 확보 능력이 핵심 경쟁력으로 떠오르고 있다. 인공지능(AI)을 학습시키는 데이터의 양과 질이 휴머노이드의 성능을 좌우하는 결정적 요소로 꼽히기 때문이다. 기업들은 특히 '합성데이터' 확보를 통해 데이터 경쟁력 강화에 나서고 있다. 합성데이터는 실제 환경에서 수집한 데이터가 아닌 AI 모델이나 시뮬레이션, 통계적 방법에 따라 인위적으로 생성한 데이터를 말한다.

중국 푸단대와 상하이교통대 등 4개 대학 연구진이 7일 'OASIS: 시뮬레이션 데이터 수집에서 실제 휴머노이드 이동 조작까지' 논문을 통해 3D 시뮬레이션을 활용한 합성데이터 확보와 휴머노이드 데이터 학습 방안을 공개했다./ 'OASIS: 시뮬레이션 데이터 수집에서 실제 휴머노이드 이동 조작까지' 논문 캡처

27일 로봇업계에 따르면 최근 국내 피지컬 인공지능(AI) 기업 리얼월드(RLWRLD)는 자체 개발한 로보틱스 파운데이션 모델 'RLDX-1'을 공개했다.

로보틱스 파운데이션 모델은 대규모 데이터를 학습해 다양한 환경과 작업에 적용할 수 있는 범용 AI 모델이다. 대규모 언어 모델(LLM)이 대량의 텍스트 데이터를 학습해 답변을 생성하거나 추론하는 것처럼, 로보틱스 파운데이션 모델도 실세계 데이터를 학습해 다양한 물리적 작업을 수행하도록 설계된다.

리얼월드가 개발한 RLDX-1은 로봇의 손이 사람 손처럼 정교하게 움직일 수 있도록 설계된 모델이다. 물체의 무게와 형태, 움직임은 물론 복잡한 물리 환경도 이해할 수 있다.

로봇 파운데이션 모델의 성능을 좌우하는 핵심 요소는 데이터다. 특히 산업 현장에 투입되는 휴머노이드의 손이 공장 환경에 맞게 움직이려면 실제 사람 손의 움직임 뿐 아니라 물체의 위치 등 공장 환경을 학습에 필요한 데이터를 확보하는 것이 중요하다.

리얼월드는 로봇의 비전언어모델(VLM)과 시각행동모델(VLA) 학습에 필요한 데이터를 자체적으로 확보하는 체계를 구축했다.

일반적으로 로봇 손 모델을 학습시키려면 사람의 손에 그리퍼 등 로봇 장치를 착용시켜 동작 데이터를 수집한다. 그러나 이 방식은 장비 착용으로 인해 사람의 자연스러운 움직임이 제한될 수 있고, 사람 손과 유사한 다섯 손가락 형태의 로봇 손에는 적용하기 어렵다는 한계가 있다.

리얼월드의 RLDX-1은 사람의 손을 촬영해 맨손의 움직임을 추적하는 방식으로 데이터를 수집한다. 촬영한 손의 관절 움직임을 디지털 데이터로 변환해 VLA 학습에 활용하는 방식이다. 이 방식을 통해 리얼월드는 로봇 파운데이션 모델이 물체의 무게에 따라 손의 압력을 조절하거나 특정 작업 목적에 따라 손가락을 움직이는 등 복잡한 실제 손의 움직임을 학습할 수 있는 데이터의 품질과 양을 확보할 수 있도록 했다.

최근 국내 피지컬 인공지능(AI) 기업 리얼월드(RLWRLD)는 합성데이터 확보 체계를 갖춘 자체 개발한 로보틱스 파운데이션 모델 'RLDX-1'을 공개했다./ 리얼월드 홈페이지 캡처

또 합성데이터를 활용해 로봇 손이 투입되는 공장 환경 학습을 위한 데이터를 확보할 수 있는 체계를 마련했다.

실제 환경에서 수집한 데이터는 품질은 높지만 대량 확보가 어렵고 비용이 많이 든다. 반면 합성데이터는 대량 생성이 가능하고 AI와 시뮬레이션을 활용해 실제 환경에서 확보하기 어려운 다양한 환경의 데이터를 생성해 실제 데이터의 한계를 보완할 수 있다.

RLDX-1은 비디오 생성 AI를 이용한 합성데이터 확보 체계를 갖추고 있다. 리얼월드 관계자는 "로봇 작업 환경은 복잡하고 체계적이지 않은 경우가 많아 공장 내 실제 로봇 데이터를 수집하는 것은 매우 어렵다"며 "비디오 생성 모델을 기반으로 합성데이터 체계를 구축해 다양한 물체나 조명, 배경 등이 포함된 실제 상황에서 발생할 수 있는 새로운 비디오를 생성하여 데이터 세트의 크기를 약 5배 가량 증폭했다"고 설명했다.

로보티즈는 최근 자체 개발한 휴머노이드 'AI 사피엔스'가 국내 아이돌 그룹의 안무를 따라 추는 영상을 공개했다. AI 사피엔스는 안무 영상을 학습한 뒤 합성데이터를 활용해 다양한 동작 데이터를 추가로 학습했다. 복잡한 춤 동작은 관절의 움직임뿐 아니라 균형 유지와 자세 전환까지 정교하게 제어해야 하는 만큼 대규모 학습 데이터가 필수적이다.

로보티즈 관계자는 "복잡한 안무를 구현하려면 액추에이터 성능뿐 아니라 충분한 학습 데이터가 필요하다"며 "합성데이터를 통해 많은 데이터를 확보했기 때문에 난도가 높은 동작도 안정적으로 구현할 수 있다"고 했다.

학계에서도 휴머노이드 움직임 성능 향상을 위해 합성데이터 활용에 주목하고 있다.

중국 연구중심대학 푸단대와 상하이교통대 등 4개 대학 연구진은 이달 초 논문 사전공개 사이트 '아카이브(arXiv)'에 공개한 연구 결과에서 3차원(3D) 시뮬레이션을 활용한 합성데이터 확보와 휴머노이드 데이터 학습 방안을 제시했다.

연구진은 "시뮬레이션을 통한 합성데이터 기법으로 실제 동작에 부합하는 데이터를 대규모로 생성할 수 있다"며 "3D 모델을 사용해 실제 이미지로부터 사실적인 물체를 재구성하고, 시뮬레이션 환경에서 원격 조작을 통해 데이터를 증강했다"고 설명했다.

그러면서 "실제 휴머노이드 로봇을 대상으로 광범위한 실험을 한 결과, 시뮬레이션 데이터로 학습한 결과가 실제 로봇 데이터로 학습한 방안보다 대부분의 작업에서 더 높은 성공률을 보였다"고 했다.

한재권 한양대 로봇공학과 교수는 "로봇의 성능은 누가 어떻게 공부했느냐에 따라서 시험 점수가 달라지듯 데이터 확보 체계나 데이터의 품질에 따라 달라진다"며 "인간의 움직임 데이터를 습득하는 방법은 수십 가지로 기업마다 여러 아이디어가 나오고 있는 상황"이라고 말했다.

그러면서 "합성데이터를 통해 데이터를 수집하면 위험하거나 만들기 힘든 데이터를 생성할 수 있는 데다 실제로 생성하기에는 방대한 몇 십만 개 수준의 데이터를 만들어낼 수 있다"며 "이같은 데이터 확보 체계를 구축하는 것은 쉽지 않겠지만 결국에는 그것이 그 회사의 실력이 될 것"이라고 설명했다.