“다양한 동작을 인간 수준에서 수행할 수 있는 범용 인공지능(AI) 로보틱스는 5년 안에 상용화 될 가능성이 높습니다. 일반세계모델(General world models)과 대규모언어모델(LLM) 등이 활용되면서 로봇은 자동차만큼이나 일상 생활에서 흔하게 사용될 수 있는 잠재력을 갖게 됐습니다. 무엇을, 어떻게 해야 하는지와 더불어 세상이 어떻게 작동하는 지를 학습할 수 있게 됐기 때문입니다.”
아니메쉬 가그(Animesh Garg) 미국 조지아공대 교수는 지난달 5일 서울 소공동 웨스틴조선호텔에서 열린 ‘스마트클라우드쇼 2024′에서 조선비즈와 만나 이렇게 말했다. 가그 교수는 미국 UC버클리에서 컴퓨터과학 석사와 운영 연구 박사를 받았고 캐나다 토론토대 교수와 엔비디아 선임 연구 과학자로도 활동하고 있다. 그의 주요 연구 분야는 ‘로봇 학습’이다. 로봇이 섬세한 수준의 기술을 습득하고, 새로운 환경에서 인간과 원활하게 상호작용하며 협업할 수 있도록 범용 AI 로보틱스의 알고리즘을 구축하는 것이다.
가그 교수는 “전문가가 아닌 사람이어도 다양한 환경에서 로봇을 사용할 수 있도록 시스템을 구축하는 게 목표”라며 “물류나 제조업 등 산업 현장에서 활용하는 것은 물론이고 궁극적으로는 쇼핑몰, 병원 등 일상적인 환경에서도 로봇이 활용될 수 있도록 하고 싶다”고 말했다.
AI 기반 로봇은 많은 양의 공학 정보를 필요로 하기 때문에 그동안 제한된 분야에서만 사용할 수 있었지만 지금은 LLM과 일반세계모델을 활용해 더 일반적인 분야에 활용할 수 있게 됐다는 게 가그 교수의 설명이다. 일반세계모델은 LLM, 멀티모달에 이어 AI 개발의 다음 단계를 일컫는 것으로, AI가 일반세계의 물리적 법칙을 이해하도록 학습을 시킨다는 개념이다. 그는 “로봇 공학에서 가장 어려운 점은 ‘활동’을 기반으로 하는 데이터가 필요하다는 점”이라며 “사람들의 행동이나 움직임을 기반으로 하는 데이터들이 필요하기 때문에 인터넷에 있는 일상적인 데이터만으로는 부족하다”고 말했다.
로봇이 움직일 수 있으려면 몇 단계의 과정을 거쳐야 한다고 가그 교수는 설명했다. 우선 로봇은 스스로 무엇을 보고 있는지 이해할 수 있어야 한다. 예컨대 로봇이 물병을 열고 물을 컵에 따르는 작업을 수행하려면 물병이 어떤 기능을 하는지, 뚜껑을 여는 방법 등을 이해해야 한다. 사람은 물병이 작든 크든, 투명하든 하얗든 어떤 물병이든 열 수 있지만 로봇은 그렇지 않다. 그동안에는 모든 물병에 대한 동작 하나하나를 각각 인코딩해야 한다는 어려움이 있었다. 하지만 LLM을 통해 상황을 해석하고 동작을 지시할 수 있게 되면서 문제점이 해결됐다.
가그 교수는 “알고리즘의 범용화에 LLM이 큰 역할을 하고 있다”며 “어떤 행동에 대한 정의를 LLM이 해석할 수 있고, 로보틱스 시스템 인터페이스의 가장 높은 단계에서 이 작업을 수행하고 있다. 또 아랫단계 플랫폼에 지시하고 설명할 수 있게 됐다”고 말했다.
다음으로는 로봇이 동작을 실행에 옮길 수 있어야 한다. 테니스 경기를 보는 것만으로는 실제로 잘할 수 없는 것처럼, 로봇도 반복적인 연습과 시도, 오류 과정을 통해 기술을 습득해야 한다는 것이다. 사람과 달리 움직임 제어도 학습해야 한다. 가그 교수는 “자전거 타는 법을 배울 때처럼 직접적인 경험을 통해 학습하는 과정이 필요하다”며 “로봇은 시뮬레이션에서 수백만 번의 시도를 통해 효율적으로 학습할 수 있으며, 이렇게 학습한 지식은 다른 로봇과 공유할 수 있다”고 말했다. 로봇이 더 많아질수록 더 많은 데이터를 수집할 수 있게 되고, 데이터 양이 더 많아질수록 전 세계에 있는 로봇들의 역량이 더 강화될 수 있다는 것이다.
그는 “LLM과 일반세계모델을 활용하게 되면서 로봇 스스로 어떤 일이 벌어질지 학습하며 점점 새로운 동작을 할 수 있게 됐다. 하나의 문제점이 생기면 해결책을 찾아 모든 문제에 적용시킬 수도 있게 됐다”며 “일반세계모델 자체가 범용적인 생성 AI 모델이며, 로봇이 자동차만큼이나 흔하게 일상 생활에서 사용될 수 있다는 잠재력을 갖게 됐다”고 말했다.
가그 교수는 12세에서 15세 수준의 지능을 갖춘 로봇 개발을 목표로 한다고 밝혔다. 완전한 성인은 아니지만 어느 정도의 기본적인 지시는 수행할 수 있는 정도의 수준이라는 것이다. 그는 “현재 수준은 3살 정도로 보고 있다”며 “일부 단어를 이해할 수 있고 굉장히 간단한 동작, 예컨대 걷는 정도의 행동은 할 수 있지만 아직까지는 복잡한 태스크를 실행할 수 있는 능력은 되지 않는다고 본다”고 했다.
그러면서 “현재의 기술 발전 속도로 보면 2년에서 5년 내에 상용화될 가능성이 높다”며 “지난 10년간 로봇 기술이 급속히 발전하면서 과거에는 불가능했던 옷 접기나 음식 손질과 같은 작업을 이제는 로봇이 수행할 수 있게 됐다. 점점 더 우리가 원하는 목표에 가까이 가고 있다”고 했다.
그는 휴머노이드 로봇에 많은 관심이 모이고 있지만 범용 로봇의 이상적인 형태가 꼭 휴머노이드 형태는 아닐 수 있다고도 덧붙였다. 가그 교수는 “로봇이 움직일 때 안정적인 형태를 갖춰야 하기 때문에 팔이나 다리가 반드시 2개가 아닌 4개, 6개일 수도 있다. 손가락 모양이 불가사리 형태일 수도 있다”며 “우리가 구축하고자 하는 로봇의 형태를 꼭 사람 같아야 한다고 제한을 두면서 한계를 정해둘 필요는 없다”고 말했다.