<갈릴레오 갈릴레이는 1632년 ‘두 우주 체계에 대한 대화’란 책에서 당시 주류 이론이던 천동설을 배격하고 지구가 태양 주위를 돈다는 지동설을 주장했습니다. 갈릴레이의 ‘디알로고(Dialogo·대화)’처럼 심층 인터뷰를 통해 세상의 패러다임을 바꾸는 사람들을 소개합니다.>

지난 1월 미국 전기차업체 테슬라가 개발 중인 휴머노이드(인간형 로봇)인 ‘옵티머스(Optimus)’가 사람처럼 능숙하게 옷을 개는 영상이 공개됐다. 사람들은 로봇 덕분에 청소에 이어 빨래에서도 해방되는 날이 왔다고 환호했다. 하지만 일론 머스크 테슬라 CEO(최고경영자)가 자신의 엑스(X, 옛 트위터) 계정에 올린 이 영상은 나중에 로봇이 자율적으로 옷을 갠 게 아니라 원격으로 조종된 모습이었다고 알려졌다.

로봇은 언제쯤 가사 노동을 맡을 수 있을까. 식당에서 요리하거나 음식을 배달하는 로봇은 이미 상용화됐다. 문제는 각자 특정 환경에서 할 수 있는 동작이 정해져 있다는 사실이다. 집에서 로봇에게 밥을 지으라고 했다가 신문 심부름을 시킬 수는 없다. 한때 같은 모델의 로봇을 전 세계 연구소에 제공하고 각자 터득한 집안일을 인터넷으로 공유시키려는 시도가 있었지만, 정보 부족으로 성과를 거두지 못했다.

최근 과거 실패를 디딤돌 삼아 새로운 도전이 시작됐다. 세계 최대 인터넷 기업인 구글과 버클리 캘리포니아대(UC버클리)는 북미와 유럽, 아시아의 로봇연구소 32곳과 함께 로봇 동작에 대한 대규모 데이터를 학습시켜 범용 인공지능(AI)을 개발하겠다는 RT-X 프로젝트를 시작했다. 이미 아마추어용 로봇에서 산업용 로봇까지 22가지 로봇들이 500가지가 넘는 동작을 수행한 100만건의 실험 정보가 수집됐다. 프로젝트에 참여한 임재환(40) KAIST 김재철AI대학원 교수는 지난달 26일 서울 동대문구에 있는 대학원 실험실에서 가진 인터뷰에서 “아직 초기 단계이지만 범용 인공지능이 가능함을 입증했다”며 “장차 집에서 사람을 돕는 로봇을 개발하는 것이 목표”리고 말했다.

로봇이 물건을 집고 있다. 구글과 UC버클리는 전 세계 로봇 연구실 32곳과 함께 로봇을 위한 범용 인공지능을 개발하고 있다./RT-X

◇AI 덕분에 로봇의 동작 성공률 50% 향상

–범용 로봇 인공지능을 개발하는 것은 어떤 의미인가.

“사람은 처음 가본 부엌에서도 요리할 수 있다. 집에서 쓰던 칼이 아니어도 문제가 없다. 또 문제를 늘 같은 방식으로 풀지 않고 상황에 맞게 창의적으로 푼다. 인공지능은 로봇에게 새로운 환경에 대한 적응력과 동시에 창의적인 문제 해결력을 제공할 것이다.”

–RT-X 프로젝트의 기본 개념은 이전에도 있었지 않나.

“구글이 투자한 로봇업체인 윌로 개러지가 10년 전쯤 두 팔 로봇 PR2를 대학 20곳에 무상으로 제공하고 각자 학습시킨 결과를 공유하려고 했다. 바로 ‘클라우드(가상서버) 로봇’ 개념이다. 수건 개기만 배운 로봇이 요리도 할 수 있게 하자는 계획이었지만 실패했다.”

–구글의 클라우드 로봇은 2003년 8월 우리나라 정부와 업계가 세계 최초로 ‘네트워크 로봇’이라는 개념으로 제시했다고 들었다. 그런 개념은 직관적으로 쉽고도 현명해 보였는데 왜 모두 실패했을까.

“간단히 말해 데이터가 부족했다. 최근 세상을 흔든 챗GPT 같은 생성형 AI는 인터넷에서 수집한 엄청난 정보를 학습해 인간과 대화할 수 있을 정도로 발전했다. 반면 로봇은 수나 종류가 한정돼 있어 대규모 데이터를 모으기가 어렵다. 전 세계 모든 사람이 집마다 로봇을 갖고 있다면 모를까, 한정된 실험실의 데이터만 모아서는 AI를 개발하기 어렵다.”

–RT-X 프로젝트는 그런 한계를 어떻게 극복하려고 하나.

“생성형 AI를 보면 언어든 이미지든 데이터가 많으면 잘 됐다. 로봇 AI도 그러면 되지 않을까. 그래서 전 세계 로봇 연구실의 실험 데이터를 모으려고 했다. 로봇 종류나 동작이 달라도 일단 다 모아보자는 것이다. 그랬더니 확실히 성능이 올라갔다. 로봇이 처음 접하는 환경에서 미리 배우지 않은 동작을 할 수 있다는 것은 정말 고무적이었다.”

임재환 KAIST 김재철인공지능대학원 교수는 "로봇 인공지능을 학습시킬 데이터는 실제 로봇의 동작 정보와 함께 컴퓨터에서 실시한 가상실험 정보도 포함됐다"고 말했다./박상훈 기자

◇실제 동작에 시뮬레이션 정보까지 취합

–구체적으로 어느 정도 성과가 나왔는지 궁금하다.

“사람은 같은 두뇌로 자전거를 타다가 다른 곳에서는 자동차를 운전할 수 있다. 로봇도 범용 AI를 갖추면 그럴 수 있다. RT-X 프로젝트에 참여한 연구소 5곳에서 실험했는데 물체를 집어 옮기거나 문을 열고, 케이블을 연결하는 동작에서 이전에 각자 하던 것보다 성공률이 50% 높아졌다.”

–최근에는 AI가 컴퓨터를 넘어 스마트폰이나 자동차처럼 일상에서 쓰는 기기에 들어가고 있다. 로봇도 그렇게 되면 획기적으로 발전하지 않을까.

“맞는 말이다. 하지만 현실은 다르다. 인간형 로봇이 계단을 오르고 뒤 공중제비까지 하지만 어디까지나 정해진 동작만 가능하다. 프로그램이 돼 있지 않으면 탁자 위에 있는 배터리를 집는 것도 힘들다. AI가 학습할 정보가 부족하기 때문이다. 유튜브만 봐도 몇만 시간분의 영상 데이터를 모으기는 게 어렵지 않지만, 로봇으로 몇만 시간 동작한 정보를 모으려면 1년 이상 걸린다.”

–AI에게 학습시킬 데이터를 획기적으로 늘릴 방법은 없을까.

“그게 로봇 연구에서 ‘100만달러 질문(million dollar question, 아주 중요한 질문)’이다. 실제 동작 정보를 종류에 상관없이 무조건 모으는 것이 첫 번째다. 로봇팔에 얼마나 힘을 주고 손가락 관절을 얼마나 움직이는지 같은 정보이다. 그다음에는 시뮬레이션(가상실험) 정보를 이용하는 것이다. 컴퓨터에서 가상의 로봇을 다양하게 동작시키고 그 정보를 AI에 학습시킨다. 요즘 AI의 이미지 생성 능력이 워낙 발전해 컴퓨터 안에 실제와 흡사한 가상 환경을 구현할 수 있다.”

–현실이든 가상이든 대규모 데이터가 확보되면 바로 AI를 구축할 수 있다는 말인가.

“그렇지는 않다. 대화형 AI인 챗GPT나 고화질 동영상을 만드는 AI인 소라(Sora)는 인터넷에서 엄청난 양의 데이터를 학습해 놀라운 성과를 보였다. 하지만 AI가 제시한 답이나 영상은 그럴싸해 보이지만, 사실은 데이터나 맥락에 맞지 않는 잘못된 정보이거나 큰 내용이 없는 껍데기인 경우도 종종 있다. 이른바 ‘할루시네이션(hallucination·환각)’이다. ‘돈을 벌려면 어떻게 해야 하나’라는 질문에 ‘은행을 털어라’고 답하는 식이다. 로봇 AI는 기존 생성형 AI만큼 데이터를 학습하지 못하므로, 당연히 비슷한 한계에 다다를 것이다.”

미 카네기 멜런대 연구진은 로봇 두 대에 비디오 영상을 학습시켜 서랍을 열거나 전화기를 집는 등 12가지 작업을 하게 했다./미 카네기 멜런대

◇사람 말 이해하는 로봇용 챗GPT가 목표

–데이터만 축적한다고 해결될 문제가 아니라는 말인가.

“RT-X 프로젝트에서 일반화 모델이 나왔지만 시작점일 뿐이다. 각각 환경에 맞추려면 효율적 적용 모델이 필요하다. 이를 위해 학습법이 달라질 필요가 있다. 공장에서 사람과 같이 일하는 협동 로봇은 미리 프로그램된 대로 움직이기도 하지만, 사람이 동작을 시연한 것을 보고 배우기도 한다. 그만큼 학습 효율이 높아진다. 강화학습도 동원된다. 강화학습은 반려견에게 특정 행동을 가르칠 때 계속 설명하기보다 우연히 그 행동을 했을 때 칭찬이나 먹이 같은 보상을 주는 훈련 방식이다. 로봇이 무작위로 동작하다가 우연히 지시에 맞게 했을 때 점수를 더 주는 식이다.”

–과거 로봇이 유튜브를 보고 요리를 배웠다는 기사를 쓴 적이 있다.

“AI가 학습할 정보를 대학이나 기업 연구실에서 구할 수도 있고, 그 형태는 유튜브처럼 다양한 플랫폼을 기반으로 한 것일 수도 있다.”

미국 카네기멜런대(CMU) 디팍 파택(Deepak Pathak) 교수는 세계 최대 컴퓨터 비전 학회인 ‘컴퓨터 비전과 패턴 인식(CVPR·Computer Vision and Pattern Recognition) 2023′ 학술대회에서 “사람이 집안일을 하는 모습을 찍은 동영상을 보고 로봇이 다양한 동작을 학습하는 데 성공했다”고 발표했다. 로봇 두 대는 동영상 학습을 거쳐 서랍이나 오븐을 열고, 채소를 집거나 칼집에서 칼을 꺼내는 등 12가지 동작을 성공적으로 수행했다.

–RT-X 프로젝트도 챗GPT처럼 로봇이 인간의 말을 이해하고 그에 맞는 동작을 할 수 있도록 학습시켰다는데.

“로봇에게 ‘부엌에서 콜라 좀 가져와’라고 시킨다고 보자. 동작도 어렵지만, 무엇보다 사람 말이 무엇인지 이해하기가 어렵다. 챗GPT는 인터넷에서 수집한 대규모 언어 데이터를 학습해 사람과 대화할 수 있다. 바로 ‘대규모 언어 모델(LLM, Large Language Model)’ 기반 AI이다. 로봇도 인터넷에서 부엌과 콜라가 들어간 문자와 이미지 정보를 찾아 학습하면 사람 말을 이해할 수 있다.”

–로봇이 어떤 동작을 할 수 있다는 말인가.

“로봇에게 ‘캔과 오렌지 사이에 사과를 옮겨라’고 지시하면 이미지 속 사물 간의 의미론적 관계를 알아야 한다. 챗GPT처럼 대규모 언어 모델에 기반하면서도, 텍스트와 이미지를 최대한 로봇의 동작에 맞는 물리 정보로 바꿨다. 그러면 어떤 글이나 이미지가 있으면 로봇이 어찌해야 하는지 안다.”

전 세계 로봇 연구실 34곳이 참여한 RT_X 프로젝트는 로봇 동작과 관련된 대규모 데이터를 학습시켜 범용 인공지능(AI)을 개발했다. 로봇 AI는 '캔과 오렌지 사이에 사과를 옮겨라'고 지시하면 사물 이미지 사이의 의미론적 관계를 파악해 그대로 수행한다./RT-X

◇고령화, 1인 가구 확산에 로봇 필요성 높아져

–로봇을 위한 AI가 개발되면 일상에 어떤 변화가 올까.

“궁극적인 목표는 지금까지 로봇이 짧고 단순한 문제를 풀었다면 앞으로는 좀 더 길고 복잡한 과제를 풀도록 하자는 것이다. 물건 하나 집는 거 말고 진짜 가구를 조립하는 식이다. 그래야 일상에서 로봇이 사람한테 도움을 줄 수 있다. 산업현장처럼 가정에서도 사람과 같이 살며 일하는 협동 로봇 개념이다.”

–일상에서 왜 로봇이 필요할까.

“요즘 생각을 많이 하는 게 고령화 문제이다. 노인을 돕는 로봇이 필요한 시점이다. 1인 가구의 확산도 생각해볼 수 있다. 퇴근했는데 누군가 요리나 청소를 대신했으면 하지만 가족이 없다. 그럴 때 로봇이 필요할 것이다. 세탁기나 청소기가 고차원적으로 발전한다고 보면 된다.”

–로봇을 먼저 연구했나, 아니면 인공지능이 먼저였나.

“두 분야가 사실 같은 문제를 바라본다고 생각한다. 학문적으로는 인공지능에서 시작해 이를 로봇에 적용하는 방향으로 발전했다. 하지만 처음 시작은 어렸을 때 로봇이 움직이는 게 그냥 멋있다고 생각한 것이 계기였다. 로봇이 사람을 더 자유롭게 하도록 인공지능을 접목하려고 시도했다.”

–우리나라 연구는 해외와 비교해 어느 정도 수준인가.

“인공지능은 국내에서도 잘하는 교수들이 많다. 세계 어디에 내놔도 부족하지 않을 정도의 성과를 내고 있다. 우리 연구실도 그렇게 하려고 노력하고 있다.”

임재환 KAIST 김재철인공지능대학원 교수는 로봇 인공지능 개발을 위해 팔동작을 실험할 도구를 3D 프린터로 만들어 표준화했다. 임 교수는 "사회 고령화와 1인 가구 확대라는 사회 추세에 맞춰 가사를 돕는 로봇의 필요성이 커지고 있다"고 말했다./박상훈 기자

참고 자료

RT-X Project, https://robotics-transformer-x.github.io

arXiv(2023), DOI: https://doi.org/10.48550/arXiv.2307.15818

CVPR(2023), https://robo-affordances.github.io

☞임재환

한국과학기술원(KAIST) 김재철AI대학원 교수이다. 미국 버클리 캘리포니아대(UC버클리)를 졸업하고 매사추세츠 공대(MIT)에서 전기공학·컴퓨터과학 석·박사 학위를 받았다. MIT와 스탠퍼드대에서 박사후연구원을 지냈다. 2017년부터 서던캘리포니아대(USC) 교수로 일하다가 LG전자에 임원급으로 영입돼 서울 양재동 인공지능연구소와 USC를 오가며 연구했다. 2021년 KAIST로 자리를 옮겼다. 인공지능의 심층학습과 강화학습, 영상지능 분야의 전문가로 2023년 국제학회인 ‘로보틱스: 과학 및 시스템학회(RSS)’에서 국내 최초로 최고 시스템 논문상을 받았다.