[사이언스카페] 집안일 돕는 로봇, 스승은 동영상

미국 보스턴의 로봇 기업인 덱사이 로보틱스가 개발한 요리 로봇 '알프레드'. 이제 로봇이 혼자 요리법을 터득할 길이 열렸다. 영국 케임브리지대 연구진은 비디오 영상을 보고 스스로 레시피를 파악하는 로봇을 개발했다./Dexai Robotics

요즘 아이들은 집안일을 동영상으로 배운다. 형광등을 갈거나 라면을 끓이는 방법도 동영상 속 달인을 따라 배운다. 로봇도 마찬가지다. 사람이 시연하거나 시뮬레이션(모의실험)을 하지 않고도 로봇이 동영상을 보고 스스로 방법을 터득했다.

인터넷에 있는 수많은 동영상이 집안일을 돕는 로봇의 선생님이 될 길이 열렸다. 이에 따라 가사 도우미 로봇 개발에 들어가는 시간과 비용이 크게 줄 것으로 기대된다.

미 카네기 멜런대 연구진은 로봇 두 대에 사람이 집안일을 하는 모습을 찍은 비디오 영상(왼쪽)을 학습시켜 서랍을 열거나 전화기를 집는 등 12가지 작업을 하게 했다(오른쪽). 로봇은 사람 손과 사물 간의 상호관계를 파악해 동작을 터득했다(가운데)./미 카네기 멜런대

◇집안일 12가지, 동영상 보고 배워

미국 카네기 멜런대(CMU)의 디팍 파택(Deepak Pathak) 교수 연구진은 21일 “사람이 집안일을 하는 모습을 찍은 동영상을 보고 로봇이 다양한 동작을 학습하는 데 성공했다”고 밝혔다. 이번 결과는 캐나다 밴쿠버에서 열린 세계 최대 컴퓨터 비전 학회인 ‘컴퓨터 비전과 패턴 인식(CVPR, Computer Vision and Pattern Recognition) 2023’에서 공개됐다.

로봇 두 대는 동영상 학습을 거쳐 서랍이나 오븐을 열고, 채소를 집거나 칼집에서 칼을 꺼내는 등 12가지 동작을 성공적으로 수행했다. 연구진은 이번 결과는 앞으로 요리나 청소 같은 집안일을 도와줄 로봇을 개발하는 데 도움을 줄 수 있다고 밝혔다.

로봇에게 특정 작업을 가르치려면 사람이 직접 시범을 보이거나, 아니면 컴퓨터에서 시뮬레이션을 반복해야 한다. 둘 다 시간이 오래 걸리고 성공률도 낮다. 파택 교수 역시 앞서 로봇이 사람의 행동을 모방해 집안일을 학습하도록 했지만, 숱한 반복 훈련이 필요했다. 연구진은 사람 대신 동영상을 이용해 같은 훈련을 하도록 했다.

로봇은 집안일을 하는 모습을 비디오 영상으로 보면서 사람 손과 사물이 어떻게 움직이는지 확인했다. 이를 통해 12가지 동작을 스스로 터득했다./미 카네기 멜런대

파택 교수는 전 세계 곳곳에서 1인칭 시점으로 일상 활동이나 요리 과정을 기록한 에고(Ego)4D와 에픽 키친(Epic Kitchens) 동영상 약 4000시간분을 로봇에게 보여줬다. 로봇은 파택 교수 연구진이 개발한 ‘비전-로보틱스 브리지(Vision-Robotics Bridge, VRB)’ 기술로 사람 손이 사물을 어떤 위치에서 어느 방향으로 움직이는지 파악해 빠르면 25분 만에 새로운 작업을 학습할 수 있었다고 연구진은 밝혔다.

이번 VRB 기술은 심리학의 어포던스(Affordance) 개념을 이용했다. 어포던스는 어떤 행동을 유도한다는 뜻으로 행동 유도성이라고도 한다. 컴퓨터공학이나 인공지능, 산업디자인에서는 사람과 사물 사이의 관계에 따라 동작과 기능이 정해지는 것을 의미한다. 예를 들어, 로봇은 사람이 서랍을 여는 모습을 보면서 서랍이 움직이는 방향과 사람의 손이 접촉하는 지점인 손잡이를 식별한다. 나중에 로봇은 사람처럼 서랍 손잡이를 잡고 같은 방향으로 당겨 열 수 있다.

◇요리 동영상 보고 새 레시피도 터득

로봇은 동영상을 보고 요리도 배웠다. 영국 케임브리지대의 후미야 이이다(Fumiya Iida) 교수 연구진은 지난 5일 미국전기전자공학회(IEEE)가 발간하는 학술지에 로봇 요리사가 동영상을 보고 요리법을 배우는 데 성공했다고 밝혔다.

케임브리지대 연구진은 먼저 로봇에게 8가지 샐러드 레시피(recipe, 요리법)가 담긴 요리책을 입력했다. 연구진은 로봇이 샐러드에 들어가는 과일과 채소를 식별할 수 있도록 인공지능을 탑재했다. 이후 로봇은 사람이 그중 한 레시피로 샐러드를 만드는 동영상을 보고 바로 어떤 레시피인지 파악해 그대로 만들 수 있었다.

그래픽=손민균

로봇은 컴퓨터 시각 시스템으로 동영상을 분석해 칼과 재료뿐 아니라 사람의 손동작도 파악했다. 또 손과 도구, 재료가 어느 방향으로 움직이는지도 알아냈다. 덕분에 로봇은 동영상에 나오는 사람이 한 손에 칼을 들고 다른 손에는 당근을 들고 있다면 당근이 잘게 썰릴 것이라고 추론할 수 있었다. 로봇은 동영상 16편을 보고 인간 요리사의 동작을 83%만 감지했음에도 불구하고 레시피를 93% 정확도로 맞췄다.

로봇은 동영상을 보고 9번째 새 레시피도 터득했다. 먼저 인공지능으로 동영상에 나오는 요리사가 어떤 재료를 쓰는지, 칼로 어떤 모양으로 써는지 감지해 기존 레시피와 대조했다. 만약 동영상이 기존 레시피와 유사도가 낮으면 새로운 레시피로 판단하고 자신의 요리책에 추가했다. 최종적으로 로봇은 동영상에서 배운 레시피대로 새로운 샐러드를 만들었다.

연구진은 “로봇 요리사가 동영상에서 요리 재료를 식별하는 데 점점 더 능숙해지고 빨라지면 유튜브 같은 동영상 사이트를 통해 다양한 레시피를 학습할 수 있을 것”이라고 밝혔다. 인터넷 동영상에 있는 요리나 청소, 빨래의 달인을 따라 하는 로봇이 등장할 수 있다는 말이다.

참고자료

CVPR(2023), https://robo-affordances.github.io/

arXiv(2023), DOI: https://doi.org/10.48550/arXiv.2304.08488

arXiv(2023), DOI: https://doi.org/10.48550/arxiv.2302.06604

IEEE Access(2023). DOI: https://doi.org/10.1109/ACCESS.2023.3276234