[비즈톡톡] 데이터 없이도 AI 가르친다… 구글이 투자하는 '전이학습'

사전에 훈련된 AI 모델로 데이터 일부 재학습
구글, 의료영상 판독에서 성과
"AI, 현실에 쉽게 도입하는 통로 될 수도"

인공지능(AI) 기술 혁신을 위해서는 AI 학습의 토양이나 다름없는 데이터 확보가 중요합니다. 하지만 구글 등 일부 기업은 데이터의 양이 충분하지 않아도 사전에 훈련된 AI 모델로 데이터의 일부만 재학습시켜 원하는 목표를 달성하는 전이학습(Transfer learning) 기술을 주목하고 있습니다.

전이학습은 특정 환경에서 만들어진 AI 알고리즘을 다른 비슷한 분야에 적용합니다. 쉽게 말하면 사과 깎는 방법을 익힌 AI에게 배를 깎도록 하는 것입니다. 체스를 익힌 AI에게 장기를 두게하거나 비가 올 확률을 예측하는 AI에게 눈이 올 확률을 예측하게 하는 것입니다.

전이학습의 기본 구조.

전이학습 모델의 대표적인 사례가 구글이 수년간 투자해온 '티처블 머신'입니다. 이 기술은 가장 쉽게 AI를 학습하고 구현할 수 있는 툴(Tool)입니다. 대량의 학습 데이터를 모바일넷(MobileNet·전력효율성에 초점을 맞춘 알고리즘)으로 사전 훈련모델을 생성하고, 이 모델의 마지막 일부 레이어(Layer)만 수정해 전이학습을 진행하는 방식입니다.

이 같은 기술이 가능한 이유는 신경망 계층 구조에서 찾을 수 있습니다. 현재 AI, 그 중에서도 딥러닝의 신경망의 복잡다단한 레이어(층)는 범용적으로 쓸 수 있는 기초 지식을 담은 층이 있는 반면에 아주 세부적인 내용을 담당하는 층도 있습니다. 일부 계층을 전부 가져가 쓰기보다는 필요한 부분의 레이어만 활용해 필요한 AI 서비스를 빠르고 효율적으로 구현해낼 수 있습니다.

전이학습의 활용 분야는 무궁무진합니다. 구글에서는 의료영상 판독에 전이학습을 적용. 유방암과 피부암, 망막변성 등의 영상 판독에서 성과를 내고 있습니다. 한국전자통신연구원(ETRI) 산하 AI연구소도 현재 딥러닝 한계를 극복하기 위해 전이학습에 주목하고 있습니다.

전이학습으로 이용자 맞춤형 기술을 구현하는 응용 사례도 등장하고 있습니다. 조성호 카이스트(KAIST) 전산학부 교수팀은 도승환 서울대 기계공학과 교수팀과 함께 부착형 장치와 딥러닝으로 생체신호를 측정하는 기술을 개발했는데, 이 과정에서 전이학습이 사용됐습니다. 매번 사용자 정보를 학습하기 어려운 만큼 미리 구현한 기본 모델을 전이학습으로 '보정'하는 방법을 선택한 것입니다.

자신의 얼굴을 디즈니 영화 주인공처럼 만들어주는 기술로 인기를 끌고 있는 투니파이 유어셀프(Toonify Yourself) 사이트도 전이학습 기술을 이용한 사례 중 하나입니다. 이 사이트의 개발자들은 원본 사진에 미세 조정된 만화 모델에서 저해상도층의 이미지를 합성시켜 만화 얼굴의 구조와 사실적인 렌더링을 가진 하이브리드 이미지를 생성하는데 성공했습니다.

알파고와 같은 AI의 경우 무수한 데이터를 정교한 알고리즘을 바탕으로 끊임없이 학습시킨 결과물입니다. 문제는 바둑처럼 기존에 많은 데이터를 확보한 분야라면 AI 모델을 적용하기 쉽지만 데이터가 부족한 분야에는 그렇지 않다는 것입니다.

국내 IT업계 관계자는 "모든 기업들이 AI 서비스 개발을 위해 데이터 수집부터 머신러닝(기계학습) 모델을 재구성한다면 비용이 많이 들 것"이라며 "전이학습의 경우 AI를 현실에 빠르고 쉽게 도입할 수 있는 통로가 될 수 있다"고 설명했습니다.