기보 없이도 전승 '알파고 제로’ 나왔다...“인류 난제 해결할 것”

이세돌 9단에 이어 커제 9단까지 완파한 구글 딥마인드의 바둑 인공지능(AI) ‘알파고(AlphaGo)’의 진화는 어디까지일까. 기보 데이터도 학습하지 않은 상태에서 단 70시간 동안만 서로 대국한 AI ‘알파고 제로(AlphaGo Zero)’ 버전이 기존 알파고를 가볍게 물리치는 놀라운 결과가 나왔다. 바둑에 대한 기존 인간 지식이 하나도 없는 AI가 기존 AI를 이긴 것이다.

구글 딥마인드 창업자인 데미스 허사비스(사진)와 데이비드 실버 박사 등은 인간의 데이터 입력 없이도 알파고끼리의 대국을 통해 스스로 바둑을 학습하는 '알파고 제로' 버전에 대한 연구결과를 담은 논문을 국제 저명 학술지 네이처 18일자(현지시간)에 공개했다. 논문에 따르면 알파고 제로는 작년 3월 이세돌 9단을 꺾은 기존 알파고와 100차례 대국에서 단 한번도 패하지 않았다.

AI의 가장 큰 도전은 ‘무(無)’에서 어려운 개념을 학습하는 알고리즘을 개발하는 것이다. 이세돌9단과 커제9단을 잇따라 물리친 기존 알파고는 바둑 기사들이 둔 수백만 건의 기보를 ‘지도학습(supervised learning)’이라는 방법으로 바둑을 익힌 뒤 알파고끼리의 ‘셀프대국’을 통한 ‘강화학습(reinforcement learning)’으로 탄생했다.

당시 알파고는 수개월 동안 훈련을 받았고 지도학습과 강화학습을 위한 ‘신경망(Neural Network)’인 ‘가치망’과 ‘정책망’을 갖추는 데 특화된 칩인 ‘TPU(텐서프로세서유닛)’를 48개 사용했다. 다음 착점의 후보를 빠르게 찾는 ‘정책망’과 승률이 높은 수를 찾는 ‘가치망’을 여러 층으로 나눠 적용하는 AI 기술인 ‘딥러닝’이 핵심이다. TPU는 기존 알파고에 활용된 CPU나 GPU보다 딥러닝에 최적화한 병렬처리 연산을 효율적으로 가능케 하는 칩이다.

딥마인드 연구진이 이번에 공개한 알파고 제로는 이름에서 엿볼 수 있는 것처럼 ‘무(無)’에서 시작한다. 인간이 입력한 기보 데이터에 대한 학습과 훈련 없이 알파고 제로끼리 대국을 시작해 착점하는 방식으로 최종 승률이 가장 높은 ‘수’를 스스로 학습하고 바둑 이론을 업데이트한다. 지도학습과 강화학습을 위한 신경망은 가치망과 정책망을 통합한 단일 신경망을 활용했다. TPU는 단 4개만을 사용해 컴퓨팅 파워도 엄청난 규모로 줄이는 데 성공했다.

네이처 제공.

감동근 아주대 전자공학과 교수는 “구글 딥마인드 연구진이 바둑과 같은 게임에 적용하는 딥러닝 방식을 획기적으로 최적화하는 방법을 찾은 것”이라며 설명했다.

이정원 한국전자통신연구원(ETRI) 선임연구원은 “기존에 인간이 갖고 있는 바둑에 대한 지식을 전혀 모르는 상태에서 시작한 인공지능 성능이 월등하다는 것을 입증했다는 점에서 인간의 지식체계와 이론이 최선이 아니라는 것을 보여주는 획기적인 연구”라며 “기술적으로 바둑과 유사한 메커니즘을 갖는 다른 분야로 응용할 경우 엄청난 확장성을 보여줄 것으로 기대된다”고 말했다.

이 연구원은 또 “기존에는 인공지능이 학습할 데이터를 모으는 게 어려워서 딥러닝 구현이 쉽지 않았는데, 알파고 제로는 데이터가 없어도 월등한 인공지능이 탄생할 수 있음을 보여줬다”고 설명했다.

데미스 허사비스 구글 딥마인드 CEO도 아무것도 배우지 않은 알파고 제로가 짧은 시간 동안 스스로 학습한 실력으로 기존 알파고를 꺾은 것에 대해 놀라움을 감추지 못하고 있다.

연구팀은 단백질 3차원 구조의 비밀을 풀고 신소재 설계와 같은 어려운 문제를 해결하는 데 알파고 제로의 알고리즘을 적용할 수 있을 것으로 기대했다.

허사비스 CEO는 “현재 가장 강력한 버전인 알파고 제로는 인간의 데이터를 전혀 사용하지 않아도 인공지능이 얼마나 많은 발전을 이룰 수 있는지를 보여준다”며 “지금까지 인간의 지식 기반 위에서 풀지 못한 인류의 난제들을 해결할 수 있는 잠재력이 알파고 제로와 같은 인공지능에 있다”고 강조했다.