인공지능 ‘알파고’ 어떻게 바둑 두나…스스로 판단하고 학습하는 ‘딥러닝’이 핵심

바둑 세계에서 최강자로 불리는 이세돌 9단과의 역사적인 대국을 앞둔 구글의 인공지능(AI) '알파고(AlphaGo)'. 알파고가 기존 슈퍼컴퓨터와 가장 크게 차이나는 것은 스스로 판단하고 학습하는 '딥러닝(Deep Learning)' 기술이다.

바둑은 인간이 만든 가장 복잡한 게임이다. 바둑돌을 놓는 경우의 수가 10의 100제곱, 즉 우주에 있는 원자수보다 더 많다.

데미스 하사비스 구글 딥마인드 최고경영자(CEO)는 22일 서울과 영국 런던을 이원 생중계 방식으로 연결한 기자회견에서 "바둑은 경우의 수가 워낙 많기 때문에 컴퓨터가 무조건 무작위 대입(brute force) 방식으로 처리해서는 승리하기 힘들다"며 "세계에 가장 좋은 슈퍼컴퓨터가 있다고 하더라도, 또 이 슈퍼컴퓨터가 앞으로 더 나아진다 하더라도 그걸로는 (승리하기에는)충분하지 않을 것"이라고 말했다.

데이비드 실버 구글 딥마인드 리서치 담당 과학자도 1월말 가진 기자간담회에서 "바둑의 규칙은 간단하지만, 경우의 수가 너무 많아 컴퓨터가 감당할 수 없었다"면서 "경우의 수를 얼마나 효과적으로 줄이느냐, 즉 탐색 범위를 얼마나 축소하느냐가 알파고 알고리즘의 핵심"이라고 밝혔다.

결국 무한대에 가까운 바둑에서의 경우의 수를 마치 인간이 사고하는 방식처럼 어떻게 줄여나가느냐가 기계(인공지능)의 바둑 수행 능력을 끌어올리는 핵심이다. 알파고는 검색 알고리즘으로 몬테카를로 트리탐색(Monte Carlo Tree Search)을 채택하고, 여기에 심층신경망 기술을 접목했다.

인간의 뇌는 수십, 수백 층의 신경 네트워크를 갖고 있는데, 이를 모방한 알고리즘이 '심층 신경망(deep neural network)'이다. 알파고는 '정책망(policy network)'과 '가치망(value network)'이라는 2개 신경망으로 구성됐다.

알파고는 정책망과 가치망이라는 2개의 신경망을 활용해서 바둑을 둘 때 가능한 모든 경우의 수를 줄여나간다. 정책망을 통해 어떻게 바둑돌을 어디에 두는 것이 가장 가능성이 높은 지(좋은 수인지) 판단하게 된다. 이어 가치망은 각 수에 대한 흑돌, 백돌의 승률을 평가한다.

즉 정책망은 알파고가 돌을 놓는 위치를 선택하게 하고, 가치망을 통해 그 수가 백돌과 흑돌 중 누구에게 더 유리한지 판단하는 것이다. 이 두 가지를 조합하면 컴퓨터가 처리해야 할 경우의 수(탐색 범위)를 크게 줄일 수 있게 된다.

이런 신경망 구조를 가지고 있는 알파고는 딥러닝 기술로 바둑 기량을 스스로 연마해왔다. 구글이 바둑 프로 기사의 대국을 프로그램화해 3000만개의 수를 알파고에 입력하고 스스로 대국을 진행하도록 훈련한 것이다.

딥러닝을 통해 알파고는 사람으로 치면 1000년이 걸리는 100만 번의 대국을 4주 만에 소화했고, 상대방의 수를 예측하는 확률을 44%에서 57%까지 끌어올렸다. 또 알파고는 총 500회 바둑 프로그램과의 대국 중 단 1번을 제외한 모든 대국에서 승리했다. 그리고 판 후이(Fan Hui) 2단과의 5번의 대국에서 모두 승리했다. 컴퓨터가 프로 바둑 선수를 이긴 최초의 경기였다.

하사비스 CEO는 "실제로 '딥블루'라는 슈퍼컴퓨터가 카스파로프를 꺾은 경우를 바둑에 대입해보면 알파고는 한 수를 두기 위해 검색해야 하는 경우의 수가 무한대가 아닌 10만개 정도 수준으로 줄어든다"며 "이는 슈퍼컴퓨터가 검색하는 2억개와 비교하면 많이 추려진 것"이라고 설명했다.

그러면서 "프로 바둑 기사의 경우 한 수를 둘 때 1000개 미만의 경우의 수를 고려하는데, 인간에 비하면 알파고가 검색해야 하는 수가 엄청 많은 거지만 슈퍼컴퓨터에 비하면 크게 줄어든 것"이라고 덧붙였다.

인공지능 '알파고' 어떻게 바둑 두나…스스로 판단하고 학습하는 '딥러닝'이 핵심