판후이와의 대국 보다 두배 늘어...결과에 영향 미치나

“구글 알파고가 한 수를 두려면 수십 만번 시뮬레이션을 하는데, 시간이 많을 수록 유리합니다. 이세돌과 알파고의 대국에서는 지난해 10월 판후이와의 대국과 달리 제한시간과 초읽기 모두 2배로 늘어났습니다. 시간이 늘어난 만큼 구글 알파고의 계산 능력도 커졌습니다.”

김석원 소프트웨어정책연구소 책임연구원은 지난 4일 조선비즈 교육장에서 열린 ‘기계학습은 만능일까 - 기계학습과 알파고’라는 주제의 세미나에서 이같이 밝혔다. 조선비즈와 미디어잇은 이세돌 9단과 구글 인공지능 ‘알파고’와의 대국을 앞두고 소프트웨어정책연구소,사단법인 앱센터와 공동으로 이 세미나를 개최했다.

이날 김진형 카이스트 인공지능연구실 명예교수가 ‘기계학습과 인공지능 게임 알고리즘’이라는 주제로 발제하고 김석원 소프트웨어정책연구소 책임연구원이 ‘알파고의 알고리즘’에 대해 설명했다.

김진형 카이스트 인공지능연구실 명예교수가 세미나에서 발표하는 모습

김 연구원은 알파고가 딥러닝으로 구현된 정책망과 가치망을 활용해 몬테 카를로 트리 탐색으로 착수를 결정하는 만큼 시간이 얼마나 주어지느냐가 계산능력에 큰 영향을 미친다고 설명했다.

김 연구원은 판 후이 2단과의 대국에서보다 이세돌 9단과의 대국에서 시간이 늘어난 점이 알파고에 유리할 것(더 나은 기력을 보일 것)으로 내다봤다. 알파고와 판 후이 2단과의 경기는 1시간의 제한시간과 30초 초읽기가 3회 주어졌다. 이세돌 9단과의 대결은 2시간 제한시간에 60초 초읽기 3회가 주어진다.

김 연구원은 “알파고는 판 후이 2단과의 공식적인 대결에서는 5대 0으로 승리했지만, 비공식 경기에서는 3대 2로 이겼다”면서 “비공식 경기는 공식 경기보다 제한시간이 짧았는데, 시뮬레이션 시간이 경기 결과에 영향을 미치고 있다고 생각하게 된 배경”이라고 말했다.

그는 “알파고가 시뮬레이션을 주로 중반전에 많이 배정할 것”이라며 “알파고는 이세돌 9단이 착수를 생각할 때에도 시뮬레이션이 가능하며 30초에 10만~20만번의 시뮬레이션을 할 것으로 추정된다”고 밝혔다.

김석원 소프트웨어정책연구소 책임연구원이 세미나에서 발표하는 모습

알파고는 ‘정책망’과 ‘가치망’이라는 2개의 인공신경망을 이용해 전문 바둑기사들의 패턴을 학습했다. 인공신경망을 활용한 기계학습법을 딥러닝(Deep Learing)이라고 한다. 바둑기사의 착수를 학습한 것은 정책망이고, 국지적인 패턴인식을 통한 승산판단은 가치망으로 구현했다. 정책망은 특정 시점에서 가능한 모든 수 중 가장 승률이 높은 것을 예측하는 역할을 하며, 가치망은 현재 대국상황의 승산을 나타낸다.

김 연구원은 “알파고는 딥러닝 기법 중 특히 이미지 처리에 강한 컨볼루션 신경망을 기반으로 학습하기 때문에 국지적인 패턴인식에도 강점을 가진다”며 “컨볼루션 신경망으로 19x19 바둑판(361가지 경우의 수) 상태를 입력해 바둑판 모든 자리의 다음 수 선택 가능성에 대한 확률 분포를 출력했다”고 말했다.

김 연구원은 알파고가 정책망을 학습하기 위해 지도학습과 강화학습을 병행했다고 설명했다. 지도학습은 프로 바둑기사들의 착수 전략을 학습하는 것이며, 강화학습은 스스로 경기를 하며 지도학습을 강화하는 과정이다.

그는 "알파고가 KGS Go Server 프로 6단에서 9단 사이의 실제 대국 16만개 기보로부터
3000만 가지 바둑판 상태를 추출해 데이터로 사용했다"며 "이 중 약 2900만개를 학습에, 나머지 100만개는 바둑판 상태를 시험하는데 이용했다"고 말했다.

김 연구원은 정책망이 착수 선호도를 나타내지만 최적의 수를 선택할 수 있도록 알파고가 스스로 경기하며 지도학습을 강화했다고 설명했다. 그는 “알파고는 약 128만번의 자체대결을 수행했다”며 “경기결과를 바탕으로 이기는 방향으로 가도록 가중치를 강화했다”고 말했다. 또 “바둑의 전체적인 형세를 파악하기 위해 가치망을 활용하는데, 알파고가 자체대결에서 생성된 3000만개의 경우를 가지고 가치망을 학습했다”고 밝혔다.

한편 김진형 교수는 딥러닝의 등장으로 알파고라는 인공지능까지 발전하게 됐지만, 인공지능의 한계는 분명하다고 지적했다. 김 교수는 “이세돌 9단은 바둑도 둘 줄 알고 퀴즈도 풀 수 있지만, 알파고는 바둑만 두고 왓슨은 퀴즈만 푼다”면서 “인공지능이 이 2가지를 할 수 있는 즉 범용성은 아직 요원한 얘기”라고 말했다.