[이세돌 vs 알파고] 김석원 SW정책연구소 책임연구원 "변칙 플레이로 흔들어도 알파고는 계산대로만 움직일 것"

조선비즈
  • 류현정 기자
    입력 2016.03.07 06:03

    “이세돌 9단이 변칙적인 플레이로 아무리 흔들어도 알파고는 계산대로만 움직일 것입니다. 오히려 이런 흔들리지 않는 모습에 인간이 당황할 수 있습니다.”

    김석원 소프트웨어정책연구소 책임연구원(사진)은 1990년 초 기호추론 기반의 인공지능을 연구했으며 영상솔루션 기업 아이큐브 부사장(CTO)을 거쳐 국가연구기관인 소프트웨어정책연구소에서 융합SW정책실장을 맡고 있다. 최근 추형석·안성원 선임연구원과 공동으로 구글 알파고의 알고리즘을 분석한 이슈 리포트 ‘AlphaGo의 인공지능 알고리즘 분석’을 썼다.

    다음은 김석원 책임연구원과의 1문1답.

    ― 알파고는 수(手)를 어떻게 결정하나.

    “‘정책망’과 ‘가치망’이라는 2개의 인공신경망을 이용해 결정한다. 여러 단계의 인공신경망을 활용한 기계학습법을 딥러닝(Deep Learning)이라고 한다. 정책망은 어디에 수를 둘지를 선택하는 신경망이고, 가치망은 해당 위치에 수를 놓았을 때 백돌과 흑돌의 승률이 얼마일지를 계산한다. 정책망은 착수 가능한 지점을 확률 분포로 나타내는 데, 알파고가 탐색해야 할 경우의 수 범위를 줄여준다. 가치망은 착수가능한 위치 중에서 최종 어떤 위치를 택할 지 결정하는 데 도움을 준다.”

    ― 이번 대국은 2015년 10월 치러진 유럽 챔피언 판 후이 2단과의 대결 때보다 제한시간과 초읽기가 2배로 늘어났다. 바뀐 규칙이 미치는 영향은.

    “알파고의 대국을 분석해보면, 시뮬레이션 시간을 많이 쓸수록 강한 면모를 보였다. 알파고는 판후이 2단과의 공식 대결에서는 5대 0으로 완승했지만, 비공식 경기에서는 3대 2 정도로만 우세했다. 비공식 경기에서는 공식 경기보다 제한시간이 짧았는데, 시간이 경기 결과에 영향을 미친 것으로 추정된다. 알파고는 초읽기 30초 동안 10만~20만번의 수읽기가 가능한 것으로 판단된다. 알파고가 시간을 많이 쓸수록 유리한 것은 맞지만, 이것이 고수인 이세돌 9단한테도 통할지는 알 수 없다. 대국 규정은 알파고를 개발한 구글 딥마인드와 한국 기원이 협약한 사항이다.”

    ― 이세돌의 스타일을 고려할 때 강점은.

    “이세돌은 파격적이고 공격적인 수를 많이 둔다. 인간이기 때문에 심리적으로 흔들릴 수가 있다고 하는데, 이세돌은 세계적인 대회에 많이 참가했기 때문에 멘탈(정신력)도 굉장히 강하다. 대체로 이세돌이 이길 것으로 본다. 이세돌이 이기더라도 구글이 손해보는 것은 없다. 이세돌과 같은 파격적인 스타일의 고수와 바둑을 두는 경험 자체가 알파고한테는 소중한 경험이기 때문이다. 만약 알파고가 단 1승이라도 챙길 경우 알파고가 얻는 인지도 효과도 무시하지 못할 것이다.”

    ― 이세돌의 변칙 플레이에 알파고가 동요할 가능성은.

    판 후이 2단이 알파고와 대국을 마친 뒤 가진 인터뷰에서 알파고가 보수적이고, 침착했으며 벽에다 두고 바둑을 두는 느낌이었다고 밝혔다. 이 인터뷰를 읽고 알파고는 후반으로 갈 수록 계산이 더 정확해지고 끝내기도 강한 느낌일 것이니 ‘마치 어릴 때의 이창호 9단이랑 두는 느낌이 아닐까’ 라고 생각했다. 상대방이 흔들기를 해도 이창호 9단이 흔들리는 적을 본적이 있는가. 어린 이창호는 흔들기의 명수인 조훈현 9단과의 대결에서 돌부처같이 침착하게 두어 좋은 결과를 냈다. 소프트웨어인 알파고는 이세돌이 변칙 플레이를 해도 계산대로만 움직인다. 오히려 이런 흔들리지 않는 모습에 판 후이가 당황했을 수도 있다.”

    ― 알파고가 이세돌과 한판을 두면 얼마나 학습하게 되나.

    “기계가 실시간으로 학습할 수 있으면 엄청난 ‘브레이크스루(breakthrough·돌파구)’가 될 것이다. 굉장한 지능을 가진 것이기 때문이다. 실제로는 그렇지 않다. 아마 알파고가 강화학습을 했기 때문에 실시간으로 자기 교정을 할 수 있는 것처럼 상상의 나래를 펼쳐 언급한 내용들이 언론에 보도됐다. 강화학습을 너무 많이 하면 오히려 응용력이 떨어진다. 파블로프의 개의 역설이라고 하지 않나. 강화학습을 지나치게 많이 한 개는 유사한 종소리에는 반응하지 않고 해당 종소리에만 반응하게 된다. 신중하게 적당히 훈련시키는 것이 중요하다.”



    내가 본 뉴스 맨 위로

    내가 본 뉴스 닫기