김용대 서울대 교수

‘무지개를 보노라면 내 가슴이 뛰나니 나 어릴적 그러하였고…’

영국의 낭만주의 시인 윌리엄 워즈워스(1770~1850)의 유명한 시 ‘무지개’는 이렇게 시작된다. 하지만 내 생각에 남자들은 어릴 적 무지개보다는 로봇 생각에 가슴이 더 뛰었을 것 같다.

인간을 닮은 기계 로봇에 남성들은 열광한다. 마징가 제트에서 터미네이터, 매트릭스를 거쳐 2014년판 로보캅에 이르기까지 로봇은 만화와 영화의 소재로도 인기를 누린다.

로봇을 소재로 한 작품의 줄거리는 대개 비슷하다. 인간을 위해 고안된 로봇이 인간보다 뛰어난 판단력과 힘을 가지게 되어, 결국 인간을 지배하려 들고, 마침내 이에 맞선 인간 영웅이 로봇을 물리친다는 플롯이다.

이처럼 로봇에 대한 관심 이면에는 컴퓨터를 잘 이용하면 인간보다 나은 판단력을 가진 기계를 만들 수 있다는 희망과 동시에 자칫 인간을 능가할지도 모른다는 불안이 함께 깔려 있다.

로봇에 대한 희망은 컴퓨터가 데이터베이스에 저장된 것은 모두 완벽하게 기억한다는 사실에 기반한다. 인간의 기억력은 대단히 한정적이고 그에 따른 판단력도 제한적일 수밖에 없는 반면, 컴퓨터는 완벽한 기억력을 바탕으로 인간보다 나은 판단을 내릴 수 있을 거라는 기대다.

◆인공지능의 목표 ‘논리 주입’에서 ‘패턴 인식’으로

인공지능의 역사는 컴퓨터의 역사와 궤를 같이 한다. 인간처럼 생각하고 판단하는 기계는 1950년 튜링이 처음 고안했다. 이어 1952년 다트머스회의 (Dartmouth Conference)에서 인공지능이라는 용어가 처음 사용되면서 본격적인 연구가 시작됐다.

인공지능 연구의 초기 목표는 논리를 갖는 컴퓨터를 만드는 것이었다. 가령, 1 더하기 1이 2라는 것을 알려주면, 컴퓨터가 스스로 2 더하기 2는 4가 된다는 것을 알게 하는 식이다. 즉, 인간의 논리적 학습법을 컴퓨터에 재현하려 했다. 하지만 1 더하기 1은 2 같은 단순 논리를 구현하는 데는 성공했지만, 100 더하기 100은 200이라는 식의 상위 논리로 발전시키는 데는 성공하지 못했다.

1970년대에 암흑기를 맞았던 인공지능 연구는 1990년대에 오면서 다시 각광 받기 시작했다. 연구 방향을 ‘논리의 주입’에서 ‘패턴의 발견’으로 바꾼 결과였다. 컴퓨터에 논리를 이식하는 대신, 자료를 주입하고 이 자료를 바탕으로 주어진 상황을 적절하게 판단하게 하는 방법을 택했다.

이런 전환은 인공지능 역사에 새로운 획을 그었다. 이제 인공지능의 목표는 ‘인간을 능가하는 컴퓨터’에서 ‘인간보다는 못하지만 쓸 만한 컴퓨터’로 바뀌었다. 1972년도 노벨 생리의학상을 수상한 제럴드 에덴만 교수는 “인간에게는 있지만 기계에는 없는 것이 상상력이며 이 상상력의 부재는 기계가 인간에 비해 지능이 떨어질 수 밖에 없는 이유”라고 그 배경을 설명했다. 성과는 곳곳에서 나타났다. 대표적 사례가 청소로봇이다.

◆ 컴퓨터는 자료로 학습한다

데이터를 바탕으로 상황에 맞는 최적의 판단을 내리는 방법을 연구하는 분야를 기계학습 (machine learning)이라고 한다. 기계학습은 인공지능의 방법론 중 하나이며, 컴퓨터 공학과 통계학의 융합 분야다.

컴퓨터에게 논리 대신 자료와 분석법을 알려줘, 스스로 해법을 찾게 하는 방식이 기계학습이다. 가령, 피자 제작 로봇에게 여러 종류의 피자와 고객 선호도 사이의 관계(함수)를 통계적 방법으로 찾아내 입력시킨 후, 이 관계를 이용해 손님의 선호도가 가장 높은 재료의 조합을 찾게 하는 식이다.

이런 기계학습의 특징은 자료가 쌓일수록 기계의 판단력이 좋아진다는 사실이다. 그래서 ‘학습’이라 부른다. 아기가 엄마로부터 말을 배우듯이 컴퓨터가 자료로부터 학습한다는 뜻이다.

기계학습 방법의 성공 요인은 두 가지다. 첫째는 양질의 데이터, 둘째는 데이터를 효율적으로 분석하는 방법이다. 여기서 첫째 요인인 양질의 데이터에 빅데이터가 핵심으로 자리 잡고 있다.

1997년 세계 체스 챔피언 게리 카파로브를 이겨 센세이션을 불러일으켰던 컴퓨터 딥블루(Deep Blue)나, 2011년 미국 퀴즈쇼 제퍼디에서 인간을 이기고 우승한 컴퓨터 왓슨도 빅데이터 기술을 사용했다. 아이폰에 탑재된 ‘쉬리’ 프로그램이나 우체국에서 사용하는 손글씨 자동 인식 프로그램도 기계학습의 성공 사례이다.

◆ 이미지 인식, 아직 걸음마 수준

현재 기계학습 분야에서 가장 주목받는 것은 ‘이미지 인식’과 ‘언어 이해’다. 이미지 인식은 디지털 영상을 보고 물체를 인식하는 것. 사진에 몇 명의 사람이 있는지 알아낸다거나, 사진 속 인물의 나이나 성별을 맞추는 알고리즘 개발이 여기에 해당한다.

인간은 외부에서 얻는 정보의 90%를 눈으로 얻는다. 따라서 이미지 인식 알고리즘은 기계를 사람 수준으로 끌어 올리는 데 있어 핵심 기술이라고 할 수 있다. 하지만 이 분야는 아직 걸음마 수준이다. 아이를 안고 있는 엄마를 두 사람으로 식별한다거나, 개와 고양이를 구별하는 상용 알고리즘도 아직도 개발되지 못한 상태다.

최근 구글 X연구소에서 개발한 새로운 기계학습 알고리즘은 그런 점에서 주목된다. ‘깊은 학습 (deep learning)’이라는 이름의 이 알고리즘은 인간의 뇌를 모방해서 만들어진 통계 모형인 인공 신경망 (artficial neural network) 모형을 기반으로 이미지를 인식한다.

인공 신경망 모형은 1960년대에 인간의 뇌를 모방하는 통계 모형으로 개발됐는데, 모형이 너무 복잡해 응용 분야가 아주 제한적이었다. 구글은 ‘깊은 학습’을 활용해 인공신경망 모형의 성능을 획기적으로 향상시킨 결과, 컴퓨터가 고양이 이미지를 인식하는 데 성공했다는 실험 결과를 발표했다.

빅데이터 기반 기계학습 알고리즘의 또 다른 성공 사례로는 구글 번역기가 있다. 2007년 이 프로그램이 개발되기 전에도 무수히 많은 자동 번역기가 개발됐지만 큰 관심을 끌지 못했다. 정확도가 너무 떨어지기 때문이었다. 이유는 단어의 뜻은 문장의 맥락에서 나오는데 컴퓨터에게 문맥의 논리를 이해시키는 것이 거의 불가능하기 때문이다.

구글 번역기는 문맥의 논리를 찾기보다 거대한 문서 데이터로부터 비슷한 문장을 찾고 이 문장들의 정보를 이용해 번역하는 방식을 적용했다. 미국의 많은 주에서는 공문서를 영어와 스페인어로 작성하는데, 구글은 이 두 문서 데이터를 이용해 비슷한 문장을 찾아내 번역하게 했다. 그 후 다양한 언어로 확장됐다.

구글 번역기로 한국어를 영어로 바로 번역하는 것보다, 일어로 번역한 후 다시 일역을 영어로 번역하면 더 나은 결과를 얻는 것도 비슷한 이유에서다. 한국어-일어 대조 문서와, 일어-영어 대조 문서는 많은 반면, 한국어-영어 대조 문서는 적기 때문이다.

기계학습은 최근 빅데이터의 출현과 함께 엄청난 속도로 좋아지고 있다. 그 결과 많은 산업에서도 핵심적 위치를 차지하고 있다. 전기차와 스마트 자동차 분야도 그 중 하나다. 지금 추세라면 자동차도 전자제품에 가까워질 것이 틀림없다. 이때 자동차 산업의 경쟁력은 기계학습 기술에 크게 의존할 것이다. 우리 자동차 기업들도 빅데이터와 인공 지능에 관심을 가져야 할 이유다.