얕은 잠을 자면 걱정해주고, 늦은 시간까지 깨어있으면 자라고 잔소리도 해주는 인공지능(AI). 정류장에서 버스를 기다리다 "도대체 언제 와?" 라고 말하면 늘 타는 82번 버스 얘긴 줄 알고 도착 예정 시간을 알려주는 AI.
모두가 꿈꾸는 '진짜' AI는 이처럼 친절한 비서의 형태를 띠고 있다. "내 마음을 나보다 더 잘 이해하는, 친구같이 다정한 비서." 하지만 한 가지 문제가 있다. 바로 현존하는 기술로 구현이 불가능하다는 것. 전 세계 AI 업계 새로운 강자를 노리는 카카오엔터프라이즈가 자연어 처리(NLP) 기술에 매진하는 이유다. 카카오엔터프라이즈는 지난해 한국어 기계독해 경진대회 '코커드(KorQuAD) 2.0′과 글로벌 영어 기계독해 대회 'ELI5′에서 각각 1위를 기록하며, 한국어·영어 이해 및 처리 기술력을 입증했다.
김응균 카카오엔터프라이즈 AI랩 자연어처리팀장은 지난 12일 조선비즈와 서면으로 진행한 인터뷰에서 "NLP 기술은 해마다 엄청난 속도로 발전하고 있다"며 "이 발전의 끝에는 어떤 미래가 있을지 어느 정도 예상을 하지만 언제 그 이상이 실현될지 아직은 알 수 없다. 현재 대부분의 집에 PC가 있듯이 멀지 않은 미래에 개개인에게 맞는 AI 비서가 보급될 것으로 예상한다"고 말했다. 1976년생인 김 팀장은 충북대 컴퓨터공학과를 졸업하고, 2004년 다음커뮤니케이션에 입사하며 NLP 기술과 본격적인 인연을 맺었다. 이후 20년 가까운 시간 동안 여러 논문에 이름을 올렸으며, 카카오엔터프라이즈 합류 이후 카카오 대표 AI 기술 브랜드인 '카카오 i'를 연구·개발해왔다.
NLP 기술은 인간의 언어, 즉 자연어를 컴퓨터가 이해할 수 있도록 변환해 처리하는 기술을 말한다. 크게 분석, 이해, 생성 세 분야로 나뉜다. ①분석은 문법에 따라 자연어를 쪼개는 기술을 ②이해는 어려운 자연어 표현을 컴퓨터가 알고 있는 쉬운 표현으로 바꿔 뜻을 파악하도록 하는 기술을 ③생성은 주어진 자연어를 바탕으로 컴퓨터가 새로운 문장 등을 만들어내는 기술을 각각 의미한다. 최근 정보기술(IT) 업계를 뜨겁게 달군 챗GPT도 NLP 기술을 기반으로 한다. 챗GPT는 오픈AI가 지난해 말 공개한 언어 모델 'GPT-3.5′의 대화형 서비스다. 작가 유발 하라리는 챗GPT가 쓴 자신의 저서 '사피엔스' 서문에 대해 "글을 읽는 동안 충격으로 입을 다물지 못했다"며 "AI 혁명이 전 세계에 휘몰아치고, 이 혁명은 우리가 알던 방식의 인류 역사가 끝났다는 신호를 보내고 있다"고 평가했다.
김 팀장은 "NLP 기술 관점에서 현 시대를 평가하자면 비약적인 발전의 복판에 있다고 할 수 있겠다"며 "혹자는 챗GPT가 '최신의 데이터에 대해서는 답을 주지 못한다' '간혹 틀린 답을 말한다'고 이야기한다. 하지만 화면 뒤에 있는 화자가 사람인지 아닌지 구분이 어려운 정도의 성능임을 부인하기는 어렵다"고 했다. 그는 "챗GPT가 우리에게 보여준 진보는 기술적 특이점(미래학에서 AI의 발전이 빨라져 모든 인류의 지성을 합친 것보다 뛰어난 초AI가 출현하는 시점을 일컫는 말)이 가까이 와 있다는 것을 보여주는 방증이 아닌가 싶다"며 "이전에도 여러 비관론이 등장하고 이를 극복하는 과정이 반복됐듯이, 이런 문제점은 머잖아 해결될 것으로 보인다"고 했다.
그렇다면 한국어 처리 기술의 전망은 어떨까. 김 팀장의 의견을 들어봤다. 다음은 김 팀장과의 일문일답.
一 한국어 처리 기술은 지금 어느 정도 수준에 이르렀다고 볼 수 있나.
"NLP 기술과 관련해서 가장 유명한 사이트 중 하나가 허깅 페이스(Hugging Face)다. NLP 오픈소스 라이브러리를 제공하는 사이트인데, 개발자들끼리 직접 개발·구축한 모델과 데이터셋을 공유할 수 있는 기능도 있다. 이 사이트의 통계를 빌리면 ▲영어는 570개 모델, 116개 데이터셋 ▲한국어는 339개, 모델 73개 데이터셋 ▲일본어는 274개 모델, 23개 데이터셋이 검색된다. 언어를 사용하는 인구 수를 기준으로 봤을 때 한국어 모델이나 데이터셋의 수가 결코 적지 않은 것이다. 양이 항상 질을 담보하진 않지만, 한국어 처리 개발자가 많다는 건 그만큼 한국이 앞서가고 있다는 뜻으로 풀이된다."
一 한국어 데이터셋이 의외로 많다.
"대부분 연구진은 데이터셋을 직접 구축하는 대신 공개된 데이터를 활용한다. 이 때문에 불과 몇 년 전까지만 해도 이렇다 할 데이터가 많지 않았다. 하지만 클루(KLUE)와 국립국어원, AI허브의 데이터가 공급되면서 요즘은 이런 데이터 부족 문제가 꽤 완화됐다. 카카오엔터프라이즈와 같은 기업은 크라우드 소싱을 통하거나 자체 구축 인력을 영입해 필요한 데이터셋을 구축하기도 한다."
一 데이터의 양만큼 질도 중요할 것 같다. 좋은 데이터와 나쁜 데이터는 어떻게 구분하나.
"좋은 데이터와 나쁜 데이터를 나누는 기준은 오로지 모델의 성능 관점에서만 유효하다. 모델의 성능을 올리는 데이터는 모델 관점에서 좋은 데이터고, 모델의 성능을 떨어뜨리는 데이터는 나쁜 데이터로 볼 수 있다는 뜻이다. 컴퓨터에 영화 감상평을 학습시킬 때를 예로 들겠다. '★★★★★ 이 영화는 화질과 스토리 면에서 모두 최고의 영화다' '★★★★★ 쓰레기들만 잔뜩 모아놨네'라는 두 가지 평이 있다고 가정하자. 둘 다 별점이 5개인 평인데 전자는 별점에 부합하는 글이고, 후자는 별점과 상반되는 글이다. 후자는 모델에 혼동을 줘 나쁜 데이터라고 할 수 있겠다."
一 한국 문화는 언어만으로 의사소통이 어려운 '고맥락 문화'에 속한다. AI의 '눈치'를 길러주기가 좀처럼 쉽지 않아 한국어 처리가 까다롭다는 평이 나오는데, 반대로 한국어라서 용이한 점도 있는지 궁금하다.
"한국어 처리는 사회문화적 맥락 데이터를 필요로 할 뿐만 아니라 서술어가 후행하는 경우가 많아 말을 끝까지 들어야 정확한 의도 파악이 가능하다는 특징도 갖는다. 다만 어순이 자유로워 어떤 순서로 이야기를 해도 어느 정도 컴퓨터가 이해할 수 있다는 장점이 있다. 몇 년 전 많은 사람을 충격에 빠뜨린 버트(BERT)라는 딥러닝 모델이 있는데, 이 모델은 '나는 자연어 ( ) 개발자다'와 같은 문장에서 '자연어'와 '개발자'와 같은 주변 문맥을 보고 ( )에 들어갈 말을 맞히는 방법으로 학습을 한다. 한국어는 어순이 자유롭다 보니 같은 의미의 문장이 여러 가지 다른 배열로 표현될 수 있다. 물론 바로 이 점이 컴퓨터로 언어를 분석할 때 영어에 비해 성능이 덜 나오는 이유가 되기도 한다."
一 한국어와 영어를 아우르는 국내 NLP 기술의 현주소는 어디쯤에 있다고 보나.
"최근 딥러닝 모델은 초거대 모델이 주류를 형성하고 있다. 초거대 모델은 많은 그래픽처리장치(GPU)를 필요로 하기 때문에 대규모 자본을 투입할 수 있는 기업이나 국가 단위에서 연구가 가능하다. 우리나라 NLP 기술은 전 세계적으로 경쟁력을 인정받고 있고, 열 손가락 안에 들지 않을까 싶다. 그러나 개발자 수급 현황을 보면, 서비스를 만들기 위한 개발 일반에 관한 지식까지 갖춘 개발자는 다소 부족한 실정이다. NLP 기술뿐 아니라 다양한 IT 기술의 발전과 인재 양성을 위해 기업은 기술 개발에 지속적으로 힘쓰고, 국가는 다방면에서 정책적 지원을 함께 고민하면 좋을 것 같다."
一 학생 시절부터 꾸준히 NLP 기술 개발에 '올인'해왔다. '한국어와 한글을 사랑하는 NLP 개발자'라는 소개글도 인상적이다. 변함없는 애정의 시초가 궁금하다.
"석사 과정을 지원할 때만 해도 데이터베이스나 네트워크와 관련된 전공이 인기가 많았는데, 대학원생 입장에서는 이미 연구가 많이 진행된 분야 보다 조금이라도 생소한 분야가 논문 쓰기에 수월해 보여서 이쪽을 선택했다. 연구실에 들어가서 직접 부딪혀 보기 전까지 NLP가 뭔지 정확히 인지하지 못한 상태에서 막연한 생각으로 인생에서 중요한 선택을 한 셈이다.
개발자로 경력을 쌓기 시작하고부터는 운 좋게 은사님을 두 분이나 만났다. 입사하고 2년이 채 되기도 전에 만난 조영환 박사님과 과거 SK텔레콤에서 최고기술책임자(CTO)를 역임한 이상호 박사님이다. 조 박사님은 형태소 분석기부터 NLP 기술 전반에 대해 알려주셨고, 이 박사님은 당시에도 업계에서 저명한 분이셨는데 많은 기술 노하우를 전수해주셨다. NLP 기술에 목이 말라있을 때 많은 것을 가르쳐주신 분들이어서 지금도 마음 속에 감사함을 새기고 있다."