“AI, 자연어를 완벽하게 이해하고 완벽하게 변조한다”

아마존, 애플, 구글 등 글로벌 IT 기업들은 왜 일제히 인공지능(AI) 기반의 스마트 스피커 사업에 뛰어들고 있을까. 이유는 생각보다 간단하다. 딥러닝 엔진에 기반한 현재의 AI 기술이 특히 언어, 그 중에서도 음성 인식 분야에서 괄목할 성장을 거듭했기 때문이다.

국내 AI 분야에서 손꼽히는 권위자 중 하나인 윤성로 서울대학교 전기정보공학부 교수가 최근 마이크로소프트(MS), IBM과 진행 중인 두 개의 AI 솔루션 기반 프로젝트를 역시 자연어를 이해하고 자연어를 생성하는 기술이다. MS와는 목소리, 말투, 어법 등을 분석해 '피싱'을 감별해내는 기술을, IBM과는 다른 사람의 목소리를 합성해 변조하는 기술을 연구 중이다.

MS의 기술이 피싱 사기를 막기 위한 '안티 스푸핑'(Anti-spoofing)' 등으로 활용될 가능성이 높은 반면 IBM은 쪽은 오히려 목소리 변조를 통해 사기 행위에 악용될 수도 있다는 측면에서 완전히 상반된 프로젝트로 볼 수 있다. 말하자면 윤 교수는 경찰, 사기꾼을 모두 양성하고 있는 것이다.

윤성로 서울대 전기정보공학부 교수.

12일 서울대학교 내 연구실에서 조선비즈와 만난 윤성로 교수는 "인공지능을 개발하는 건 아이를 키우는 일과 비슷하다"고 말했다. 실제 IBM으로부터 연구용 '왓슨(Watson)'을 받은 윤 교수는 왓슨을 '아기'라고 불렀다. 아이가 추후에 어떤 형태의 AI로 성장하는 지는 전적으로 어떤 교육, 어떤 트레이닝을 받느냐에 따라 좌우된다.

윤 교수가 안티스푸핑뿐 아니라 자칫 악용될 가능성이 있는 IBM의 목소리 변조 기술을 연구하는 건 아직 '아기'에 가까운 상태의 AI의 용도를 미리부터 단정해 놓을 필요가 없기 때문이다. 게임 그래픽을 위해 개발된 그래픽처리장치(GPU)가 딥러닝(Deep Learning) 시대 개막의 단초가 될 지 아무도 몰랐던 것처럼 말이다.

윤 교수는 한국 AI 기술의 현주소를 진단하면서 중국과의 격차에 우려를 드러내기도 했다. 그는 "미국, 중국이 AI 분야에서 앞서나가고 상대적으로 한국, 유럽 등이 AI 분야에서 뒤처지고 있다"며 "가장 큰 원인 중 하나가 바로 정보의 활용에 대한 규제 문제가 크다"고 지적하기도 했다.

다음은 윤 교수와의 일문일답.

-세계 최고 AI 연구소인 스탠포드 AI 랩에 다녀왔다. 소감은 어떤가.

"정말 빨리 변하고 있다는 것을 느꼈다. 한국의 시계보다 더 빠르다고 느낀 건 글로벌 IT 기업과 연구소의 교류가 정말 많았기 때문이다. 한국은 다른 일로 정신이 없다. 행정적인 일이 더 많기도 하고. 미국은 순수하게 연구만 할 수 있었기 때문에 좋았다. 물론 학생들 가르치는 게 귀찮다는 건 아니다.

당연한 이야기지만 기술적으로 한국과 미국의 수준 차이를 체감하기도 했다. 특히 연구 환경부터가 많이 달랐다. 규제 측면에서도 전반적으로 미국은 AI 기술 혁신에 대해 훨씬 더 유연한 제도를 운영한다. 주(州) 마다 차이가 좀 있지만, 자율주행 자동차에 대한 스탠다드만 봐도 굉장히 오픈돼 있다.”

-최근 진행하고 있는 연구에 대해 소개해달라.

"언어, 음성 등에 대한 AI 기술이다. 우선 마이크로소프트(MS) 진행 중인 연구는 AI로 각양각색의 피싱(Phishing)을 포착하는 솔루션이다. 우선은 보이스 피싱을 잡아내는 AI를 개발했다. 사용자가 설정한 수준에 따라 기능에는 차이가 있다. 가령 당신이 전화를 받을 때 누군가 명백하게 북한식 말투를 쓴다면 AI가 말의 억양을 판단해 이를 피싱으로 인식할 수 있다.

윤성로 서울대 전기정보공학부 교수.

여기서 좀 더 나아가 문장을 이해하고 문맥을 통해 피싱을 잡아내는 방식이다. 자연어를 이해하는 수준까지 올라간다. AI가 보이스 피싱에 주로 사용되는 단어나 문장 전개 등을 학습하고 이해해 비슷한 종류의 패턴이 발견되면 사용자에게 경고를 하거나 통화 자체를 끊어버릴 수도 있는 것이다.

반대로 IBM과는 사람의 음성을 합성하는 기술을 연구하고 있다. 가장 단적인 예를 들면 아빠, 엄마의 목소리를 바꿀 수 있다. 가령 아빠와 보내는 시간이 적은 아이들을 위해 엄마 대신 아빠 목소리로 동화책을 들려주고 싶을 경우, 자연스럽게 목소리를 실시간으로 바꾸는 것이 가능하다.

물론 아직은 좀 더 트레이닝이 필요한 상태다. 현재 기술 수준으로는 정확하게 목소리를 카피하기 위해서는 그 목소리를 30분간 계속 들어야 한다. 하지만 이론적으로 10초 정도로 줄일 수도 있다. 10초간 말하는 것이 짧은 것 같아도 생각보다 많은 정보를 담고 있다.

-최근에 AI를 기반으로 만든 유전자가위 효율예측 기술도 크게 각광 받으면서 '네이처 바이오테크놀로지'에 실렸다. 어떤 의미가 있나.

"쉽게 생각하면 이런 거다. 보통 유전체란 부모님으로부터 물려 받는 물질 전부를 말하는데, 그 중에서 의미가 있다고 할 수 있는 건 약 3% 정도다. 그것을 유전자라고 부른다. 유전자 때문에 얼굴, 키, 목소리 등 선천적인 것들을 물려 받는다. 비유하자면 유전체는 책이고, 유전자는 그 책의 핵심을 관통하는 문장이라고 할 수 있다.

그런데 유전자에 문제가 생기는 경우가 있다. 같은 비유를 쓰자면, 한 문장에 오타가 생길 수도 있는 것이다. 오타도 치명적인 오타가 있고, 그냥 넘어갈 수 있는 오타가 있지 않나. 대부분은 오타가 나와도 그냥 넘어갈 수 있는 수준이다. 유전병이 될 수도 있지만 아무런 영향이 없을 수도 있다. 하지만 때로 심각한 오타가 있을 수 있다. 오타가 심하면 아이가 죽는 것이다.

이 오타를 수정하는 일을 유전자 교정(genome editing)이라고 부른다. 잘못된 부분을 말그대로 가위로 자르는 것이다. 그런데 가위를 갖다대기 전에 어디를 자를 지 미리 알아야한다. 원하는 부분을 정확하게 알아야 한다. 그래야 성공률이 높다. 어디를 잘라야 정확하게 유전자 교정이 될 지를 미리 알고, 성공률을 높이는 것을 AI로 계산한 것이라고 생각하면 된다. 수십억개의 변수를 줄여서 성공률을 높이고 비용도 낮출 수 있다.

-처음에 규제 얘기를 했는데, 미국은 데이터 활용에 대한 정부 입장이 한국과 많이 다른가.

"그렇다. 한국의 경우 (개인정보를 포함한) 데이터에 대해 지나친 규제가 있는 경우도 있다. 물론 이는 개인정보 해킹 등 보안성 문제와 늘 상충되는 이슈다. 유럽과 비슷하다. 유럽도 한국처럼 까다로운 규제를 운용한다. 반면 미국은 느슨하다. 큰 문제가 생길 경우 일벌백계하지만, 지금도 사용자들의 프로필 등 개인정보에 대한 비즈니스가 이뤄지고 있다. 페이스북은 스스럼 없이 하는 일을 한국의 네이버가 한다면 난리가 날 것이다. 뭐가 좋은 건진 모르겠지만, 규제의 차이가 기술적 차이를 만들고 있는 건 사실이다.

-중국과 격차가 벌어지고 있다는 지적도 나온다.

“AI는 한국이 한참 뒤에서 중국을 쫓는 상황이다. 중국이 우리를 쫓아온다는 건 착각이다. 가령 사물이 사람을 인식할때 쓰이는 기술을 컴퓨터 비전이라고 부르는 데, 그 분야에서 전 세계적으로 가장 중요한 돌파구를 만든 것이 바로 마이크로소프트 차이나에서 만든 레스넷(RES NET)이다. 구글이 이 기술을 채택했다. CCTV 등의 분야에서도 중국의 기술이 훨씬 앞서나가고 있다. AI 학계에서는 한국과 중국은 이미 비교 대상이 아니다.”

-올해 AI 분야에서 눈여겨 볼 트렌드가 있나.

“적대 신경망(GAN·Generative Adversarial Networks) 알고리즘 분야에서 엄청난 응용 기술들이 등장하고 있다. GAN 논문만 수백편씩 쏟아지고 있다. 알고리즘이 완성되어가고 있다는 인상을 받았다. 하드웨어적으로 이를 받쳐줄만한 기반이 된다면 완전히 새로운 종류의 AI 솔루션이 가능할 것 같다.

올해는 온디바이스(On-Device) 흐름이 강해질 것으로 본다. 쉽게 말해 스마트폰, 태블릿PC 등 모바일 기기 안에서 이뤄지는 AI 기술을 말한다. 스마트폰에 AI를 집어넣는 것이다. 글로벌 IT 기업들이 클라우드에 기반한 AI 솔루션 구현에 한계를 느끼기 시작했다. ‘분산’이 시작된 것이다. 스마트폰의 성능이 더욱 고도화하고, 그에 맞는 뉴로모픽(neuromorphic) 등 더욱 강력한 하드웨어가 등장할 것으로 보인다.”