인공지능, 빅데이터 없으면 무용지물… "데이터 사용 동의는 필수"
새 정부, 4차 산업 혁명 성공시키려면 빅데이터 활용에 대한 사회적 합의 이끌어 내야

지난해 알파고와 이세돌의 세기의 바둑 대결 이후, 인공지능(AI)과 빅데이터가 4차 산업혁명의 최대 이슈로 급부상 했습니다.

AI는 디지털 환경에서 생성되는 대용량 데이터인 ‘빅데이터’ 없이는 무용지물입니다. AI는 빅데이터의 수집과 신경망 분석으로 똑똑해져 비로소 주인인 사용자의 명령을 수행할 수 있기 때문입니다. 문제는 사용자의 ‘동의’ 없이는 개인 데이터를 무단으로 축적하고 사용할 수가 없다는 점입니다.

국내 현행 법률에서 사용자의 동의가 필요한 개인정보는 살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통해 개인을 알아볼 수 있는 정보(해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합해 알아볼 수 있는 것을 포함)를 의미합니다. 여기는 특정 사용자의 음성까지 포함합니다.

이동훈 고려대 정보보호대학원 원장은 “현행법상 동의 없이는 개인정보를 사용할 수 없기 때문에 AI 산업 발전에 있어 큰 걸림돌이 되고 있다”고 말했습니다.

SK텔레콤 AI 비서 ‘누구’(왼쪽)와 삼성전자 AI 비서 ‘빅스비’가 활성화 된 모습

◆ ‘아리아’ ‘빅스비’라 부르는 이유... 데이터 사용권 동의 때문

지난해 SK텔레콤(017670)이 출시한 AI 비서 ‘누구’와 지난달 삼성전자(005930)가 내놓은 AI 비서 ‘빅스비’는 사용자의 음성 빅데이터를 수집해 지능을 높입니다. 두 서비스 역시 사용자의 동의 없이 음성 빅데이터를 수집할 수 없기 때문에 SK텔레콤과 삼성전자는 약관 사전 고지와 서비스 호출 등의 절차를 통해 사용자의 음성 데이터 사용권을 취득합니다.

가령, 삼성전자 AI 비서 빅스비가 탑재된 갤럭시S8의 소프트웨어 이용약관을 살펴보면 ‘음성 기반 AI 서비스를 제공하기 위해 사용자의 음성정보를 수집할 수 있다’는 사전 고지를 포함하고 있습니다.

사용자는 누구에게 명령을 내릴 때 ‘아리아'라고 부르고, 빅스비에게 명령을 내릴 때는 빅스비 버튼을 누르거나 ‘빅스비'라고 부릅니다. 법률적으로는 사용자가 AI 활성화 명령어를 불러 AI 디바이스를 작동시켜면 음성 정보를 수집할 수 있다는 사전 고지에 동의한 것으로 간주합니다.

이에 대해 삼성전자 관계자는 “빅스비 첫 실행시 빅스비 개인정보 수집 이용 동의서'를 통해 상세 내용을 알리고 고객에게 동의를 받고 있다”며 “빅스비라고 부르는 것은 빅스비 서비스를 이용하기 위해 서비스를 호출하는 몇가지 방법 중 하나다”고 말했습니다.

SK텔레콤 관계자는 “누구의 경우, 하루종일 사용자의 모든 음성 정보를 수집하는 것이 아니라 아리아라고 호출 했을때만 사용자의 동의를 받아 음성 정보를 수집하는 것”이라고 설명했습니다.

삼성전자 ‘갤럭시S8’ 소프트웨어 이용약관(왼쪽)과 ‘빅스비’ 개인정보 처리방침

법학자들은 이를 ‘사실적 계약관계론’이라는 이론으로 설명합니다. 이 이론에 따르면 유료 주차장에 주차를 하는 사실만으로도 주차계약의 동의가 있는 것으로 간주해 법적효력이 발생합니다. ‘빅스비'라고 부른 것만으로도 삼성전자가 사전 고지한 음성 데이터 활용에 동의한 것으로 보는 것입니다.

그렇다고 아리아, 빅스비처럼 모든 서비스에 일일이 이름을 부르며 데이터 사용 동의를 구하는 게 쉽지 않습니다. 1초에도 수십억개의 정보가 생산되기 때문입니다.

김수연 한국경제연구원 연구원은 “기업들은 4차 산업혁명의 성공을 위해선 빅데이터에 대한 규제 빗장을 풀어야 한다고 주장하지만, 데이터의 무분별한 수집은 사생활 침해의 문제를 일으킬 수 있다"면서 “빅데이터 산업의 발전은 개인정보 보호 이슈를 함께 동반하게 되며, 개인정보의 유출과 지나친 사생활 보호 모두가 문제가 되는 ‘규제적 딜레마’를 발생시킨다”고 말했습니다.

◆ 동의 없이 빅데이터 활용할 해법은 ‘비식별화’

전문가들은 프라이버시 보호와 인공지능 산업 발전이라는 두가지 딜레마를 모두 잡을 수 있는 대안으로 데이터 ‘비식별화’를 통한 활용을 주장하고 있습니다.

호주의 정보감독관 티모시필 그램은 비식별화 기술을 로켓 사이언스(rocket science)에 비유한 바 있습니다. 지난 1960년대 로켓이 인간에게 무한한 가능성을 열어 주었듯이 비식별화 기술이 프라이버시 문제를 해결하고 빅데이터를 활용할 수 있게 해 줄 ‘문샷(moonshot, 달탐사에 버금갈만한 획기적 기술)’이라는 겁니다.

개인정보를 비식별화하는 방법에는 여러가지가 있습니다. 직접적 조치(변수 삭제, 범주화, 치환, 변형 등)를 하는 방법과 자료를 제공⋅이용하는 방식을 통제하는 방법 등 크게 2가지로 나눌 수 있습니다.

구체적으로 식별자(성명, 주민등록번호, 환자번호, 주소, 연락처 등)를 삭제하는 방법, 식별자 대신 가상의 ID를 부여하는 가명처리 방법이 있고, 간접식별자라고도 불리는 준식별자(연령, 성별, 직업, 조사일 등)를 일반화, 감추기, 잡음추가, 하부집단 샘플링 등으로 처리하는 방법도 있습니다.

일본의 경우 최근 개인정보를 충분히 가공(비식별화)하면, 본인의 동의가 없어도 상품이나 서비스 개발을 위한 2차 이용이 가능하도록 법률을 개정했습니다. 정부가 기업들이 고객으로부터 얻은 개인정보를 가공하면 본인 동의 없이도 빅데이터 매매를 허용한 것입니다.

국내에서는 ‘비식별 조치 가이드라인’과 개인정보 법령 통합 해설서 등이 발표됐지만, 비식별화 데이터 사용에 대한 법률 정비가 안돼 있습니다.

김정선 SK텔레콤 빅데이터 사업부문 부장은 “아직 현행법에는 비식별화된 데이터의 결합 사용이나 동의 없이 활용할 수 있도록 허용하는 명시적 규정이 없기 때문에 일선 기업들에서는 빅데이터를 활용하는 것에 어려움이 있다”며 “비식별화 정보에 대한 사용을 명문으로 규정할 필요가 있다”고 말했습니다.

국내 개인정보 활용을 위한 정책 논의경과

새 정부, 빅 데이터 활용에 대한 사회적 합의 이끌어 내야

해외 주요국과 비교할 때 우리나라는 빅데이터 활용 초기단계에 있습니다. 특히 국내는 주로 기업 내부 데이터를 활용해 한 가지 유형을 중심으로 빅데이터를 활용하는 반면, 해외는 기업 내⋅외부 데이터를 골고루 활용하며 복수의 데이터를 조합해 활용하고 있습니다.

빅데이터 시장 국내외 비중 비교

KT경제경영연구소 디지에코 보고서에 따르면, 한국의 경우, 빅데이터 기술 수준에 있어서 솔루션과 시스템 분야의 기술수준은 높지만 서비스 분야와 관련된 데이터 거래, 분석, 컨설팅 등의 기술수준은 해외에 대비해 3년 가량 뒤처진 것으로 분석됐습니다.( 2015년 기준)

델 컴퓨터의 CEO 마이클 델은 지난해 5월 ‘EMC World 2016’ 콘퍼런스에서 “데이터를 지배하는 자가 미래를 지배한다”고 선언했습니다. 4차 산업혁명 시대의 근간이 빅데이터에서 시작된다는 점을 강조한 것입니다.

‘빅데이터가 만드는 세상’의 저자로 유명한 빅토르 마이어 쇤베르거 옥스퍼드대 교수는 “빅데이터 시대를 맞이해 데이터 사용에 관한 제도 개선과 사회적 합의가 필요하다"고 강조했습니다.

10일 출범한 문재인 정부는 산업계 전문가들이 참여하는 민관 협력 체계를 구축해 4차 산업혁명을 주도하겠다고 공언했습니다. 대통령 직속 ‘4차산업혁명위원회'를 설치해 전기차·자율주행차·신재생에너지·인공지능(AI)·3D(입체)프린팅·산업로봇 등 핵심 기술 분야 지원에 나선다는 계획입니다.

4차 산업 혁명이 성공하려면, AI 기술 진화의 뼈대가 되는 빅데이터을 어떻게 활용할 것인지, 프라이버시는 얼마나 보호할 것인지에 대한 사회적 합의를 이끌어내고 이를 법적으로 뒷받침하는 것이 무엇보다 시급해보입니다.

빅데이터의 혜택과 인류의 선택을 다룬 기획기사 표지

빅데이터가 산업에 활용된 사례의 선두 주자는 단연 구글입니다. 일례로 2008년 이후 구글은 해마다 미국질병통제센터(CDC)보다 열흘가량 일찍 독감 유행 시기를 예측했습니다. 독감 증세를 보이는 사람이 늘어나면 구글에 ‘독감’ 관련 키워드를 검색하는 빈도가 높아지기 때문입니다.

이처럼 구글은 ‘데이터 양이 많으면 많을수록 얻을 수 있는 정보의 품질이 좋아진다’는 사실을 인터넷 검색에서 보여주고 있습니다. 접근할 수 있는 모든 웹 페이지를 탐색해 제목과 내용이 검색어와 얼마나 밀접한 관계가 있는지 데이터를 축적하는 거죠.

애플은 아이폰, 애플워치 등을 통해 개인의 심박수나 혈압 등 건강정보를 수집하고 있습니다. 이를 통해 헬쓰케어 서비스를 제공하는 거죠.

대형마트 ‘월마트’는 빅데이터를 주문에 활용하고 있습니다. 점포 내 재고량 또는 어떤 고객이 어떤 상품 구매하는지 등을 데이터화해 직접 주문을 넣지 않아도 공급업체에서 알아서 상품을 보내도록 하는 시스템을 구축하고 있습니다.

온라인 쇼핑몰 ‘아마존’도 빅데이터 활용 역사가 깊습니다. 도서 구매 데이터를 분석해 특정 책을 구매한 사람이 다시 구매할 것으로 예상되는 도서를 추천해주는 추천 시스템을 개발했습니다.

빅데이터 활용이 가져오는 문제점도 있습니다. 2015년 뉴욕타임스는 부모도 몰랐던 딸의 임신 사실을 대형마트 마케팅팀이 알아낸 사실을 보도했습니다. 미국 대형마트 ‘타깃’의 미니애폴리스 점포에서 한 여고생에게 아기 옷과 유아용품 할인쿠폰을 보내자, 부모가 매장을 찾아와 “미성년자에게 임신을 부추는 것이냐”며 항의를 하는 일이 있었습니다. 알고 보니 실제 여고생인 딸은 임신상태였습니다.

마트의 빅데이터 전문가들은 고객의 25가지 구매 행태를 분석하면 임신과 출산을 정확하게 예측할 수 있다는 사실을 확인했습니다. 고객 데이터베이스에 이를 적용했고 할인쿠폰을 보낸 것이죠. 대형마트는 축적된 빅데이터 분석을 통해 고객이 가족에게도 알리지 않은 비밀을 찾아낸 겁니다. 개인의 은밀한 사생활까지 기업이 알수 있다는 겁니다.

2013년에는 미국 국가안보국(NSA)이 지구 상 모든 국가의 데이터를 수집한 사실이 알려지면서 전 세계가 발칵 뒤집혔습니다. 국가안보국은 구글, 페이스북, 야후, 스카이프, 유튜브, 애플, ADL, MS 등 주요 IT 기업들이 사용하는 서버 컴퓨터에 접속해 사용자 정보를 수집하고 분석했습니다. 여기에는 이메일부터 영상, 사진, 음성데이터, 파일전송내역, 통화기록, 접속정보 등 온라인 활동 전반이 포함됐습니다.