Interview in
depth Trend

[Weekly BIZ] 感·통찰력만으론 안 된다… 빅데이터 분석 능력 없으면 도태된다

  • 남민우 기자

  • 입력 : 2016.12.17 03:00 | 수정 : 2016.12.19 09:09

    [6 Questions] 빅데이터 분석 소프트웨어 '하둡' 개발자… 더그 커팅 클라우데라 수석 아키텍트
    빅데이터 시대 연 하둡 프로그램… 여러 대 컴퓨터 활용, 병렬식으로 데이터 분석

    "(뉴욕 남동부) 새러토가 애비뉴 409번지 부근에서 총성(銃聲) 8발 확인."

    2015년 12월 4일, 미국 뉴욕 경찰국 소속 경찰관들의 스마트폰엔 이런 경고 메시지가 떴다. 해당 구역에서 순찰을 하던 경찰관이 즉시 현장으로 파견됐다. 경찰관은 경고 메시지가 가리킨 건물 옥상에서 탄피를 발견하고, 다시 스마트폰을 꺼내 이 건물에 지명수배범이 거주한 적이 있다는 정보를 확인했다. 그는 즉시 수색영장을 발부받아 수배범의 옛 거주지를 샅샅이 수색, 방금 전 사용된 권총 2자루를 발견했다. 이어 건물 주변에 숨어 있던 지명수배범을 현장에서 체포했다.

    [6 Questions] 빅데이터 분석 소프트웨어 '하둡' 개발자… 더글러스 커팅 클라우데라 수석 아키텍트
    뉴욕 경찰국이 빅데이터 기반 범죄 감시 프로그램 '샷 스포터(Shot Spotter)'를 활용해 신속하게 범인을 검거한 사례다. 샷 스포터는 뉴욕시 곳곳에 깔린 음성 센서 수천 개로 포착한 총성과 전자지도, 경찰 정보 데이터베이스(DB) 등을 종합적으로 분석해 범죄 발생 지역과 시간을 알려주고, 심지어 다음 범죄 가능성까지 예측한다. 사람의 귀로는 총성과 폭죽 소리를 정확하게 구별하지 못하지만, 샷 스포터는 거의 완벽하게 분간해 뉴욕시의 총격 범죄 사건 해결에 획기적인 도움을 줬다는 평가를 받는다.

    각종 데이터로 범죄자를 찾아내는 아이디어는 오래전부터 공상과학(SF) 영화에 등장했다. 그러나 10년 전까지만 해도 이를 현실에서 구현하려면 큰 장애물을 넘어야 했다. 데이터를 수집하고 저장하는 기술은 충분했지만, 기존 통계 프로그램으로 대용량 데이터를 분석하려면 많은 비용과 시간이 필요했다. 이 때문에 기업과 공공기관은 데이터 분석의 중요성을 알면서도 엄두를 못 냈다.

    빅데이터를 쉽게 분석할 길이 열린 것은 2006년 야후 엔지니어로 일하던 더그 커팅(Cutting·53·사진)이 '하둡(Hadoop)'을 개발하면서부터다. 하둡은 대용량 데이터를 적은 비용으로 더 빠르게 분석할 수 있는 소프트웨어다. 여러 대의 컴퓨터로 데이터를 분석하고 저장하는 방식으로 빅데이터 분석 비용을 대폭 낮췄다. 페이스북이 자동으로 사진 속 인물이 누군지 찾아주는 기술, 구글이 이메일과 검색 패턴을 분석해 '타깃 광고'를 보여주는 기술 등이 하둡의 대표적 성과다.

    뉴욕타임스 칼럼니스트 토머스 프리드먼은 "당신이 단 한 번도 들어보지 못했을 법한 소프트웨어인 하둡이 등장하고 나서야 비로소 빅데이터 분석이 가능해졌다"고 평가했다. 하둡을 개발한 커팅은 2009년 야후를 퇴사하고 빅데이터 소프트웨어 업체 클라우데라(Cloudera)에 합류, 현재까지 수석 아키텍트(설계자)로 일하고 있다. 최근 서울에 온 커팅을 만나 '빅데이터 시대'를 연 하둡의 개발 과정과 빅데이터 산업의 전망을 물었다.

    페이스북 / 구글 / IBM인공지능
    페이스북 / 구글 / IBM인공지능
    1 하둡은 어떤 프로그램인가.

    "10년 전에도 데이터는 널려 있었지만 이를 제대로 분석할 방법이 없었다. 컴퓨터 한 대에 정보를 저장하고 분석했기 때문이다. 예를 들어, 세계 최대 건설장비업체인 캐터필러는 굴착기나 트럭 등 자사 제품 구석구석에 센서를 부착해 실시간으로 건설 현장에서 사용되는 제품의 데이터가 본사에 전송되도록 했다. 이렇게 모인 데이터는 굴착기 등 제품이 일주일 안에 고장 날 가능성이 커졌을 때 제품을 구매한 고객에게 미리 '부품 교체가 필요하다'고 알려주는 데 쓰인다. 이 과정에서 하둡으로 만든 빅데이터 프로그램은 각 제품에서 초당 수만개 데이터를 실시간으로 수집해 분석한다. 과거에는 이렇게 방대한 데이터를 분석하는 것이 불가능했다. 하둡은 여러 대 컴퓨터를 활용해 병렬식으로 데이터를 분석하기 때문에 대용량 데이터를 단번에 분석한다. 빅데이터 분석에 필요한 마지막 퍼즐을 채워넣었다고 본다. 처음에는 하둡을 유료화할까 생각했지만, 더 많은 사람이 사용할 수 있도록 오픈소스(무료로 소프트웨어 소스코드를 공개하는 것) 형태로 개방했다. 덕분에 위키피디아처럼 각계각층 전문가가 하둡을 더 나은 방향으로 발전시켜나가고 있다."

    2 구체적인 활용 사례를 든다면.

    "미국 최대 금융회사인 뱅크오브아메리카는 금융거래 내역 수십억건을 분석해 금융 사기 방지 프로그램을 도입했다. 월트디즈니는 디즈니월드 방문객의 이동 패턴과 놀이기구 탑승률, 호텔 예약 정보, 디즈니TV 시청률 등 각종 데이터 간 상호 연관성을 분석해 디즈니월드의 개·보수 작업에 활용한다. 월마트는 구글 등 검색 엔진의 키워드를 분석해 마트 내 제품 배열에 활용한다. 2011년엔 인기 퀴즈쇼인 제퍼디(Jeopardy!)에서 하둡으로 만든 IBM의 인공지능(AI)이 퀴즈 달인을 꺾었다. 하둡 출시 초기에는 민간 기업들이 주(主) 사용자였지만, 최근에는 공공기관도 하둡을 빅데이터 분석에 활용하고 있다. 올해 초부터 UC샌타크루즈는 종양 환자들의 데이터를 모아 일반 환자들이 종양에 걸릴 가능성을 미리 예측하는 프로젝트를 진행 중이다."

    3 하둡을 개발한 계기는.

    "2000년대 초반 많은 기업이 데이터 활용 방안을 고민했다. 당시 대용량 데이터를 분석하려면 정보처리센터를 지어야 하는 등 많은 비용이 들었다. 더 적은 비용으로 데이터를 처리할 방법을 고민하던 도중 우연히 데이터를 여러 곳에 분산해 분석·처리하는 아이디어가 담긴 보고서를 접했다. 구글 직원이 2003년에 작성한 보고서였다. 보고서 내용을 토대로 2003년부터 개발을 시작해 야후에서 엔지니어로 근무하던 2006년 완성했다. 출시 당시에는 마이크로소프트, 오라클, IBM 등 주류 IT 기업까지 하둡을 가져다 쓸 줄은 몰랐다. '하둡'이라는 이름은 10년 전 두 살배기 아들이 코끼리 인형을 보고 옹알거리던 말이다. 갓난아기도 부를 수 있는 쉬운 이름을 붙이고 싶어 '하둡'이라고 지었다."

    더그 커팅 클라우데라 수석 아키텍트
    더글러스 커팅 클라우데라 수석 아키텍트 / 고운호 기자

    4 빅데이터는 앞으로 기업 활동에 어떤 영향을 미칠 것인가.

    "지금까지는 경험 많은 경영진이 감(感)과 통찰력에 의존해 다양한 결정을 했다. 하지만 이제 명확한 데이터 분석이 의사 결정 과정에서 핵심적인 역할을 하는 시대가 됐다. 앞서가는 기업은 빅데이터를 분석해 얻은 정보로 제품 품질을 끊임없이 향상시킨다. 사용자의 피드백을 주기적으로 반영하는 테슬라의 전기자동차가 대표적이다. 구글, 페이스북, 애플도 마찬가지다. 요즘 기업 실무진을 만날 때 '소프트웨어가 세상을 집어삼키고 있다'는 마크 앤드리슨(넷스케이프를 공동창업한 유명 벤처투자자)의 말을 종종 인용한다. 5년 후 빅데이터 분석 능력이 떨어지는 기업은 경쟁에서 뒤처질 것으로 전망한다."

    5 한국의 빅데이터 활용 수준은 어느 정도라고 보는가.

    "아직 초기 단계에 머무르고 있다. 빅데이터에 대한 관심은 크지만 정작 활용 범위는 좁은 편이다. 특히 에너지 기업과 자동차 회사는 빅데이터를 활용할 여지가 많다고 본다. 전통 제조업 분야 기업도 제품 개발에서 비용 절감 계획까지 다양한 분야에서 빅데이터 분석을 활용할 수 있다. 무엇이 잘못되고 있는지조차 모르면 개선책을 찾을 수 없다. 빅데이터 분석은 기업의 낭비 요소를 발견하는 데 큰 도움을 준다."

    6 고객 정보를 활용한 빅데이터 분석이 사생활 침해라는 지적은 어떻게 생각하나.

    "빅데이터 활용에 따른 사생활 침해 논란은 많은 고민거리를 던져준다. 소비자는 자신의 데이터를 활용하는 기업에 더 많은 권한을 요구해야 한다고 본다. 반대로 기업들도 소비자 대상 교육을 강화하고, 데이터 활용을 의사 결정에 반영할 때 그 파급효과를 더 세심하게 살펴야 한다. 아직 사생활 침해 가능성에 무감각한 기업 경영진도 있다. 특히 통신회사, 의료기관, 금융기관 등 소비자 정보를 많이 보유한 기관은 사생활 침해 논란에서 자유롭지 않다. 윤리적 관점에서 내부 규정을 만드는 것도 방법이다. 그러나 빅데이터 분석이 이제 막 활기를 띤 시점에서 정부가 데이터 활용을 규제하는 것은 반대한다."



    • 기사보내기
    • facebook
    • twitter
    • google
    • e-mail
  • Copyright ⓒ 조선일보 & Chosun.com