[Tech & BIZ] IT 기업들 "잠자는 '다크 데이터'를 깨워라"

조선일보
  • 김충령 기자
    입력 2019.12.05 03:10

    과거 검색 기록 등 방치된 데이터… 분석 기술이 고도화되면서 주목

    美IBM, 편집된 PGA 경기 영상 중 선수 몸짓 등 분석해 주요장면 뽑아
    日, 냄새 데이터로 성분까지 파악

    "개인 정보 유출 등 피해 우려도"

    축구 경기에서 카메라 10여대로 촬영한 20시간 이상 영상 중 '팬들의 함성'을 담은 부분은 골이나 반칙 상황에서 관중의 반응을 보여주는 용도 외엔 대부분 쓰지 않고 버려지는 정보다. 포털 이용자들이 자료 검색을 하고 난 뒤 PC에 남아 쌓여 있는 검색 기록(로그 데이터) 역시 일정 기간이 지나면 그냥 버려진다. 이렇게 당장 쓸모가 없어 방치되다 사장되는, 혹은 수집한 후 저장만 해놓고 분석해 활용하지 못한 다량 데이터를 '다크 데이터(Dark Data)'라고 한다. 값비싼 저장 장치의 용량만 차지해 천덕꾸러기 취급을 받던 이런 '다크 데이터'가 최근 새롭게 주목받고 있다. 인공지능(AI)을 이용한 자동 데이터 분석 기술이 고도화하면서 애플, 아마존, 구글, IBM 등 대형 IT(정보기술) 기업들이 이런 다크 데이터를 가공, 다시금 유용한 데이터로 활용하는 분야에 뛰어들고 있어서다.

    '아직 발견되지 않은' 데이터

    우리가 주로 활용하는 데이터는 형식에 맞춰 정확한 수치로 잘 정돈된, 이른바 정형화(定型化) 된 것이 대부분이다. 그러나 소리의 크기, 냄새의 정도와 같은 비(非)정형 정보에서 숨어 있는 가치를 찾아낼 수 있다.

    유용 데이터보다 훨씬 큰 '다크 데이터'
    미국 IBM이 지난해 열린 미 프로골프(PGA) 마스터스 대회에서 'AI 왓슨'으로 제작한 하이라이트 영상 서비스가 일례다. 왓슨은 당시 총 4일간 경기 영상 전체를 분석해 자동으로 정리했다. 이때 관중의 함성이나 선수의 몸짓이 큰 순서로 데이터를 분석해 중요 장면을 뽑았다. TV 중계되는 편집 영상에선 유명 선수의 영상이 반복 방영된다. 하지만 왓슨이 제작한 영상에선 하위권이지만 관중에게 감동을 준 선수들의 모습도 담기며 한 편의 다큐멘터리가 됐다. 과거엔 '통편집'됐을 촬영분이 새로운 생명력을 얻으며 의미 있는 가치를 창출해 낸 것이다.

    애플은 지난 2017년 다크 데이터 처리 방법을 연구하는 영국 기업 래티스 데이터(Lattice Data)를 인수하면서 이 분야에 뛰어들었다. 애플은 이 회사의 기술을 음성 비서 시리(Siri)와 결합, 다양한 음성 정보에서 사용자와 관련된 여러 정보를 파악할 수 있을 것으로 추측된다. 아마존도 미국의 다크 데이터 분석업체 '하비스트(Harvest)'를 인수해 이 회사의 사이버 보안 부문을 강화할 전망이다. 하비스트는 서비스 사용자의 행동 데이터를 분석해 해킹을 방지한다. 정형화하기 어려웠던 '냄새'를 데이터화하는 일종의 다크 데이터 활용 기술도 등장했다. 일본 도요하시기술대 연구팀이 개발한 '냄새 카메라'는 반도체 칩에 특수한 막을 입혀 냄새 강도에 따라 성분을 파악한다. 육안으로 구분이 어려운 물이나 소주를 냄새로 구별하고, 그 성분까지 알아낸다.

    개인 정보 유출 우려 등 숙제도

    IT 기업에서는 각종 검색·접속 기록 등 로그 데이터가 많이 생성된다. IT 업계는 이러한 로그 데이터를 활용하면 보안 기술 향상이나 운영 효율화 방안을 찾을 수 있을 것으로 본다. 업계에선 이렇게 가치를 찾지 못하고 쌓여 있는 다크 데이터가 기업 데이터의 약 80%에 달할 것으로 추산한다. 업계 관계자는 "당장은 이를 어떻게 활용할지 모호할 뿐, 불필요한 것은 아니다"라며 "그런 측면에서 '아직 발견되지 않은 데이터'라고 보는 것"이라고 했다.

    하지만 다크 데이터의 활용이 말처럼 쉽지만은 않다. 미국의 데이터 분석 업체 '스플렁크(Splunk)'가 최근 주요 IT 기업을 설문조사해 보니, 77%가 "우선 다크 데이터의 (존재) 파악이 최우선"이라고 답했다. 또 모든 다크 데이터가 숨은 가치를 갖고 있는 것도 아니다. 시장조사기관 가트너에 따르면 실제 경영·마케팅에 가치가 있는 다크 데이터는 15% 수준에 그친다.

    특정 분야에서 다크 데이터 활용도를 높이기 위해선 데이터 공유 플랫폼 구축이 선행돼야 한다는 지적도 있다. 예컨대 의료·제약 분야에서 다크 데이터 분석 방식이 병원마다 다르면 의미있는 자료를 얻기 어려워진다.

    또 개인 정보 유출 등의 피해 우려도 상존한다. IT 업계 관계자는 "다크 데이터가 중요한 저작권이나 개인 정보를 담고 있다면 유출에 따른 피해가 발생할 수도 있다"며 "발굴 못지않게 활용상 안전장치 마련도 중요하다"고 했다.


    내가 본 뉴스 맨 위로

    내가 본 뉴스 닫기