글로벌 정보기술(IT) 업체들이 '다크 데이터(dark data)' 발굴에 앞다퉈 뛰어들고 있다. 현재 활용되는 빅데이터는 위치정보나 신용카드 사용 기록, 검색 이력처럼 명확하게 분류가 가능한 것이 대부분이다. 반면 다크 데이터는 사람의 몸짓이나 군중의 함성, 사물의 냄새, 목소리에 담긴 감정처럼 분석이 어려운 데이터를 일컫는다. 뚜렷한 형태가 없다는 의미에서 비정형(非定型) 데이터로도 불린다. 전 세계 데이터의 80% 이상이 다크 데이터로 추산되지만 활용 방법이 마땅히 없어 대부분 버려졌다. 하지만 최근 인공지능(AI)과 센서기술이 발달하면서 다크 데이터를 이용해 새로운 서비스를 발굴하는 사례가 속속 등장하고 있다. 시장조사기관 가트너는 다크 데이터의 활용 범위가 앞으로 5년간 8배 이상 늘어날 것으로 내다봤다.

◇선수의 몸짓·관객의 함성도 데이터

미국 IBM은 최근 열린 제82회 미국프로골프(PGA) 마스터스 대회에서 AI '왓슨'으로 제작한 하이라이트 영상 서비스를 선보였다. 왓슨이 4일간의 경기 영상을 전부 분석해 자동으로 정리한 것이다. 왓슨은 갤러리의 함성과 중계진의 뉘앙스, 선수와 캐디의 제스처 등을 데이터로 변환해 집계했다. 주변 소리가 크거나 선수의 몸짓이 클수록 중요한 장면으로 평가했다. TV 중계에서는 조던 스피츠 같은 유명 선수의 영상만 볼 수 있었지만, 왓슨은 하위권을 포함해 모든 선수가 4일간 어떤 경기를 펼쳤는지 각각 하이라이트를 만들어냈다.

왓슨은 20년치 마스터스 영상을 학습하면서 하이라이트 제작 방법을 스스로 배웠다. 왓슨이 평가한 마스터스 최고의 장면은 2005년 타이거 우즈의 대회 최종 4라운드 16번 홀 칩샷이었다. 당시 우즈가 러프에서 날린 공은 홀 왼쪽 6m 지점에 떨어졌다가 갑자기 90도로 꺾이면서 경사를 타고 내려가더니 홀 앞에서 약 1.5초 동안 멈춰 섰다가 홀컵에 빨려 들어갔다. IBM은 영국 윔블던 테니스 대회에서도 하이라이트를 자동 편집하는 기술을 선보이고 있다.

일본 후지쓰는 체조경기용 AI 심판을 개발하고 있다. 인간 심판은 하루 8시간 이상 채점을 하기 때문에 집중력과 일관성 유지가 쉽지 않은데, 이를 AI로 보조하겠다는 것이다. AI 심판은 선수의 몸에 레이저를 1초당 230만회 쏘아 움직임을 입체(3D)로 재구성한 뒤, 이 데이터를 분석해 선수가 팔꿈치와 무릎을 구부린 정도를 정밀하게 측정해낸다. 후지쓰는 향후 피겨스케이팅과 다이빙 경기용 AI 심판도 만들 계획이다. 데이터가 쌓이면 장기적으로는 사람 심판을 대신하는 완벽한 AI 심판도 만들 수 있다.

◇전 세계 데이터의 80%가 미지의 영역

IBM이 인공지능 왓슨을 이용해 만들어낸 마스터스 대회 하이라이트 장면. 모든 선수를 추적해 중요한 장면만 추려낼 수 있다.

냄새도 중요한 다크 데이터이다. 일본 도요하시기술대 연구팀은 최근 '냄새 카메라'를 개발했다. 반도체 칩에 특수한 막을 입혀 5가지 냄새 성분의 비율을 측정해 특정한 도형으로 보여주는 기술이다. 육안으로는 구분이 어려운 물이나 소주 방울을 카메라로 찍으면 어떤 성분인지 바로 알 수 있고, 같은 냄새도 강도에 따라 도형 모양이 바뀐다. 냄새 데이터를 누구나 이해할 수 있는 시각 데이터로 바꿔주기 때문에 무궁무진한 서비스를 만들어낼 수 있다.

일본 히타치제작소는 몸길이가 1㎜ 정도인 선충(線蟲)의 후각을 활용한 암 검진법을 내년 말 상용화할 계획이다. 선충은 암 환자의 소변 냄새를 맡으면 특이한 움직임을 나타낸다. 이를 센서 기술과 결합해 암 환자 진단에 활용하겠다는 것이다. 실제로 연구팀이 105명의 암 환자를 대상으로 임상 시험한 결과 진단 정확도가 90%를 넘었다. 특히 췌장암이나 대장암처럼 조기 발견이 어려운 암에 효과가 있을 것으로 기대를 모은다. 미국 하버드비즈니스리뷰는 "기업들이 다크 데이터를 제대로 활용하는 경우는 1% 미만"이라며 "그동안 데이터로 취급하지 않던 정보를 분석 가능한 데이터로 전환·응용하는 능력을 갖춘 기업이 이 시장을 선도할 것"이라고 전망했다.


☞다크 데이터(dark data)

정형화된 숫자나 문서와 달리 인간의 동작이나 냄새, 소리 등 쉽게 분류·정리할 수 없는 비정형 데이터다. 지금까지는 활용하기 힘든 쓸모없는 데이터로 취급받았다. 인공지능과 센서의 발달로 다크 데이터에서 유의미한 정보를 추출해 새로운 빅데이터 금맥(金脈)으로 각광받고 있다.