찰랑찰랑한 샛강에서 물장구치던 사람들은, 물이 불어 넓은 강이 생기자 수영할 맛이 난다고 환호했다. 하지만 대홍수가 몰아닥치고 강둑이 무너지자 물이 사람을 덮었다. 사람들은 허우적거리며 어쩔 줄 몰라했고 물을 무서워했다. 그러던 어느 날, 범람하는 물 위로 배를 띄우고 새로 생긴 물길을 읽어내는, 눈 밝은 현인(賢人)들이 나타났다. 물길을 읽고 물을 타고 다니는 현인들의 시대가 이로부터 열렸다.

우화 같은 이 비유에서 '범람하는 물'을 '범람하는 데이터'로만 치환하면, 이 장면들은 오늘날 벌어지는 정보 환경의 급변과 흡사하다.

바야흐로 '빅 데이터(Big Data)' 시대다. 빅 데이터란 마치 범람하는 홍수처럼, 인간의 처리·관리 용량을 훨씬 넘어설 정도로 거대하게 생성된 데이터 집합을 뜻한다.

스위스 제네바에 위치한 유럽입자물리연구소(CERN)의 컴퓨터 센터. 월드 와이드 웹(www)의 발상지이자, 거대한 데이터를 신속하게 처리하는 대용량 컴퓨터 시설로 잘 알려져 있다.

시장조사 기관 IDC에 따르면, 지난해 전 세계에서 새롭게 생성되거나 복제된 정보량은 1.8제타바이트(1.8조기가바이트)를 넘어섰다. 이는 2시간짜리 HD(고화질) 영화 2000억편에 해당한다. 우리나라 국민 전체가 18만년 동안 트위터에 1분당 3개씩 글을 올린 것과 같다. 더구나 전 세계의 디지털 정보량은 약 2년마다 2배로 증가하는 추세다.

예전에 사람들은 이런 어마어마한 데이터양에 눌려 제대로 덤벼들 엄두를 내지 못했다. 기술적 한계로 저장하기도 어려웠고, 간신히 저장을 하더라도 처리·분석해서 새로운 의미나 통찰을 얻어내기는 더욱 어려웠다.

하지만 상황이 달라졌다. IT 기술이 첨단화하고 데이터를 분석하는 이론이나 소프트웨어가 눈부시게 발전하면서, 범람하던 데이터의 물길을 찾아 분석·처리를 하게 되고 그 안에서 의미를 뽑아내기 시작했다. 거대한 데이터가 숨을 쉬기 시작하면서 '빅 데이터' 시대는 막을 올렸다.

IBM과 구글의 번역 프로그램 대결은 빅 데이터 시대를 보여주는 대표적 사례다. 지난 40년 동안 IT 전문가들은 컴퓨터가 명사·동사·형용사 등 단어를 맥락 속에서 인식하고 번역해내는 프로그램을 개발하기 위해 노력해왔다. IBM과 구글이 대표 기업이었다. 두 회사는 전문가들이 번역한 문서를 데이터베이스에서 통계적으로 분석해 번역 패턴을 만들 수 있다고 생각했다.

두 회사의 길은 달랐다. IBM은 캐나다 의회의 장서 수백만권을 활용해 영어·불어 자동 번역 프로그램을 개발했다. 구글은 다른 방식을 사용했다. 수많은 구글 사용자들이 유럽연합 내의 문서 수억건을 활용해 50개 언어를 서로 번역하는 프로그램을 만들었다. 구글은 데이터의 질뿐만 아니라 엄청난 양의 데이터에서도 패턴과 의미를 뽑아낼 수 있음을 보여줬다.

빅 데이터는 올해 IT 분야에서 가장 큰 화두로 떠오르고 있다. 올해 다보스포럼에서는 빅 데이터 관련 세션이 4개 열릴 정도로 핵심 키워드가 됐다. 영국의 이코노미스트는 최근 빅 데이터 특집 기사에서 "곳곳에 존재하는 데이터의 효과적 분석을 통해 전 세계가 직면한 환경·에너지·식량 문제를 해결할 수 있을 것"이라고 진단했다.

현재 빅 데이터 기술 활용에 가장 촉각을 곤두세우는 곳은 마케팅 분야이다. 빅 데이터 기술이 발전하면서 예전에는 의미 부여가 힘들었던 대용량 데이터를 분석할 수 있기 때문에, 소비자의 심리나 행태를 읽어내고 보다 정교한 마케팅이 가능해진 것이다.

송길영 다음소프트 부사장은 "1인 미디어 시대에 개인들이 남기는 수많은 글이 곧 빅 데이터"라며 "이를 분석하면 소비 트렌드가 보이고 기업이 가야할 길을 발견할 수 있다"고 말했다. 예를 들어 최근 3년간 SNS(소셜네트워크서비스) 데이터 2억건을 분석해보니, 카페에 대한 고객들의 생각이 단순히 조용하고 한적한 곳에서 예쁘고 편한 곳, 책 읽기 좋은 곳으로 바뀌었다는 것이다. "이런 분석은 북카페의 유행과 성장 가능성을 보여준다"는 게 그의 진단이다.

사람들이 트위터나 페이스북 같은 SNS를 통해 자기 경험과 느낌을 공유한다. 이런 천문학적인 데이터를 분석할 인프라가 있다면 정확한 시장 예측과 정교한 마케팅을 구사할 수 있다. 실제로 미국과 유럽의 선진국에서는 이런 분석 툴을 기업에 제공하는 회사가 속속 등장하고 있다.

빅 데이터는 산업 각 분야의 효율 증진과 비용 감소에도 기여하고 있다. 매킨지 분석에 따르면, 미국 의료 산업은 빅 데이터를 제대로 활용하면 비용 약 3300억달러 절감 효과를 거둘 것으로 전망된다. 이는 미국 정부 의료 예산의 70~80%에 이르는 금액이다. 유럽 전체의 공공 분야가 빅 데이터 분석을 활용한다면 그리스 국가 예산에 맞먹는 비용 2500억유로를 절감할 수 있다는 게 매킨지 분석이다.

정치에서도 빅 데이터 활용 여부는 승패의 관건이다. 올해 열릴 미국 대통령 선거도, 한국의 총선과 대선도 빅 데이터 분석에서 승패가 갈릴 것으로 많은 전문가는 내다보고 있다. 바야흐로 통찰은 이제 빅 데이터 안에 담겨 있다.

▶ 빅 데이터(Big Data)

기존의 데이터베이스 관리 시스템이 수집·저장·관리·분석할 수 있는 역량을 넘어설 만큼 거대해서 통제하기 힘든 데이터 집합 또는 이를 분석하는 기법. 온라인과 모바일 등을 통해 실시간으로 정보가 넘나들면서 데이터양은 급증하고 있으며 이를 분석하는 툴도 발전하고 있다.