김용대 서울대 교수

케네디 대통령의 미망인 제클린과의 재혼으로 화제를 낳은 그리스의 선박왕 오나시스는 "비즈니스에서의 성공은 남들이 모르는 유용한 정보를 아는 것"이라고 했다. 빅데이터 분석도 궁극에는 새롭고 유용한 지식이나 정보를 찾는 것이 목적이다. 새롭다는 뜻은 그전까지 사람들이 몰랐던 것을 말한다. 빅데이터에서 새 정보를 찾는 방법 중 하나는 데이터를 세분화하는 것이다. 가령 프로야구 한국시리즈가 저녁 6시에 시작된다고 치자. 이런 경우 '직장인들의 30% 정도가 일찍 퇴근해 10시까지 경기를 시청했다'거나 '경기 중 피자집과 치킨집의 매출이 40% 정도 늘었다'라는 정도의 정보는 기존 데이터 분석을 통해서도 쉽게 알 수 있다.
 
새로운 정보란 여기서 한 발 더 나간다. '경기 후 쇼핑몰 접속량이 평소보다 25% 증가했는데 매출의 40%가 야구용품이었다'거나 '쇼핑 고객 중 30대 남자의 20%는 다음날 데이트 약속을 잡았고, 이 중 50%의 데이트 장소는 강남역 근처였다'라는 식이다. 보다 세분화된 정보다. 이 정도는 돼야 빅데이터라 할 수 있다.
 
◆ 빅데이터의 함정: 세분화의 오류
 
하지만 산이 있으면 골이 있듯이, 빅데이터를 통해 가능해진 세분화된 정보는 잘못 사용될 경우에는 '세분화의 함정'에 빠지게도 한다. 그 만큼 빅데이터에는 관측된 수치도 많고 관련 변수도 많기 때문이다. 자료의 세분화를 통해 만들어낼 수 있는 정보의 수도 무궁무진하다. 이 허다한 정보 중 실제로 유용한 정보는 아주 소수라는 것이 빅데이터 세분화의 함정론이 제기하는 문제다.
 
세분화의 함정의 사례로 주식 가격 예측을 들 수 있다. 가령 특정 주식의 등락 여부를 맞힌다고 하자. 20일 연속으로 적중시키기란 전문가들도 어려운 일이다. 일반적으로 주식값이 오르거나 내릴 확률은 각각 50%인데(똑같이 유지되는 경우는 제외하자), 과거 가격에는 의존하지 않는 것으로 알려져 있다. 이를 '주식 가격의 랜덤 워크 (임의 보행)'이론이라고 부른다. 1965년 미국 시카고대의 유진 파마 교수가 처음 제안한 것으로, 현대 투자론의 근간이 되는 아주 중요한 이론이다.
 
이처럼 예측이 어려운 주식 가격의 등락을 20일 연속으로 맞힌다면 대단히 놀라운 일일 것이다. 또 이런 예측에 사용된 정보는 아주 유용한 새로운 정보로 여겨질 것이다. 하지만 사실 따지고 보면 대단할 것도 없다. 동전을 던져 주식 가격의 등락을 맞춘다고 생각해 보자. 이 방식을 통해 20일 연속으로 주가 등락을 정확히 예측할 확률은 0.5의 20제곱이다. 정확히 1,048,576분의 1로 대단히 낮다.
 
하지만 만약 이런 시스템 100만개를 돌릴 경우에는 상황이 달라진다. 100만개의 시스템 중 20번 연속으로 주가의 등락을 정확히 맞힐 시스템이 하나도 없을 확률은 (1-1/1,048,576)의 1,00만제곱으로 38%가 된다. 따라서 적어도 하나의 시스템이 20일 연속으로 주식가격을 정확히 예측할 확률은 62%가 된다.
 
물론 우수한 예측력을 발휘한 시스템이 장래에도 계속 예측을 잘 할 거라는 보장은 전혀 없다. 누군가가 당신에게 20일 연속으로 주가의 등락을 정확히 예측한 시스템이나 모형을 자랑한다면, 무작정 놀랄 게 아니라 예측에 사용된 전체 시스템 또는 모형의 수가 몇이었는지를 물어봐야 할 것이다.
 
◆ '투자의 神'도 알고 보면 대단치 않아
 
빅데이터 세분화 함정의 실제 예를 포트폴리오 투자에서 찾아볼 수 있다. 주식 가격의 랜덤 워크 이론과 더불어 투자 이론 분야에서 가장 중요한 것 중 하나가 포트폴리오 이론이다. '계란을 한 바구니에 담지 말라'라는 격언으로 유명한 이론이다. 쉽게 말해 주식에 투자할 때는 한 가지 주식에 모든 돈을 거는 것보다 다양한 주식에 골고루 분산하는 것이 유리하다는 얘기다.
 
포트폴리오 이론에서 중심이 되는 이론 중 하나는, 어떤 식으로 포트폴리오를 구성하든지 펀드의 수익률은 주식시장의 수익률, 즉 주가지수의 수익률보다는 좋을 수가 없다는 것이다.
 
뉴밀레니엄을 전후해 미국 월가에서 전설적인 실적을 기록한 펀드가 있었다. 이름하여 '레그 메이슨 밸류 트러스트 펀드'. 이 펀드는 1991~2005년 15년 연속으로 S&P500 지수 대비 초과 수익률을 달성했다. 운용자인 빌 밀러는 투자 분야에서 신의 경지에 들어선 것으로 평가 받았다. 하지만 여기에는 통계 상의 착시 효과가 숨어있었다. 밀러는 정말 '신의 경지'에 육박하는 투자 기량을 가졌던 걸까. 따져보자.
 
먼저 월스트리트에는 수많은 펀드매니저가 활동하고 있다는 사실에 주목해야 한다. 게다가 밀러는 40년 동안 펀드매니저로써 활동을 해왔다. 월스트리트에서 밀러처럼 40년 간 펀드투자자로 활동한 사람이 1000명이라고 가정해 보자. 이때 적어도 한명의 펀드투자자가 연속해서 15년 동안 주가지수보다 많은 수익을 올릴 확률은 얼마나 될까?
 
먼저 모든 펀드투자자가 주가지수보다 많은 수익을 올릴 확률은 50%라고 하자 (주가지수보다 적은 수익을 올릴 확률도 50%). 이 가정 하에서 한 명의 펀드투자자가 15년 연속으로 주가지수보다 높은 수익을 올릴 확률은 0.5의 15제곱으로 32,768분의 1이 된다. 이제 1000명의 펀드 투자자 중에서 전원이 15년 연속으로 주가지수보다 높은 수익을 올리지 못할 확률은 (1-1/32,768)의 1000제곱으로 대략 0.97이 된다.
 
따라서 적어도 한 명의 펀드투자자가 15년 동안 연속으로 주가지수보다 좋은 수익률을 얻을 확률은 1-0.97=0.03이 된다. 마지막으로 40년 동안의 경력 중 적어도 한번 15년 연속으로 주가지수보다 좋은 수익을 얻을 확률은 25회이므로(1년차부터 15년까지라는 식으로 차례로 계산해 나가면 25년차부터 39년까지 모두 25회) 곱해 보면 25X0.03으로 75%나 된다. 이렇게 보면 빌 밀러를 '펀드의 신'으로 보기는 어려워진다. 오히려 수많은 다른 고액 연봉의 펀드매니저들이 활동했음에도 불구하고 2003년까지 40년간 15년 연속으로 시장보다 초과 수익을 낸 펀드가 없다는 사실에 의문을 가져야 하지 않을까.
 
◆ '뷰티플 마인드' 주인공 대단해 보이지만
 
세분화의 함정은 우리의 주변에서도 쉽게 찾을 수 있다. 매일 아침 뉴스에 나오는 '오늘의 시황' 코너에서는 흔히 이런 식의 설명을 한다. "미국의 실업률이 예상보다 좋아져서 오늘 장은 상승 국면으로 출발하고 있습니다." 과연 미국의 실업률 때문에 주식 가격이 오른 것일까. 만일 다음 달 미국의 실업률이 올랐는데도 주식 가격이 오른다면 어떻게 설명할지 궁금할 뿐이다. 그 때 가서는 유럽의 재정 위가가 완화되었기 때문이라고 하지 않을지.
 
세분화의 함정하면 떠오르는 영화가 있다. 2002년에 나온 '뷰티블 마인드'다. 정신착란증을 앓는 천재 수학자 존 네쉬의 일생을 조명한 영화다. 주인공역을 맡은 배우 러셀 크로우는 신문이나 잡지 기사로부터 소련에서 보내는 암호를 찾아내는 놀라운 '신기'를 보여준다. 이처럼 데이터를 아주 세분화해서 보면 어디서든지 매우 유용한 것처럼 보이는 정보를 찾을 수 있다. 하지만 이런 정보는 사실 유용하지도 않을 뿐 아니라 분석자의 정신 건강에도 그리 도움이 되지 않는다.
 
세분화의 함정과 연과지어 생각할 수 있는 것으로는 '출판 편이'(publication bias)도 있다. 우리가 논문으로 접하는 정보는 일정한 그리고 상당한 양의 편이를 갖고 있다는 것이다. 관심이 집중되는 분야에 대해서는 세계 곳곳에서 다양한 연구가 진행된다. 하지만 다양한 연구들 중에서 의미 있거나 흥미로운 결과만 세상에 알려지게 된다. 그밖에 별 의미가 없는 수많은 연구는 그런 연구가 있었는지에 대한 정보조차 찾아볼 수 없게 된다. 같은 주제에 대한 100개의 실험 중 하나만 결과가 의미있게 나왔을 경우, 논문을 통해서는 의미가 있는 하나의 결과만을 알 수 있을 뿐, 이름도 없이 사라져간 99개의 실험에 대해서는 그 존재 여부도 알 수가 없게 된다는 얘기다. 실제로는 '의미 없는' 다수의 결과가 정답인데도 말이다.
 
2001년에 출시된 우울증 치료제인 레복시틴 (Reboxetine)은 유럽의 여러 나라에서 진행된 임상실험결과 우을증 치료에 매우 효과적이라고 판명이 되었다. 하지만 2010년에 와서, 2001년 임상실험 결과가 제약회사의 출판 편이에 의해 과장됐다는 사실이 밝혀졌다. 즉 레복시틴을 만든 제약회사인 파이자가 약의 판매에 유리한 결과만 발표한 것이다. 이 결과는 2011년에 다시 뒤집혀지긴 했다. 하지만 이 사건을 통해 얻을 수 있는 교훈은 뚜렷했다. 주어진 정보에 대한 진위 여부는 결과 그 자체 보다 정보를 얻기까지의 과정까지 살펴봐야 한다는 사실이다.
 
◆ 빅데이터라고 해서 무작정 좋으면 위험
 
그렇다면 세분화의 함정을 벗어나기 위해 어떻게 해야 할까. 방법은 여러 가지다. 기술적인 측면에서 쉬운 방법은 추출된 정보의 진위를 파악하기 위한 시간을 충분히 갖는 것이다. 주어진 정보가 미래 상황에도 적용이 가능한지를 시간을 두고 확인하는 것이다. 가령, 미국 실업률이 떨어지면 주식 가격이 상승하는지 여부에 대해 6개월 정도 시간을 두고 확인을 해보는 것이다. 하지만 이런 방법은 기술적으로는 가능하지만, 수많은 거짓 정보 모두 일일이 확인 작업을 거쳐야 한다는 점에서 비용적으로 거의 불가능하다. 대안으로는 주어진 정보가 거짓 정보일 확률을 계산하고 이를 바탕으로 주어진 정보의 진위를 파악하는 방법이 있다. 이 방법은 비용이나 시간 면에서 대단히 효율적이다. 하지만 고도의 통계학적 지식이 필요하다는 난점이 있다.
 
빅데이터는 우리에게 큰 기회를 제공한다. 하지만 빅데이터 자체가 전부가 아니라는 점을 명심할 필요가 있다. 빅데이터로부터 찾아내는 새롭고 유용한 지식이 빅데이터의 가치를 결정한다. 여기서 '새로운' 정보와 '유용한' 정보는 서로 대립하는 개념이다. 대체로 새로운 정보는 유용성이 떨어지고 유용한 경우 이미 알려진 정보인 경우가 많다. 빅데이터가 제공하는 수 많은 새롭게 보이는 정보들 중 실제로 유용한 정보를 찾아내기란 쉽지 않으며, 매의 눈을 가진 분석가가 필요한 이유이다. 훌륭한 빅데이터 분석가가 되기 위해서는 빅데이터를 효율적으로 탐색하는 기술뿐 아니라 세분화의 함정에서 벗어날 수 있는 지식과 경험을 함께 갖춰야 한다는 점을 잊어서는 안된다.