데이터에 관해 꼭 알아야 할 오해와 진실 12가지를 담은 신간 '데이터는 예측하지 않는다'가 출간됐다. 데이터로 의사결정을 해야 하는 사람들과 데이터에 따른 의사결정이 필요하다고 주장하는 이들을 위한 책이다.
마카오 폴리텍대학교 컴퓨팅 전공 교수로 데이터 사이언스와 소프트웨어 공학, 정보 보안 등을 가르치고 있는 저자는 우리가 알고 있던 데이터에 관한 지식이 얼마나 잘못됐으며, 데이터를 제대로 알지 못하면 어떤 실수를 범하게 되는지 여러 사례를 통해 밝히고 있다.
책은 데이터에 관한 오해와 진실이 무엇인지 하나씩 소개하며, 데이터 사이언티스트가 갖추어야 할 인문·사회학적 소양의 중요성을 여러 사례와 저자의 경험을 통해 일러주는 동시에 데이터와 인공지능의 가치 있는 활용을 위해 집중해야 할 내용과 피해야 할 실수를 전달한다.
예컨대 양질의 데이터 100개가 이것저것 섞인 데이터 100만 개보다 낫다거나, 아무리 양질의 데이터가 많이 있더라도 결국은 진실에 가까운 추정치일 뿐이라고 책은 지적한다. 저자는 데이터 없이 분석 결과를 얻을 수 있다면 그것이 최선이며, 데이터를 분석할 때 자주 하는 실수 중 하나가 '나의 데이터'와 '남의 데이터'를 구분하지 못하는 것이라고 말한다.
책은 또 "데이터는 과거의 발자취일 뿐, 예측할 수 없다"며 "빅데이터를 분석한다는 것은 예측하기 위한 것이 아니라 패턴을 찾기 위한 것"이라고 말한다. 또 데이터 분석에만 치중하다 보면 상식적인 판단이 헷갈려 엉뚱한 진단을 할 수 있으니 풀려는 문제에 대한 선행 통찰이 중요하다고 지적한다.
저자는 지금의 빅데이터가 몇 년 뒤에는 일반 데이터가 될 수도 있으니 빅데이터가 뭔가 대단한 것이라고 착각해서는 안 된다고 일침을 놓는다. 인공지능이 표본화된 데이터를 학습한 만큼, 인공지능이 생성한 답이 반드시 진리일 수는 없다는 점도 간과하지 않길 당부한다.
저자는 무엇보다 문제의 본질을 읽는 것, 그래서 문제를 풀기 위해 어떤 도구를 쓸지 결정하는 능력은 곧 인문학적 능력이라는 것도 강조한다.
복잡한 수식과 난해한 이론 없이 데이터와 관련된 가장 기본적이고 근본적인 내용을 읽기 쉬운 언어로 풀어쓴 책이다.
김송규 지음ㅣ좋은습관연구소ㅣ222쪽ㅣ1만7500원