김용대 서울대 교수

연말도 가까웠다. 2013년 올해의 키워드를 꼽으라면 후보 중에 ‘댓글’도 들지 않을까 싶다. 작년 대통령 선거 운동 기간 중에 국정원을 위시한 여러 국가기관에서 인터넷을 통해 특정 후보를 지지 또는 비방하는 글을 유포했다는 것이 사건의 개요이고, 현재 검찰 수사가 진행 중이다.

댓글 사건은 광고라는 것이 선거에서도 얼마나 중요한지에 대해서 여실히 보여주고 있다. 광고란 기본적으로 세상에 널리 알리는 일을 지칭한다. 이제는 기업의 마케팅뿐만 아니라 정치 활동에서도 아주 중요한 역할을 맡고 있다.

광고의 기원을 찾자면 이집트까지 거슬러 올라간다. 유명한 로제타석이 바로 프롤레메우스 5세를 위한 송덕비였다. 이집트 상형문자, 그리스 문자 그리고 곱트 문자 세 가지 언어로 씌어있다. 하지만 현대적 의미의 광고는 구테베르그의 활판 인쇄술 발명 이후에 시작됐다. 첫 신문 광고는 1525년에 등장했다. 그 후 기술의 발전과 더불어 광고 기법 또한 다양하게 진화했다.

◆ 날로 커져가는 인터넷 검색 광고

특히 TV와 인터넷의 등장은 광고 시장에 거대한 지각 변동을 가져왔다. 2012년 국내 광고 시장 통계를 보면, TV가 3조6000억원, 신문·잡지는 2조1650억원, 인터넷은 1조9540억원 정도에 이른다. TV나 신문·잡지 광고 시장은 갈수록 상대적 비중이 줄고 있는 반면, 인터넷 광고 시장은 급격한 성장세를 보이고 있다. 인터넷 댓글 사건도 이러한 광고 시장의 변화와 맥을 같이한다.

TV나 신문·잡지 같은 전통 매체와 인터넷 광고 사이에는 단순한 매체 차이뿐만 아니라 광고 기법에서도 결정적인 차이가 있다. TV·신문·잡지 광고는 불특정 다수를 대상으로 하는 반면, 인터넷의 검색 광고는 정보를 원하는 소비자에게만 내보낼 수 있다. 이른바 맞춤 광고다. 그런 점에서 인터넷 광고는 아주 적은 예산으로 대단히 큰 효과를 낼 수 있는 고효율의 광고라고 할 수 있겠다. 인터넷 광고 시장 전체에서 검색 광고가 차지하는 비중은 46%나 된다. 2위인 인터넷 배너 광고(21%)보다 2배 이상 높은 점유율을 보인다.

대표적인 검색 광고로는 구글의 애드센스와 네이버의 스폰서링크가 있다. 인터넷 사용자가 특정 단어를 검색하면, 그 단어와 관련이 있는 광고를 노출시키는 방식이다. 사용자가 노출된 광고를 클릭해 보는 댓가로, 광고주는 구글 또는 네이버 같은 검색 회사에게 일정액을 지불한다.

클릭 당 광고비는 광고주들간의 경매를 통해서 실시간으로 이뤄진다. 액수에 따라 광고 노출 위치를 조절해 상대적으로 높은 액수를 제시한 사람의 광고가 더 잘 노출되게 한다. 이런 검색 광고에는 두 가지 중요한 특징이 있다. 첫째, 관련 단어를 검색한 사용자에게만 광고가 노출된다. 둘째 클릭 수에 따라 광고비가 책정된다. 즉, 광고와 일정 관련이 있는 소비자에게만 광고를 내보내 광고비는 줄이되 광고 효과는 끌어 올렸다. 클릭 수를 통해 노출 정도를 알 수 있기 때문에 광고 효과도 객관적으로 측정할 수 있게 됐다. 특히 소상공인들로서는 저비용으로 광고를 할 수 있는 장이 생겼다는 점에서, 요즘 사회적 화두인 경제민주화에도 한몫 하고 있다고 평가할 수 있다.

◆ 검색 광고의 핵심도 빅데이터

검색 광고는 3가지 기술 바탕 위에 이뤄진다. 월드와이드웹(www)의 개발, 모자이크·넷스케이프·익스플로러· 크롬 같은 인터넷 브라우저의 개발, 그리고 월드와이드웹에 있는 정보들을 쉽게 찾아주는 검색엔진의 개발이다. 이 중에서도 검색엔진의 개발이 가장 중요한 핵심 기술인데, 구글이나 네이버가 검색광고 시장에서 절대 강자로 굴림할 수 있는 이유가 바로 우수한 검색엔진을 보유하고 있기 때문이다.

이 검색엔진 기술의 핵심이 또한 빅데이터 기술이다. 전 세계 월드와이드웹의 수많은 정보를 저장하는 빅데이터 저장 기술과, 주어진 검색어와 연관성이 가장 큰 정보를 정확하게 찾아주는 빅데이터 분석 기술이 그것이다. 구글의 창업자인 세르게이 브린과 레리 페이지는 이 두 분야에서 독보적인 기술을 가지고 있다. 하나는 하둡이라는 빅데이터 저장 기술이고, 다른 하나는 페이지랭크라고 불리는 빅데이터 분석 기술이다. 하둡에 대해서는 지난번(5월 22일자 ‘도요타 아닌 구글이 무인차 성공한 이유’편)에 설명했다. 오늘은 페이지랭크에 대해 설명할까 한다.

예를 들어, 사용자가 ‘장미’라는 단어를 구글 또는 네이버의 검색창에 치면, 검색엔진은 전세계 월드와이드웹에 존재하는 모든 문서, 이미지 등의 정보에서 ‘장미’와 가장 연관성이 높은 정보들을 추출한다. 가령, ‘장미’ 사진이나 ‘장미’ 가격 폭락 관련 신문기사, ‘장미’와 관련된 문학 작품 같은 것이 되겠다. 이를 연관성에 따라 정리해 사용자에게 보여준다.

연관성이 높은 정보일수록 인터넷 브라우저 상단에 보여주어 사용자가 보다 쉽게 정보를 찾을 수 있게 도와준다. 주어진 단어와 월드와이드웹의 각종 정보와의 연관성을 측정하는 것이 검색엔진의 핵심 분석 기술이다. 국내 검색시장에서 독보적인 위치를 차지하고 있는 네이버도 독자적으로 개발한 검색엔진을 사용하고 있다. 다른 경쟁 회사에 비해 검색 결과가 우수한 것으로 평가받고 있다.

◆ 검색엔진 초창기엔 음란물 사이트 판쳐

주어진 단어와 수 많은 정보 사이의 연관성을 측정하는 기본 아이디어는 정보에 특정 단어가 얼마나 많이 언급되는지를 살펴보는 것이다. 예를 들어 ‘장미’라는 단어를 검색할 경우, ‘장미’라는 단어가 많이 들어간 문서를 먼저 보여주면 대개의 경우 큰 무리 없이 사용자를 만족시킬 수 있다. 인터넷 검색엔진 개발 초창기에는 대부분의 검색엔진이 이런 단순 방법으로 연관성을 구했다. 이 때만 해도 연관성 측정 문제는 검색엔진 개발에서 크게 주목받지 모했다.

하지만 이런 단순 방법을 사용한 검색엔진은 특정한 목적을 가진 집단에 의해 오용될 여지가 있다. 그 결과 검색엔진 초창기에는 대부분의 검색어 상위 검색 결과로 음란물 사이트가 나왔다. 이는 음란물을 인터넷에서 유통시키려는 음란물 웹사이트 관리자가 하얀색 바탕에 하얀색 글씨로 ‘장미’라는 단어를 수십번 혹은 수백번 반복해서 써놓으면, 설사 우리 눈에는 그 단어가 보이지 않아도, 검색엔진은 ‘장미’와 관련성이 높은 사이트로 판단하게 돼 있었다.

검색엔진 초창기에는 음란물 사이트들이 얼마나 성행했던지, 인터넷의 미래는 음란물과의 싸움이라고까지 생각한 적도 있었다. 하지만 현재 구글 또는 네이버의 검색엔진의 검색 결과에서 음란물 사이트는 특별한 경우가 아니고는 거의 찾아보기 힘들다. 이러한 발전은 법적으로 음란물을 차단해서 된 게 아니라, 단어와 정보사이의 연관성을 측정하는 방법, 즉 빅데이터 분석기법이 발전했기 때문에 가능했다. 그 핵심에 구글의 창업자들이 개발한 페이지랭크가 자리 잡고 있다.

◆ 구글 페이지링크로 음란물 걸러내

페이지랭크 알고리즘의 기본 아이디어는 단어 수를 세는 것이 아니라, 인터넷 사이트간의 링크 관계를 이용해 연관성을 측정하는 것이다. 좋은 정보를 가지고 있는 사이트는 다른 많은 사이트들과 링크가 돼 있다는 것을 전제로, 많은 사이트와 링크를 가지고 있는 사이트를 연관성이 높은 것으로 인식하는 방식으로 페이지랭크는 작동된다.

그 결과 ‘장미’라는 단어를 검색할 경우, ‘장미’라는 단어를 많이 보유한 사이트들과 링크가 많은 사이트가 ‘장미’와의 연관성이 높은 사이트라고 판단하게 된다. 음란물 사이트는 다른 사이트들과 링크 관계를 갖기는 어렵다. 따라서 이런 사이트는 자연스럽게 연관성이 낮게 나와 검색 결과에 들어가기 어렵다.

인터넷 광고시장이 커지면서 그 안에서 우위를 점령할 수 있는 기술로서 검색엔진의 중요성은 점점 커지고 있다. 이에 따라 검색엔진도 기술적으로 끊임없이 진화하고 있다. 요즘 검색엔진은 사용자의 행동 양식까지 반영한 연관성 측정 방법을 사용한다. 좋은 정보는 사용자들이 오랫 동안 본다는 가정 하에서, 사용자가 사이트에 머문 시간을 연관성 측정에 사용해 검색 결과의 질을 크게 개선할 수 있었다. 최근 검색엔진은 문서뿐 아니라 이미지와 음악 같은 비정형 자료로 이뤄진 정보까지 아주 정확하게 찾아준다.

페이지랭크를 기반으로 개발된 구글의 검색엔진은 이제 ‘구글링’이라는 단어가 상용될 정도로 인터넷 발전사에 한 획을 그었고 지금도 위상을 키워가고 있다. 구글의 주식은 현재 주당 1000달러 이상으로 거래되고 있으며, 회사 시가총액은 3800억달러를 상회한다. 애플, 엑슨모빌에 이어서 3위다. 국내에서도 네이버의 주가는 주당 60만원을 상회하면서, 시가총액은 20조에 육박한다. 전체 상장기업 중 10번째로 큰 기업이 됐다. 구글과 네이버의 이러한 놀라운 성과 뒤에 바로 빅데이터 기술이 숨어 있다. 특히 페이지랭크 알고리즘은 빅데이터 기술에 있어서 저장뿐만 아니라 효율적인 분석이 얼마나 중요한지를 잘 대변해주고 있다.