김범수 카카오 의장. /조선DB

지난 15일 SK C&C 판교 데이터센터에서 발생한 화재로 카카오톡 등을 비롯한 카카오 서비스가 중단되는 사태가 벌어졌다. 화재 발생 3일째인 17일에도 일부 서비스가 정상 가동되지 않고 있다. 카카오톡 이용자는 약 4400만명으로 점유율 80%를 넘어선다. 국민 10명 중 8명은 카카오톡을 사용한다는 의미다. 더구나 메신저 플랫폼을 무기로 카카오가 금융에서 택시호출, 심지어 간편로그인·인증까지 국민 생활에 밀접한 서비스 분야로 사업을 확장하면서 피해가 더욱 컸다.

문제는 이러한 독점적 구조를 가진 카카오가 4개의 외부 데이터 센터에 셋방살이를 할 뿐, 단 1개의 자체 데이터센터도 보유하지 않고 있다는 점이다. 사실상 국민 메신저 카카오의 ‘비상 대응 체계’가 외주에 맡겨지고 있는 셈이다. 화재 등 사고나 자연 재해 등 비상 상황을 대비해 데이터 이원화와 재해복구(DR) 시스템이 있지만, 카카오의 경우 외부 데이터센터에 의존하면서 주말 사이 벌어진 이번 사태를 대응하기에는 복구에 많은 절차와 시간이 소요될 수밖에 없다.

◇ 데이터센터 1개 없는데…4300만명 서비스?

17일 조선비즈의 취재와 전문가들의 의견을 종합하면, 이번 사태는 단순 화재로 시작됐지만 인재(人災)에 가깝다는 분석이 나온다. 데이터센터는 서버에 데이터를 저장하고 관리하는 장소를 말하는데, 이번 사태의 시작이 카카오가 자체 데이터센터를 가지고 있지 않다는 점에서 출발했다는 것이다.

이번 사태는 ‘자체 데이터센터 미비→SK C&C 데이터 센터의 전원 차단→한 곳의 과도한 서버 의존→재난 상황, 이원화·DR체계 전환 지연’ 등의 복합적 상황이 맞물리면서 발생했다. 국민의 삶과 직접적인 연결고리가 많은 카카오라는 기업의 위상에 비해 안일했던 대응 체계가 결국 ‘카카오 블랙아웃’을 만들어 낸 것이다. 카카오는 내년 완공을 목표로 4000억원을 투입해, 한양대 ERICA캠퍼스에 데이터센터를 건설 중이다.

정보기술(IT)업계에 따르면, 현재 카카오는 SK C&C가 보유한 판교를 비롯해, 안양 등 총 4곳의 데이터센터에 정보를 저장하고 있다. 보안을 이유로 나머지 두 곳의 데이터센터는 공개되지 않았다. 판교 데이터 센터는 카카오의 데이터가 가장 많이 저장된 메인 센터로 판교 카카오아지트 본사 건물과 차로 5분 거리 정도로 매우 가깝다.

경기 성남시 분당구 SK C&C 판교캠퍼스 카카오 데이터센터 화재현장에서 소방과 경찰 관계자들이 1차 현장감식 준비를 하고 있다. /뉴스1

보통 데이터센터는 서비스 필요 위치와 가까울수록 좋다. 서버에서 물리적 거리가 멀어질수록 지연시간(latency)이 증가할 수 있기 때문이다. 가까우면 비상 사태가 발생했을 때 대응이 그만큼 빨라질 수 있다. 양현서 카카오 부사장은 지난 16일 브리핑에서 “판교에 서버를 약 3만2000대 정도 두면서 메인 센터로 삼았다”면서 “지리적·기술적인 환경 등을 고려한 것이다”라고 했다.

문제는 4개의 데이터센터 가운데 카카오 자체 데이터센터가 없다는 점이다. 정확한 서버 의존 비율을 측정하긴 어렵지만, 메인 센터의 셧다운으로 이번 사태가 야기된 만큼 의존도가 상당하다는 게 IT업계의 추정이다.

IT업계 관계자는 “판교 데이터 센터에 카카오뿐만 아니라 네이버의 데이터도 저장돼 있는데 카카오에 비해 네이버의 피해나 서비스 장애는 상대적으로 적었다”며 “이는 춘천에 있는 ‘각’ 데이터센터를 보유한 네이버의 경우, 자체망을 가지고 있어 비상시 내부 절차의 간소화, 빠른 의사결정, 트래픽을 분산시킬 수 있는 여유 용량 등을 가지고 있었기 때문에 피해가 최소화 한 것으로 추정된다”고 했다.

PC용 카카오톡의 오류 안내문. /뉴스1

◇ 외주에 의존한 카카오, 스스로 대응 어려웠나

전문가들은 이번 사태를 대응하는 과정에서 카카오 인력만으로는 해결할 수 없었고, 서버를 외부에 100% 의존하는 상황에서 스스로 비상 상황 대응을 하기 어려웠을 것이라고 분석한다. 데이터 센터에 저장된 데이터에 대한 의사결정이나 내부 코드들은 카카오 내부에서 처리할 수 있지만, 데이터 저장 공간이 외부인 만큼 자체 역량만으로 비상 상황 수행이 어려웠을 수 있다는 말이다.

이종호 과학기술정보통신부 장관이 16일 오전 경기 성남시 분당구 SK C&C 판교캠퍼스에서 열린 카카오 데이터센터 화재 관련 간담회에서 모두 발언을 하고 있다. 2022.10.16/뉴스1 ⓒ News1 김영운 기자

예를 들어, 데이터 이원화 작업에 착수한다고 하더라도 판교 데이터 센터의 접속은 가능한지, 다른 데이터 센터와의 연결 상황, 판교의 연결을 끊고 나머지 3개 데이터 센터 만으로 연결을 할 수 있을지, 메신저와 O2O(온·오프라인 연계) 서비스의 특성상 엄청난 양의 데이터를 보존하는 상황에서 복구가 가능할 지 등 상황 판단과 빠른 실행이 필요하지만 외부에 의존하면서 너무나 많은 절차와 소통 시간 등이 필요하다는 것이다.

외부 데이터 센터에 셋방살이를 하는 카카오 입장에서 복구 작업은 쉽지 않을 수 있다. 복구라는 것은 저장된 데이터나 명령을 임시로 다른 데이터 센터로 전송하거나 처리해야 한다는 의미인데, 카카오가 분산 트래픽을 보낼 수 있는 데이터센터를 찾기도 쉽지 않았을 것이라는 게 IT 전문가들의 의견이다.

◇ 이중화·DR 체계 미흡도 논란

카카오가 계약하고 있는 다른 외부 데이터센터에 일시적으로 많은 트래픽이 몰릴 경우, 해당 데이터센터와 계약된 다른 기업의 서비스에도 지장을 줄 가능성이 있다. 또 서버 장비의 과부하도 우려스러운 부분이다. 일시에 데이터가 몰리면 접속량을 폭주시켜 서버가 다운되거나 문제가 발생할 수 있다. 고의로 트래픽을 보내 서버를 터뜨리는 디도스(DDOS) 공격과 같은 상황이 될 수 있기 때문이다. 특히 사고가 주말에 발생하면서 이러한 리스크를 안고 판단을 해야 하는 의사결정 시간도 길어졌을 것으로 추정된다.

카카오는 “모든 데이터를 국내 여러 데이터센터에 분할 저장하는 이원화 시스템을 갖추고 있다”고 밝힌 바 있다. 하지만 분할 저장 이원화 시스템과 재해복구(DR) 시스템은 개념 자체가 다르다. 일각에서는 DR시스템 부실 문제를 제기하고 있다.

그래픽=이은현

여기에 SK C&C가 판교 데이터 센터의 전원을 차단하면서 제일 중요한 데이터센터에 통으로 접속하지 못하는 사태로 발전됐다. SK C&C 측은 소방당국과의 협의를 통해, 안전을 위해 서버실과 데이터센터 전원 공급을 중단했다고 밝혔는데, 이러한 점이 카카오나 다른 클라이언트에 사전에 통보된 것인지는 아직 확인되지 않았다. 앞으로 사고와 관련한 책임공방과 보상안 마련 과정에서 이 점이 부각될 것으로 전망된다.

익명을 요구한 한 보안전문가는 “카카오 정도의 규모라면 데이터 이원화, 핫사이트(비상시 서버와 데이터 등에 미리 설치해둔 백업 사이트)는 물론, 아예 사고지점을 차단하고 메인 서버에 있는 정보를 그대로 복제한 새로운 데이터센터와 연결하는 재해복구(DR) 시스템을 갖췄을 것이다”며 “다만, 카카오톡을 비롯해 여러 계열사를 거느린 카카오의 서비스 영역이 워낙 방대하고 복잡한 만큼 데이터 복구에 무리가 있었을 것 같다”고 했다. 그는 “다음(Daum) 홈페이지에 한동안 503 에러가 표시되고, 기업의 얼굴인 카카오 기업소개 페이지는 지금까지 먹통이 된 것을 보면 비상 대응 체계가 제대로 작동하지 않고 수동으로 일일이 체크해가며 복구 작업을 진행하고 있는 것 같다”고 했다.