이확영 카카오 비상대책위원회 원인조사 소위원장./조선DB

카카오가 지난 10월 서비스 먹통 사태 이후 복구가 지연된 원인으로 데이터센터간 이중화가 미흡했기 때문이라고 밝혔다. 시스템을 복구하기 위한 운영 도구와 모니터링 시스템, 데이터센터 전체의 장애에 대응하기 위한 인력과 자원도 충분하지 않았다.

이확영 카카오 비상대책위원회 원인조사 소위원장은 7일 오전 11시 개최된 개발자 콘퍼런스 ‘이프 카카오 데브 2022(if kakao dev 2022(이프 카카오)에서 이같이 밝혔다. 그는 그렙 최고경영자(CEO)로, 카카오가 객관적으로 원인 조사를 진행하기 위해 외부 전문가를 위원장으로 선임한 것이다.

이 위원장은 “데이터센터 전체에 문제가 생기더라도 다른 데이터센터에 모든 시스템이 이중화되어 있었다면 빠르게 복구가 됐을텐데 일부 시스템이 판교 데이터센터 내에서만 이중화돼 있어서 장애 복구가 늦어졌다”고 말했다. 예컨대 서비스를 운영하는 많은 시스템에서 사용되고 있는 캐시 서버와 오브젝트 스토리지가 완벽하게 이중화되지 않고 판교데이터 센터에만 설치되어 있어 이를 사용하는 서비스들의 복구가 늦어졌다는 것이다. 카카오 로그인이나 카카오톡의 사진 전송 기능 등이 해당된다.

그는 “서로 다른 데이터센터에 이중화가 되어 있는 경우에도 하나의 데이터센터에서 장애가 발생하면 다른 데이터 센터로 자동 전환해주는 시스템이 작동해야 하는데 이 시스템마저 판교데이터 센터에만 설치치돼 있었다”며 “수동으로 전환 작업을 진행했기 때문에 복구가 지연됐다”고 했다.

또 “사용자 서비스에 직접적으로 필요한 시스템 외에, 서비스의 개발과 관리를 위한 운영 관리 도구가 필요한데, 이러한 도구들의 이중화가 미흡했다”고 덧붙였다.

이 위원장은 “이중화 전환 후 가용 자원이 부족했다”며 “운영 관리 도구의 복구 인력도 부족했고 장애 대응을 위한 커뮤니케이션 채널에도 혼선이 있었다”고 했다. 카카오는 사내 커뮤니케이션과 모니터링 채널로 카카오톡과 카카오워크를 사용하고 있는데 해당 채널을 쓸 수 없을 때 중요 사항 전파 및 의사결정을 위한 커뮤니케이션 채널이 준비되지 않았다는 것이다.

아울러 “재해 초기의 컨트롤 타워도 부재했다”며 “카카오와 공동체, 그리고 개별 조직이 동시 다발적으로 장애에 대응했지만 전체적인 조율과 협업을 지원하는 전사 조직이 사전에 준비돼있지 않았다”고 말했다.