10년간 ‘무중단·무사고·무재해’… 네이버 데이터센터 운영 비결은

① 죽으면 안 된다
② 안전해야 한다
③ 데이터를 잃으면 안 된다
④ 빨라야 한다
⑤ 유연해야 한다
⑥ 미리 준비해야 한다
⑦ 비용효율적이어야 한다

네이버 데이터센터 '각(閣) 춘천'의 7대 운영 원칙이다. 네이버는 이 원칙 아래 2013년 6월부터 약 10년간 '무중단·무사고·무재해' 기록을 이어오고 있다. 네이버는 올해 하반기에 문을 여는 두 번째 자체 데이터센터 '각 세종'에 이 원칙을 적용, 자사 인공지능(AI) 및 클라우드 서비스의 미래 10년을 책임진다는 방침이다.

25일 네이버에 따르면 데이터센터 운영의 핵심은 BCP, 즉 업무연속성계획(BCP·Business Continuity Plan)이다. BCP는 화재 등 재난 또는 비상 상황 발생 시에도 업무를 지속하기 위한 절차를 말한다. 지난해 10월 15일 판교 SK C&C 데이터센터 화재 당시 카카오의 주요 서비스가 무려 127시간 30분간 멈춰섰던 이유 중 하나도 BCP의 부재였다.

네이버는 BCP의 일환으로 7단계 서비스·인프라 이중화 체계를 구축했다. 박원기 네이버클라우드 APAC(아시아태평양) 사업개발 대표가 지난해 말 자사 연례 기술·서비스 공유 콘퍼런스 '네이버클라우드 서밋 2022′에서 카카오와의 차별점으로 꼽은 체계다. 이 체계는 크게 4단계의 '리커버리 서비스 레벨(Recovery Service)'과 3단계의 '컨티뉴어스 서비스 레벨(Continuous Service Level)'로 나뉜다. 장애 발생시 전자는 서비스를 언제 복구할 수 있는지, 후자는 서비스가 어느 정도 중단되는지 파악하는 용도로 쓰인다.

리커버리 서비스 레벨은 ▲국내 다른 데이터센터에 데이터가 백업돼 있지 않아 별도의 복구 작업을 진행해야 하는 레벨 1 ▲국내 다른 데이터센터에 데이터가 백업돼 있어 수일 내로 서비스를 재개할 수 있는 레벨 2 ▲국내 다른 데이터센터에 백업된 데이터와 함께 복구용 인프라가 있어 수시간 내로 서비스를 재개할 수 있는 레벨 3 ▲해외 데이터센터에 백업된 데이터와 함께 복구용 인프라가 있어 수시간 또는 수일 내 전 세계 서비스를 재개할 수 있는 레벨 4로 나뉜다.

컨티뉴어스 서비스 레벨은 ▲국내 데이터센터 인프라를 활용해 일부 기능 또는 일부 사용자에게 제한적으로 서비스를 제공할 수 있으면 레벨 5 ▲국내 데이터센터 인프라를 활용해 모든 기능을 모든 사용자에게 정상적으로 서비스할 수 있으면 레벨 6 ▲해외 데이터센터 인프라를 활용해 수시간 또는 수일 내에 서비스를 재개할 수 있으면 레벨 7로 구분한다.

네이버 측은 "판교 데이터센터 화재 때는 리커버리 서비스 레벨 3과 컨티뉴어스 서비스 레벨 5,6 수준에서 대응했다"며 "아무리 체계가 잘 갖춰져 있어도 실행력이 따라주지 않으면 비상 상황에서 즉각적으로 대처하기 어렵기 때문에 BCP 태스크포스(TF)를 둬 최소 연 2회 이상의 모의 훈련을 실시하고 있다"고 했다.

네이버의 7단계 서비스·인프라 이중화 체계 중 '리커버리 서비스 레벨'. /네이버

네이버의 7단계 서비스·인프라 이중화 체계 중 '컨티뉴어스 서비스 레벨'. /네이버

네이버는 7단계 서비스·인프라 이중화 체계를 위해 네트워크 환경에 'N+1 다중화 구조'도 도입했다. 이는 핵심 네트워크 '백본 스위치(Backbone Switch)'를 포함한 네트워크 인프라를 그물망 형태로 연결하는 구조로, 네이버가 직접 개발했다. 네이버 측은 "특정 도로가 막힐 경우에 대비해 대안 도로를 여럿 열어놓은 것이라고 생각하면 이해가 쉽다"고 설명했다.

각각의 서버가 처리해야 할 업무를 여러 대에 나누는 '로드 밸런싱(Load Balancing)'도 극대화했다. 서버의 부하 상태를 분석하고 트래픽을 분산시키거나 우회 연결(로드 밸런싱)하는 인프라 '로드 밸런서(Load Balancer)'의 효율을 끌어올리기 위해 'CSLB(Cloud Scale Load Balancer Architecture)'라는 플랫폼을 개발한 것이다. 네이버 측은 "로드 밸런서를 다시 한 번 로드 밸런싱해 데이터센터 내 서버 전반을 효율적으로 관리, 서비스 연속성을 향상시켰다"고 했다.

BCP에서 가장 중요한 건 '인적 자원을 어떻게 활용하느냐'다. 네이버 측은 "화재 이후 하드웨어, 소프트웨어에 대한 이중화 조치의 필요성이 주목받았지만 한정된 인원으로 서비스에 영향을 미치는 다양한 상황 변화에 유기적으로 대응하는 것은 쉽지 않다"며 "철저한 인력 관리와 반복적인 훈련이 반드시 뒷받침돼야 한다"고 강조했다. 노상민 네이버클라우드 데이터센터장은 지난 9일 기자간담회에서 "데이터센터에서는 예상하기 어려운 상황이 많이 발생하기 때문에 직원간 끊임없는 업무 교류 및 현장 실습이 중요하다. 비상시 초동 대처는 이들의 숙련도에 달려있다"고 설명한 바 있다.

각 춘천에서 근무하는 직원들의 근속연수가 유달리 긴 배경이 여기에 있다. 현재 각 춘천에서 일하는 100여명의 직원 중에는 건립 때부터 함께해온 '원년 멤버'도 꽤 있다. 네이버 측은 "이들과 2017년 포항 지진(규모 5.4)을 겪은 뒤 각 세종에 각 춘천보다 한 단계 높은 등급의 내진 설계를 적용했다"며 "이런 경험을 바탕으로 판교 데이터센터 화재 때도 빠르게 서비스를 복구할 수 있었다"고 했다.

네이버는 충북, 경남 등에서 운영 중인 임차 데이터센터에도 직원을 배치해 전원 설비, 공조(공기조화) 설비, 환경 설비를 직접 점검한다. 이 과정에서 문제를 발견하면 위탁 사업자와 논의해 개선하는 식이다. 임차 데이터센터를 운영하는 대부분의 기업이 취약성 관리를 전문 사업자에 일임하는 것과 상반된다. 네이버 측은 "외부 의존을 줄이기 위해 전기·기계·제어·통신 분야 등 데이터센터 운영 전반에 필요한 직군에서 전문가를 육성하고 기술 역량을 내재화하고 있다"며 "데이터센터 설비 및 서비스 운영에 필요한 시스템도 독자적으로 개발하고 있다"고 했다.

10년간 '무중단·무사고·무재해'… 네이버 데이터센터 운영 비결은