대통령실 직속 디지털플랫폼정부위원회 출범과 함께 정부가 낙점할 데이터 아키텍처에 관심이 쏠리고 있다. 데이터 아키텍처는 데이터를 용도에 맞게 활용하기 위해 필요한 하드웨어, 소프트웨어 등 인프라를 설계하는 일종의 청사진을 말한다. 업계에선 현재 널리 쓰이는 아키텍처인 ‘데이터 레이크’의 한계를 보완한 ‘데이터 패브릭’이 채택될 가능성을 조심스럽게 점치고 있다.
김창회 한국IBM 데이터&AI(인공지능) 사업부 상무는 지난 15일 서울 여의도 제2국제금융센터(Two IFC)에서 기자 간담회를 열고 “현재 미국과 유럽을 비롯한 전 세계 많은 기업의 경영진이 데이터 패브릭에 주목하고 있다”며 “공공 부문의 도입은 정책 입안자의 결정에 달린 만큼 확언하긴 어렵지만, 시장의 흐름에 따라 데이터 레이크에 가상화 기술 등 데이터 패브릭의 요소를 적용할 수 있다고 본다”고 말했다.
류제명 디지털플랫폼정부위원회 추진단장도 지난 2일 정부서울청사에서 열린 브리핑에서 데이터 레이크 외에 다른 아키텍처를 도입할 수 있다고 시사한 바 있다. 당시 그는 “대통령직인수위원회는 데이터 레이크를 언급했지만, 데이터 아키텍처의 형태는 아직 결정되지 않았다”며 “상시적으로 데이터를 한곳에 모으는 방법도 있지만 필요할 때 연계해 처리하고 단절하는 방식도 있다. 세부 계획을 마련하는 과정에서 심도 있게 논의할 것”이라고 했다.
정부는 디지털플랫폼정부 구현을 목표로 모든 부처를 하나로 연결하고 행정서비스 플랫폼을 일원화하기로 했다. 일방적으로 서비스를 제공하는 지금의 방식에서 벗어나 민간과 협업하겠다는 취지다. 디지털플랫폼정부위원회는 이를 위해 내년 1분기까지 구체적인 일정 계획을 수립해 발표할 예정이다.
데이터 레이크는 데이터를 모아둔 하나의 저장소에서 사용자가 필요한 정보를 꺼내 쓰는 구조로 구성된다. 데이터는 생성된 곳에서 저장소로 복사한다. 기존 ‘데이터 웨어하우스’와 비슷한 형태지만, 데이터를 본래 모습 그대로 보관한다는 점에서 자연과 가깝다는 평을 받아 호수(lake)라는 이름이 붙었다. 데이터 웨어하우스는 정제된 정형 데이터만 보관한다.
문제는 한 공간에 대규모로 쌓이는 특성상 중복되거나 오래된 데이터가 많다는 점이다. 데이터가 날것으로 보관되는 만큼 분석을 할 시점에 필요한 형태로 가공해야 하는 불편함도 있다. 분석 시엔 분석을 위한 전용 시스템에 데이터를 다시 복사하거나 옮겨야 해서 비용도 두 배로 든다. 무엇보다 관련 보안 기능이 아직 개발 초기 단계에 있어 해커의 표적이 되기 쉽다. 데이터 잔해(웹서핑 중 특정 페이지에 머무는 시간 등 사용자 행태 기록)를 지우는 기능 또한 없어 개인정보 유출 위험도 있다.
데이터 패브릭은 가상화, 카탈로그(분류) 등 기술로 데이터 레이크의 단점을 보완한다. 가상화는 분석을 위해 데이터를 복사하거나 옮기는 대신 사용자 컴퓨터의 캐시메모리에 가상의 저장소를 만드는 걸 말한다. 사용자가 보다 간편하게 데이터에 접근할 수 있도록 해 자원 낭비를 줄이는 것이다. 카탈로그는 데이터의 데이터, 즉 메타데이터를 수집해 데이터를 품질에 따라 분류하는 걸 말한다. 이 작업은 머신러닝(기계학습)을 기반으로 한다.
카탈로그는 특히 데이터 주권을 전문가에서 일반 사용자로 이전한다는 점에서 주목받고 있다. 기업에 대입하면, 실무자가 정보기술(IT) 관리자를 거치는 대신 직접 원하는 데이터를 찾아 이용 및 분석할 수 있게 됐다는 뜻이다. 데이터 분류 과정에서 골라낸 민감한 정보는 자동으로 마스킹(보안을 목적으로 데이터를 뒤섞어 가짜 복사본을 만드는 것)하거나 사용자별로 접근 권한을 나누는 방식으로 보안을 강화할 수도 있다.
시장조사업체 마켓츠앤마켓츠는 세계 데이터 패브릭 시장 규모가 2020년 10억달러(약 1조3990억원)에서 2026년 42억달러(약 5조8758억원)로 연평균 26.3% 성장할 것으로 예상했다.
다만 데이터 패브릭은 아직 국내에선 낯선 개념이다. IBM이 최근 한국인 500명 포함 전 세계 IT 분야 의사결정권자 7502명을 대상으로 실시한 설문조사에 따르면 데이터 패브릭 아키텍처를 사용 중이거나 사용 예정이라고 답한 국내 기업 비율은 전체의 44%로, 글로벌 평균(61%)보다 현저히 낮았다. 한계도 분명 존재한다. 유지보수를 위해 가상화, 카탈로그 기술을 잘 아는 전문 인력을 고용해야 한다는 점이 한 예다. 가상화 기술 도입 시에는 데이터를 사용자 컴퓨터 내 가상 저장소로 불러들이는 데 따른 지연 시간도 발생한다.
업계는 정부가 기관별 업무 특성과 각각이 갖추고 있는 인프라를 고려해 신중히 데이터 아키텍처를 정해야 한다고 입을 모은다. 김종태 솔리데오시스템즈 공공사업부문장은 지난 5월 대한상공회의소에서 열린 ‘2022 한국IT서비스학회 춘계학술대회’에서 “대국민 서비스 목적의 데이터는 모여 있을 경우 유용하지만 이와는 다른 성격의 특정 데이터는 분산해서 관리할 필요가 있다”고도 했다. 현존하는 탈중앙화 아키텍처로는 ‘데이터 메시’가 대표적이다.
일각에서는 복수의 아키텍처를 융합하는 것도 방법이 될 수 있다는 목소리가 나온다. 한 업계 관계자는 “데이터 아키텍처는 계속해서 진화하고 있다”며 “각 아키텍처를 서로의 대체재로 여기는 대신 상호보완재로 보는 유연한 사고가 필요하다”고 조언했다.