클라우드·슈퍼컴으로 코로나19 관련 대규모 데이터 AI 분석
백악관, 기업에 과학DB 전부 오픈… "韓도 민관 협력 강화해야"

아마존웹서비스(AWS), 마이크로소프트(MS), 구글 등 대규모 클라우드 서비스를 제공하는 IT 기업들이 신종 코로나바이러스 감염증(코로나19) 퇴치를 위한 연구지원용 '데이터 레이크(공유데이터환경)' 구축을 본격화했다. 코로나19가 좀처럼 수그러들지 않는 가운데 각종 감염병에 대한 빅데이터, 인공지능(AI) 분석 인프라를 확고하게 구축한다는 방침이다.

29일 업계에 따르면 세계 최대의 클라우드 기업인 AWS는 최근 코로나19 데이터 분석을 위해 퍼블릭 '데이터 레이크'를 제공하기 시작했다. 데이터 레이크란 대규모 공유 데이터 환경으로, 사용자들은 방대한 규모의 미가공 데이터에 접근하고 분석 모델을 개발하거나 제품 상용화에 데이터 레이크를 활용할 수 있다.

미국 오클라호마주 메이스 카운티의 구글 데이터센터.

이처럼 방대한 데이터 레이크가 형성되면 ICT 기술을 활용한 코로나19에 대한 분석이 더 용이해진다. 현재 AI 분석 툴의 특성상 더 많은 데이터가 형성될수록 더 유용하고 정확한 정보가 나오기 때문이다. 코로나19의 병원체 분석뿐 아니라 전파경로, 환경적 요소, 사회구조적 영향 등에 대한 다양한 통찰력이 나올 수 있다는 게 전문가들의 설명이다.

MS 역시 코로나19 '오픈 리서치 데이터셋(CORD-19)'을 만들어 전 세계 연구자들의 바이러스 관련 과학 연구 자료를 클라우드에 집결시키는 중이다. CORD-19에는 2만9000건 이상의 자료와 1만3000건 이상의 전체 문서가 포함돼 있다. 또 코로나19 고성능 컴퓨팅 컨소시엄을 결성해 코로나 바이러스 연구에 애저와 수퍼 컴퓨터를 사용하도록 지원한다는 방침이다.

구글 역시 코로나19의 정체를 파헤치기 위해 클라우드 기반의 AI 기술을 활용하고 있다. 구글 모회사 알파벳의 AI 기술 자회사 딥마인드는 코로나19의 단백질 구조를 연구하고 있다. 딥마인드는 2016년 3월 한국 유명 프로바둑 기사 이세돌 9단과 대국을 벌여 화제가 된 바둑 AI ‘알파고’를 개발한 기업이다.

순다 피차이 구글 최고경영자(CEO)는 "딥마인드가 코로나19와 관련된 여러 단백질 구조 예측을 공개하기 위해 최신 시스템을 사용하고 있다"며 "구조 예측을 통해 관련 연구를 가속하고 바이러스 치료법 개발에 기여할 것"이라고 전했다. 구글은 생명공학 자회사 베일리를 통해 코로나19 감염을 진단하는 소형 온도 패치도 개발하고 있다. 발열 알림 기능이 담긴 것이 특징이다.

백악관, 정부, 기업 간에 적극적인 정보 교류도 이뤄지고 있다. 앞서 백악관은 AI을 활용해 코로나19를 퇴치하기 위해 IT 기업들에 정부의 과학 데이터베이스를 공개키로 했다. 백악관이 공개하는 자료는 2만9000건에 달하는 과학 논문을 비롯한 연구물이다. MS 공동 창업자인 폴 앨런이 창립한 앨런 AI 연구소와 챈 저커버그 이니셔티브 등도 참여한다.

반면 국내의 경우 코로나19 감염과 관련한 수많은 데이터나 논문이 아직 체계적으로 정리되지 못하고 있다는 지적이 꾸준히 나오고 있다. 지난 3월 한국생명공학연구원이 매일 생산되는 코로나19 관련 데이터와 정보를 체계적으로 정리해 제공하는 포털을 열었지만 논문이 게재된 사이트 링크만 제공하고 있으며 이또한 9600건 정도에 불과해 충분치 못하다는 평가다. 4월초엔 한국과학기술정보연구원(KISTI)이 과학기술 지식인프라 ‘사이언스온(ScienceON) 웹페이지에 ‘코로나19 관련 과학기술정보·데이터’ 서비스 제공 코너를 신설해 운영중이다.

IT업계 관계자는 "AI의 한 분야로 컴퓨터가 스스로 방대한 분량의 데이터를 분석해 필요한 정보를 추출하는 머신 러닝 기술은 이미 의학뿐만 아니라 다른 산업에서도 활용되고 있다"며 "다만 머신 러닝을 통해 유효한 결론을 도출하는 데 관련된 수백만건의 자료에 대한 분석을 거쳐야 하는 경우가 있다. AI 분석의 유용성은 데이터가 많을수록 유리해진다"고 강조했다.