LSST 제공

구글은 연간 7300페타바이트(PB·1000조 바이트) 자료를 처리한다. 1PB는 단행본으로 따지면 10억권, 세계 최대 도서관인 미 의회도서관을 180개 세울 수 있는 정보량이다. 세계 최대 소셜네트워크서비스인 페이스북 사용자 7억명이 생산하는 사진과 비디오는 100PB에 이른다.

최근 이처럼 막대한 자료에서 의미를 뽑아내는 빅데이터 기술의 효과를 톡톡히 보는 분야로 천문학이 주목받고 있다. 엄청난 규모에 막대한 관측 데이터로 손에 잡히지 않을 것 같던 우주의 신비가 한꺼풀 두꺼풀 벗겨지고 있다. 순수 기초 과학과 정보기술이 만나면서 활기를 띠고 있다.

SDSS·LSST 우주 지도 그리는 빅데이터 기술
'슬론 디지털 스카이 서베이(SDSS)'프로젝트는 가장 대표적 사례로 손꼽힌다. 2000년 시작된 3차원 입체 우주지도 작성 계획인 이 프로젝트는 미국 뉴멕시코주 사막의 새크라멘토산 위에 자리 잡은 아파치 포인트 천문대에서 한번에 640개씩 촬영할 수 있는 지름 2.5m짜리 천체망원경으로 과학자들은 20억 광년까지 펼쳐진 은하와 별자리 등 각종 천체 이미지를 담고 있다. 지금까지 천체의 4분의 1을 촬영했고 93만개 은하와 12만개의 퀘이사를 촬영했다. 이를 담은 데이터는 약 40테라바이트(TB·1조 바이트)에 이른다. 이는 두꺼운 단행본 100만권에 해당하는 분량이다.

인류의 관심이 더 먼 우주로 향할수록 데이터 크기도 점점 커진다. 초대형 종관(綜觀)망원경(LSST·사진)은 2022년까지 칠레에 설립되는 지름 8.4m짜리 대형 망원경으로 한번에 가장 광범위한 지역을 관찰한다. 우주의 대부분을 차지하는 암흑에너지와 암흑물질 연구를 비롯해 태양계 주위를 떠도는 소행성들의 띠인 카이퍼벨트, 별의 마지막 단계인 신성과 초신성 연구에 활용될 예정이다. 이렇게 생산되는 데이터는 하루 30TB로, 매일 3000만권 분량의 천문데이터가 쏟아진다.

2024년 호주와 뉴질랜드, 남아프리카공화국에 완공될 제곱킬로미터배열(SKA) 거대전파망원경도 천문 빅데이터 연구를 이끌 고 있다. 약 3000개 전파안테나를 한데 묶어 1㎢ 집광면적을 가진 거대 망원경으로, 우주의 탄생부터 진화, 외계 생명체 전파신호를 알아내는 게 주요 목표다. SKA에선 매초에 700TB, 연간 130PB규모의 자료가 생성될 전망이다. 과학계는 2020년까지 60PB까지 동시 처리 능력이 필요할 것으로 예상하고 있다.

슬론 디지털 스카이 서베이(SDSS)’연구팀이 밤하늘의 우주를 디지털 이미지로 촬영해 이어붙인 약 1조2000억 화소의 사진을 공개했다. 왼쪽 이미지는 지구 남반구에서, 오른쪽은 북반구에서 바라본 하늘의 모습. 노랗게 빛나는 점 하나가 한 개의 은하다.

막대한 자료 처리 능력이 주목받으면서 빅데이터 기술 경쟁력은 한 나라의 천문 연구의 수준을 가늠하는 잣대가 되고 있다.‘천문 연구의 강국은 빅데이터 선진국’이라고 해도 지나치지 않는다.

'천문 연구 수준=빅데이터 기술력'

미국은 2012년 버락 오바마 대통령이 ‘빅데이터 이니셔티브’를 발표한 이후 미국항공우주국(NASA·나사)가 나서 활용 방안을 찾기 시작했다. 나사는 행성탐사선의 탐사 기록부터 금성과 화성 등에서 수집한 데이터, 각종 기상관측위성이 수집한 기후기록을 연구자들에게 공급하는 한편 일반에도 데이터를 공급해 활용하는 오픈데이터 정책을 병행하고 있다. 구글은 이미 나사에서 매일 지구관측 자료들을 넘겨받아 지도를 개선 작업에 활용하고 있다.

세계 최대 규모의 천문자료를 보유한 캐나다 천문데이터센터(CADC)도 전 세계 천문학자들에게 연구 데이터를 공급하고 있다. 2012년에만 87개 국가 3000명에게 160만건 이상의 자료를 제공했다. 제공된 자료 분량만 117TB로, 이는 미 의회도서관 6개를 지을 수 있는 정보량이다. 이를 활용해 초기 우주의 거대 은하와 블랙홀 형성에 대한 단서와 전체 하늘에서 두 번째로 큰 별자리인 처녀자리, 안드로메다 은하와 삼각형자리 은하의 구조와 역사를 추적하고 있다. 지난해에는 안드로메다 위성은하의 위치 특성을 알아내기도 했다.

일본 역시 국립천문대천문데이터센터를 중심으로 10년 전부터 천문 데이터의 활용에 적극적으로 나서고 있다. 별이 내뿜는 다양한 파장의 빛을 분석하는데는 초당 40기가비트(Gb)가 넘는 속도로 계산을 하는 소프트웨어가 활용되기도 한다.

IT 기업 입장에서도 천문학과 결합은 결코 손해 볼 ‘장사’가 아니다. 막대한 분량의 자료를 빠른 속도로 처리하는 신 기술을 테스트할 좋은 기회이기 때문이다. SKA프로젝트에 참여한 연구진은 IBM과 손을 잡았다. IBM은 우주에서 들어오는 약한 신호를 잃지 않기 위해 전파신호 소실을 막는 칩 성능을 개선하고 전력 소비를 줄인 칩 개발에 나섰다. 글로벌 네트워크 장비회사인 시스코도 데이터를 주고 받는 속도를 높이기 위한 전송 기술을 제공한다.

국내에서도 최근 빅데이터와 연계한 천문 연구에 관심이 모아지고 있다. 국내에선 외계행성탐사시스템과 거대 마젤란망원경을 비롯해 총 16개 관측장비에서 해마다 673TB의 천문데이터를 수집한다. 지금까지 수집한 천문데이터 보유량은 1.03PB에 이른다. 하지만 데이터가 서로 다른 기준과 소프트웨어로 관리되고 있고 정보 공개가 일반 과학자에게 1년 뒤에나 이뤄지는 등 활용면에서 떨어진다는 지적이 나온다.