이번 연구에 참여한 연구진. 왼쪽부터 김재경 IBS 의생명 수학 그룹 CI(교신저자), 박세호 KAIST 학생(제1저자), 하석민 KAIST 학생(제2저자)./IBS

김재경 기초과학연구원(IBS) 수리 및 계산 과학 연구단 의생명 수학그룹 CI 연구팀이 수학 모델을 기반으로 시계열 데이터의 인과관계를 추정하는 새로운 방법론을 개발했다. 복잡한 계산 과정을 없애서 빠른 속도로 추론이 가능하면서도 정확도는 높였다.

시간의 흐름을 기준으로 기록하는 시계열 데이터는 의학 분야에서도 중요도가 높다. 환자의 심전도 측정을 통해 심장 발작의 직접적인 요인을 찾는 것처럼 다양한 인과관계를 추정하는 데 쓰인다.

시계열 데이터에서 인과관계를 추정하는 대표적인 방법이 그레인저 인과관계 검정(Granger causality test)이다. 2003년 노벨 경제학상을 받은 클라이브 그레인저 미국 샌디에이고캘리포니아대(UC샌디에이고) 교수가 제시한 방법론이다. 다양한 분야에서 활용되고 있지만, 시계열 데이터가 비슷한 주기로 변화하는 동시성을 가지기만 하면, 인과관계가 있다고 잘못 예측하는 경우가 많았다. 예컨대 기온 변화와 바다 조수는 모두 하루의 주기를 가지고 진동하지만 서로 연관이 없다. 그러나 그레인저 인과관계 검정은 기온과 바다 조수 사이에 인과관계가 있다고 잘못 예측한다.

직접적인 인과관계와 간접적인 인과관계를 구별하지 못한다는 한계도 있었다. 예를 들어 풀은 사슴의 먹이고, 사슴은 호랑이의 먹이다. 풀이 많아지면 사슴 개체 수가 늘고, 사슴을 먹이로 하는 호랑이의 수도 늘어난다. 풀의 양은 간접적으로 호랑이의 개체 수에 영향을 주지만, 직접적인 연관은 없다. 하지만 그레인저 인과관계 검정은 풀의 양이 호랑이 개체 수에 직접적인 영향을 준다고 잘못 추정하는 식이다.

이런 한계를 극복하기 위해 수리 모델에 기반한 다양한 방법론이 등장하고 있다. 수리 모델로 주어진 시계열 데이터를 잘 맞출 수 있는지 확인하는 방법을 통해 인과관계를 예측한다. 수리 모델이 정확하기만 하면 기존 그레인저 인과관계 검정의 한계인 동시성과 간접적인 영향을 인과관계와 혼동하지 않는다는 장점이 있다.

김재경 CI 연구팀은 새로운 방법론인 ‘GOBI(General ODE-Based Inference)’를 개발했다. 연구팀은 시계열 데이터가 일반적인 수학 모델로 표현될 수 있는지 확인하는 수학 이론을 만들었다. 그리고 이 이론을 바탕으로 정확한 수리 모델이나 복잡한 계산 없이도 시계열 데이터로부터 인과관계를 추정하는 방법론을 개발했다.

연구진은 GOBI를 통해서 여러 오염 물질 중 이산화질소와 호흡기로 유입되는 부유 미립자(직경 10㎛ 이하의 입자)가 심혈관계 질환에 영향을 미친다는 것을 확인할 수 있었다.

김재경 CI는 “수학과 통계를 결합하여 정확하면서도 다양한 시스템에 유연하게 적용할 수 있는 새로운 인과관계 추정 방법론을 개발했다”며 “사회 및 자연과학 분야에 걸쳐 두루 사용되는 인과관계 추정 연구에 새로운 패러다임을 제시할 것으로 예상된다”고 말했다.

이 논문은 지난 24일 국제 학술지 네이처 커뮤니케이션즈(Nature Communications)에 실렸다. 한국과학기술원(KAIST) 학부생인 박세호 학생(제1저자)과 하석민 학생(제2저자)이 참여했다.

참고자료

Nature Communications, DOI : https://www.nature.com/articles/s41467-023-39983-4