구글 자회사 딥마인드의 인공지능(AI) 알파고가 수많은 묘수를 내놓으며 이세돌 9단에 승리했을 때 개발자들은 정작 AI가 어떻게 그 수를 놨는지 알지 못했다. AI를 흔히 ‘블랙박스’에 비유하는데 이는 사용자는 물론 개발자조차 원리를 완벽히 설명할 수 없기 때문이다. AI가 내놓는 결과가 어떻게 학습됐고 데이터 가운데 어디서 나왔는지 역추적이 불가능하다. 전문가들은 이런 방식으로 기술이 계속해서 발전할 경우 AI가 어떤 방식으로 학습하는지 모르기 때문에 편향성을 가질 수 있다고 보고 있다.
텍스트나 그림, 영상 등을 만들어내는 생성형 AI가 지금도 백인 중심으로 결과를 내고 있다는 지적이 나오는 것도 AI가 블랙박스 같은 성격을 갖고 있는데서 비롯된다. 최근 미국 AI 연구자들이 AI의 치명적 단점으로 꼽히는 편향성을 해결할 수 있는 도구를 개발했다. 이 시스템을 사용하면 AI가 어떤 방식으로 학습하는지 알 수 스없는 ‘블랙박스’ 현상을 파악할 수 있어 신뢰성을 크게 높일 것으로 기대된다.
데이비드 글라이지(David Gleich) 미국 퍼듀대 컴퓨터과학과 교수는 지난달 17일 AI 신경망이 학습하는 데이터와 분류를 추론할 수 있는 시스템을 개발한 연구결과를 국제 학술지 ‘네이처 머신 인텔리전스’에 발표했다. 이 연구 결과는 3일(현지 시각) 미국 전기전자공학회(IEEE)가 발간하는 스펙트럼지에도 소개됐다.
챗GPT가 지난해 11월 출시된 이후 AI 기술은 거대언어모델(LLM)을 중심으로 빠르게 발전하고 있다. 하지만 대규모 학습 모델은 AI가 어떻게 정보를 학습하는지, 데이터에 따라 어떤 과정을 거쳐 결과를 도출하는지 등에 대한 정보는 거의 알려지지 않은 상태다. 모델을 만든 AI 연구자조차도 정확한 내용을 파악하지 못하는 경우가 대부분이다.
AI가 이처럼 블랙박스 같은 성격을 보이면서 그 결과물의 신뢰성에 큰 타격을 입고 있다. AI의 신뢰성 문제는 글로벌 빅테크에서 혁신적인 AI를 내놓을 때마다 뜨거운 감자로 거론된다. 특히 윤리적인 AI 개발에 대한 논의가 활발해지면서 신뢰성을 확보하는 것은 AI 연구자들의 숙제가 됐다.
연구팀은 AI가 학습하는 전체 데이터 세트에 감지하는 방법을 시각화했다. 특히 기하학적 방법인 ‘위상(Topology)’을 활용해 신경망이 데이터에 접근하는 것을 지도화했다. 위상 구조는 공간 관계를 인접·연결·포함·근접 등으로 표현하는 수학적 기술이다. 위상 구조를 사용한 기술은 일상에서도 최적 노선 선택이나 네트워크 분석 같은 데에 적용돼 쉽게 찾아볼 수 있다.
연구팀은 AI 신경망이 자연언어를 수학적으로 표현하는 ‘임베딩(Embedding)’ 과정과 데이터와 상호작용하는 과정에 ‘위상 데이터 분석(Topology Data Analysis·TDA)’ 기법을 적용했다. 이렇게 하면 데이터를 특정 좌표로 인식하고, AI의 학습 과정을 그래프로 나타낼 수 있게 해준다. 연구팀은 새로 개발한 분석법이 다양한 종류의 데이터 세트에 넓게 활용할 수 있다고 강조했다.
연구팀은 새로 개발한 위상 데이터 분석법으로 디옥시리보핵산(DNA)을 분석해 유전자 돌연변이를 예측할 수 있는 AI 모델 ‘엔포머(Enformer)’로 성능을 확인했다. 엔포머는 DNA 조각의 발현 수준과 염기서열의 관계를 학습해 우수한 예측 결과를 제공하지만, 많은 매개변수로 학습 과정은 블랙박스로 남아있다.
실험은 유방암과 연관된 유전자인 브라카(BRCA1)의 돌연변이를 엔포머 모델로 예측하는 방식으로 진행됐다. 미국 영화배우 앤젤리나 졸리는 2015년 유방암 위험이 이 유전자에 돌연변이가 있음을 알고 양측 유방을 떼내는 예방적 절제술을 받으면서 유명해졌다.
엔포머는 이 실험에서 유방암이 브라카 유전자에서 1JNX라는 단백질 결정구조에 단일 뉴클레오타이드 변이로 일어난다는 결과를 냈는데, 연구팀은 위상 데이터 분석으로 엔포머가 어떤 학습 과정을 거쳐 결론을 냈는지 눈으로 이해하기 쉽게 만들었다. 특히 이 방식은 예측 신뢰도가 낮은 데이터를 강조해 자동으로 오류를 추정하는 기능도 있다.
글라이치 교수는 “예측의 편견을 이해하기 위해 새로운 도구를 사용하는 방법을 찾는 것이 강력한 발전이 될 수 있다”며 “이 수준에서 데이터를 분석하면 과학자들은 새로운 데이터에 대한 유용한 예측을 얻는 것에서부터 신경망이 데이터와 어떻게 작동하는지 깊이 이해할 수 있다”고 설명했다.
참고자료
Nature Machine Intelligence(2023), DOI: https://doi.org/10.1038/s42256-023-00749-8
Nature Methods(2021), DOI: https://doi.org/10.1038/s41592-021-01252-x