카이스트, MS·MIT와 AI ‘눈’ 더 선명하게 하는 기술 개발

국내 연구진이 미국 매사추세츠공과대(MIT), 마이크로소프트(MS) 연구진과 함께 제한된 그래픽처리장치(GPU) 메모리 환경에서도 인공지능(AI)의 시각 인식 성능을 높일 수 있는 기술을 개발했다./카이스트

스마트폰의 얼굴 인식, 자율주행차의 주변 인식, 휴머노이드 로봇의 물체 식별에는 공통적으로 '컴퓨터 비전' 기술이 쓰인다. 컴퓨터 비전은 인공지능(AI)이 이미지나 영상을 보고 주변 상황을 이해하도록 돕는 기술이다.

김창익 카이스트 전기및전자공학부 교수 연구진이 미국 매사추세츠공과대(MIT), 마이크로소프트(MS) 연구진과 함께 제한된 그래픽처리장치(GPU) 메모리 환경에서도 AI의 시각 인식 성능을 높일 수 있는 기술 '업샘플 애니띵(Upsample Anything)'을 개발했다고 17일 밝혔다.

최근 AI 시스템은 연산 속도를 높이고 메모리 사용량을 줄이기 위해 입력 영상을 낮은 해상도의 특징 정보로 압축해 처리한다. 특징 정보란 AI가 이미지에서 물체의 형태, 경계, 위치 등 중요한 단서를 뽑아낸 것이다.

하지만 이 과정에서 작은 물체나 얇은 구조, 미세한 결함처럼 중요한 정보가 사라질 수 있다. 반대로 처음부터 모든 영상을 고해상도로 처리하면 GPU 메모리와 연산 자원이 많이 필요해 실시간 처리가 어려워진다. 스마트폰이나 로봇처럼 장치 크기와 전력 사용에 제약이 있는 환경에서는 특히 큰 한계로 꼽혀 왔다.

연구진은 저해상도로 압축된 특징 정보를 다시 고해상도로 복원하는 방식으로 이 문제를 풀었다. 입력 이미지에 담긴 경계와 구조 정보를 활용해 원래 이미지에 가까운 시각 정보를 되살리는 방식이다.

이번 기술의 특징은 추가 학습이 필요 없다는 점이다. 기존 방식은 새로운 환경이나 데이터에 적용하려면 별도의 재학습이나 복잡한 최적화 과정이 필요한 경우가 많았다. 반면 '업샘플 애니띵'은 입력 이미지 한 장만으로 복원 방식을 찾아 다양한 상황에 바로 적용할 수 있도록 설계됐다.

연구진에 따르면 이 기술은 AI 연구에서 널리 쓰이는 224×224 크기 이미지 기준 약 0.4초의 계산으로 원본에 가까운 시각 정보를 복원했다. 또 모든 정보를 고해상도로 저장하지 않고 필요한 정보만 압축해 활용함으로써 GPU 메모리 효율을 최대 16배 높였다.

김창익 교수는 "이번 기술은 적은 자원으로도 AI의 시각 정밀도를 높일 수 있는 알고리즘"이라며 "휴머노이드 로봇과 스마트폰 등 기기 내부에서 AI를 구동하는 온디바이스 AI의 실용화에 기여할 수 있을 것으로 기대한다"고 말했다.

연구 성과는 AI 및 컴퓨터 비전 분야 학회인 'CVPR 2026'에 채택됐으며, 계산 자원 활용 효율성을 인정받아 'CVPR 컴퓨트 골드 스타'를 수상했다. 연구 과정의 투명성과 재현 가능성을 평가하는 '트랜스패런시 챔피언'에도 선정됐다.

참고 자료

arXiv(2025), DOI: https://doi.org/10.48550/arXiv.2511.16301

카이스트, MS·MIT와 AI '눈' 더 선명하게 하는 기술 개발