고해상도 네트워크와 저해상도 네트워크에서 추출된 어텐션 맵. (a) 입력 이미지, (b) 고해상도 네트워크에서 추출된 어텐션 맵, (c) 지식 전이 기법이 적용되지 않은 저해상도 네트워크에서 출력된 어텐션 맵, (d) 제안하는 어텐션 맵 전이 기법이 적용된 후의 저해상도 네트워크에서 추출된 어텐션 맵. 어텐션 맵 전이 기법이 적용된 후, 저해상도 네트워크에서 추출된 어텐션 맵이 고해상도 네트워크에서 추출한 어텐션 맵과 유사한 경향을 보이는 것을 확인했다./GIST

보안카메라에 찍힌 범인 얼굴이 아무리 흐릿해도 판독할 수 있는 인공지능이 국내에서 개발됐다. 앞으로 수사기관이나 보안업체에서 저화질 CCTV(폐쇄회로TV) 영상으로도 신원을 확인할 수 있을 것으로 기대된다.

광주과학기술원(GIST) 융합기술학제학부 이규빈 교수 연구진은 “인공지능(AI)의 딥러닝 기술을 적용해 저화질 영상에서도 눈·코·입 등 사람 얼굴의 주요 특징을 잘 인식할 수 있는 기술을 개발했다”고 24일 밝혔다. 이번 논문은 지난 23일 세계 3대 컴퓨터 비전 학회인 ‘유럽 컴퓨터 비전 학술대회(ECCV)’에 발표됐다.

인공지능이 대량의 데이터를 학습하면 사람이 지시하지 않아도 스스로 이미지의 특징을 파악할 수 있다. 이러한 인공지능의 딥러닝(심층학습) 기술은 얼굴 인식에서 99% 이상의 정확도를 보여 보안 분야에서 널리 쓰이고 있다.

문제는 인공지능이 학습하는 얼굴 이미지의 해상도가 최소한 가로×세로 1인치에 각각 화소(픽셀)가 112개 이상은 돼야 한다는 것이다. 사진이 선명하지 않으면 인공지능의 딥러닝도 소용없다는 말이다. 고해상도 이미지를 학습한 인공지능에게 저해상도(24×24 픽셀) 사진을 주면 누구 얼굴인지 알아내는 정확도가 30% 수준에 그친다.

해상도가 높은 이미지를 학습한 인공지능(위)은 높은 인식 정확도를 보이며, 이때 추출된 어텐션 맵은 눈, 코, 수염과 같이 사람을 구분 짓는 주요 영역에서 활성화된다. 저해상도 이미지를 학습한 인공지능(아래)은 피부처럼 해상도 변화에 둔감한 영역에서 높은 활성도를 보인다. 이런 인공지능에게 고해상도 네트워크에서 추출된 어텐션 맵을 이전하면 성능이 향상된다./GIST

연구진은 이를테면 공부 잘하는 학생의 공부법을 가르쳐주는 방법으로 이 문제를 해결했다. 아무리 공부 시간이 많아도 중요하지 않은 문제에만 매달리면 성적이 나오지 않지만, 우등생처럼 어떤 문제를 집중적으로 풀어야 하는지 알면 효과적인 학습이 가능한 것과 같다.

먼저 같은 사진을 고해상도와 저해상도로 만든 다음, 각각 인공지능에 수천 장씩 학습시켰다. 이후 고해상도 이미지를 학습한 인공지능의 정보를 저해상도만 본 인공지능에 전달했다. 그러자 저해상도 이미지의 얼굴 인식 정확도가 기존 세계 최고 성능인 45.49%보다 5% 향상된 47.91%를 보였다.

연구진이 이전한 정보는 인공지능이 이미지를 분석할 때 어느 부분에 집중하는지 보여주는 어텐션 맵(attention map)이다. 고해상도 이미지를 학습한 인공지능의 어텐션 맵은 눈과 코, 입처럼 얼굴 윤곽을 알 수 있는 부분에 집중하지만, 저해상도 이미지만 본 인공지능은 피부처럼 불필요한 부분에 집중한다. 논문 제1저자인 신성호 연구원은 “인공지능이 두 사람이 같은 사람인지 판단하는 시험에선 기존 최고 기록이 78%였는데 어텐션 맵 전달후 80%까지 향상됐다”고 말했다.

이번 연구 결과는 저해상도 CCTV 이미지도 수사에 활용할 수 있는 길을 열었다. 또 이미지의 해상도가 높더라도 멀리서 촬영되거나 여러 사람이 한꺼번에 촬영되면 개별 인물의 얼굴은 저해상도가 된다. 이규빈 교수는 “이번 연구 성과가 응용되면 범죄 해결의 중요 단서를 제공하는 CCTV로 멀리서 촬영된 사람의 얼굴 특징까지 정확하게 인식할 수 있다”고 말했다.

참고자료

https://doi.org/10.48550/arXiv.2209.14498

왼쪽 아래부터 반시계방향으로 광주과기원 융합기술학제학부 통합과정 이주순, 통합과정 신성호, 이규빈 교수, 통합과정 이준석, 박사과정 유연국./GIST