지난 11월 일본 소니 인공지능(AI) 연구팀은 전 세계 최초로 동의를 받은 얼굴과 전신 이미지만으로 구성한 '윤리적 데이터 세트'를 구축했다고 밝힌 바 있다.
이름은 피비(FHIBE·Fair Human-centric Image Benchmark). 말 그대로 AI 학습이 아닌 이미 만들어진 AI가 얼마나 공정하게 작동하는지 평가하기 위한 '공정성 평가 전용 데이터 세트'다.
국제 학술지 '네이처'는 이 '피비'를 활용해 기존의 AI가 얼마나 편향됐는지를 측정한 결과를 분석, 5일 커버스토리로 보도했다. "'피비'가 앞으로 AI 편향 평가의 새로운 기준이 될 것"이라고도 했다.
◇AI 편향 측정하는 데이터 세트 '피비'
앨리스 시앙(Xiang) 박사가 이끄는 소니AI 연구팀은 '피비'를 만들면서 철저하게 동의 절차를 거친 이들의 얼굴과 전신 사진을 수집했다. 81국 1981명이 제공한 이미지 1만318장으로 구성했다. 20개월 동안 3개 대륙에서 촬영을 진행했고, 참가자들에게는 평균 100달러를 지급했다.
촬영 및 사진 제공 동의서를 받는 과정에서 문제가 있는 이미지 5855장은 뺐다. 위험한 장면, 불법적인 모습을 담은 사진 등도 모두 걸러냈다. AI나 자동 분류기 등을 사용해 사진을 1차로 걸러낸 뒤엔 사람이 일일이 모든 이미지를 직접 보고 확인해서 정리했다고 한다. 사진에 번호판·카드 번호 같은 개인 정보가 포함됐을 땐 역시 이를 AI로 지우고 사람이 다시 확인하는 절차를 거쳤다.
◇피부색·성별 편향 심했다, AI 편견 재확인
연구팀은 이렇게 만든 피비로 기존의 AI가 얼마나 편향적인지를 측정해봤다. 오픈AI의 'CLIP', 세일즈포스 리서치의 'BLIP 2' 등이 평가 대상이었다.
측정 결과 연구팀은 기존의 AI는 젊고(18~29세), 피부가 밝고, 아시아계인 사람을 가장 잘 인식한다고 봤다. 반면 나이가 많고(50~59세와 60세 이상), 어두운 피부의 아프리카계 사람 이미지를 인식할 땐 정확도가 크게 떨어졌다.
같은 인종이라도 성별이 바뀌면 인식을 잘 못하는 경향도 보였다. 같은 조건이어도 남성보단 '여성처럼 보이는 얼굴'을 더 잘 찾고 인식했다는 얘기다.
AI는 체형과 포즈에 따라서도 적지 않은 인식 편향을 보였다. 날씬한 체형의 사람을 찍은 사진은 비교적 정확하게 인식했지만, 플러스 사이즈 사람의 이미지를 인식할 땐 오류가 많았다. 휠체어를 타거나 목발을 든 사람 사진은 특히 정확하게 인식하질 못했다.
헤어스타일·복장 편향도 심했다. AI는 히잡이나 터번, 두건을 쓴 사람이나 흑인 특유의 헤어 스타일을 제대로 인식하지 못하는 경향을 보였다. 종교적 머리 장식을 한 경우, 전통 복장을 입은 경우에도 얼굴 인식률이 크게 낮았다. 종교·문화적 차이를 AI가 잘 처리하지 못한다는 얘기다.
연구팀은 AI가 이런 편향을 교정하지 않으면, 앞으로 공항 출입국이나 각종 보안 상황에서 쓰이는 시스템, 범죄 용의자 자동 추적 프로그램을 만들 때 계속해서 오류를 낼 수 있다고 봤다.
연구팀은 AI가 이런 편향적인 반응을 보이는 이유는 특정 집단이 적게 포함된 기존 데이터 세트로 학습해 오기 때문이라고 분석했다. 무단으로 검색해서 학습한 이미지엔 백인이나 밝은 피부, 젊은 사람 사진은 많고, 상대적으로 아프리카계, 중동계, 어두운 피부를 지닌 사람, 고연령자 사진은 적어서 AI 스스로 균형을 맞출 수 없다는 얘기다.