개인정보보호위원회는 인공지능(AI) 학습에 필요한 합성데이터의 안전한 생성과 활용을 돕기 위해 합성데이터 참조모델 5종을 공개한다고 30일 밝혔다.
합성데이터(Synthetic data)는 시중에 존재하는 각종 데이터의 특성을 참조해 기존에 없던 새로운 가상의 데이터를 만들어낸 것이다. 실제로 존재하는 것이 아니기 때문에 적절한 과정을 거쳐 생성한 합성데이터는 개인정보보호법에 적용받지 않아 안전조치를 할 필요가 없고, 개인정보 유출이나 권리 보장 문제가 발생하지 않는다는 장점이 있다.
앞서 개인정보위는 합성데이터를 활용하려는 기업·연구기관 수요를 파악한 뒤, 조사 결과에 걸맞은 데이터를 생성했다. 생성 과정에서는 각 분야 전문가로 구성된 연구반의 검토와 외부 전문가의 적정성 심의를 거쳤다.
또한 합성데이터와 원본데이터가 얼마나 유사한지, 동일한 목표를 달성할 수 있는지 등을 분석하는 ‘유용성 검증’과 함께 합성데이터를 통해 원본데이터에서 개인이 식별될 가능성이 있는지 등을 검토하는 ‘안전성 검증’도 마쳤다.
합성데이터의 핵심이 실제 데이터의 가치를 최대한 유지하는 동시에 개인이 식별되지 않도록 생성하는 데 있기 때문에 여기서 균형점을 찾는 것이 중요하다고 개인정보위는 설명했다.
연구진은 기존 목표 수준에 충족될 때까지 관련 데이터를 재생성, 추가 처리, 재검증하는 절차를 거쳤다. 이 과정에서 AI 기술로 정교한 합성 데이터를 만들어내는 ‘적대적 생성 신경망(GAN)’ 시스템이 활용됐다.
개인정보위가 이런 과정을 거쳐 마련한 합성데이터 생성 참조모델은 ▲ 보건 의료 분야의 ‘구강 이미지’ ▲ 보건 의료 분야의 ‘혈당 측정 정보’ ▲ 공공 안전 분야의 ‘안전모 착용 이미지’ ▲ 유통 분야의 ‘통신사 멤버십 사용 내용’ ▲ 금융 분야의 ‘기업 주주·대표자 정보’ 등 5가지로 구성됐다.
개인정보위는 30일 합성데이터 제작 과정과 참조 모델 등을 담은 가이드북을 개인정보위 홈페이지에서 공개하고, 같은 날 서울 서초구 국립중앙도서관에서 열리는 ‘제1회 개인정보 기술포럼’에서도 관련 내용을 발표할 예정이다.
내달 3일부터는 ‘가명정보 지원플랫폼(dataprivacy.go.kr)’을 통해 이번에 제작한 합성데이터를 공개하고, 활용을 원하는 기업이나 연구자를 대상으로 신청받는다.
고학수 개인정보위 위원장은 “‘합성데이터 생성 참조모델’은 개인정보 침해 우려를 없애고, 데이터를 적극적으로 활용하도록 유도해 관련 산업 발전에 기여할 것으로 기대된다”며 “앞으로도 국민 삶의 질을 높일 수 있도록 개인정보의 안전한 활용을 위해 노력하겠다”고 말했다.