과기정통부, AI 학습용 데이터 구축 지원사업 20건 선정
추경예산 3000억원으로 하반기 150종 추가 계획

인공지능(AI)이 의료영상을 판독해 질병을 진단하거나 주변환경을 인식해 자율주행 성능을 높이도록 하는 학습용 공공데이터가 구축된다.

과학기술정보통신부는 올해 ‘AI 학습용 데이터 구축사업’의 20개 지원과제를 선정했다고 21일 밝혔다.

AI 학습용 데이터 구축사업은 정부가 AI 개발에 필요한 양질의 데이터를 대규모로 구축하고 개방하기 위해 2017년 시작한 사업이다. 현재까지 21종, 4650만건의 데이터를 구축해 AI허브(aihub.or.kr)에 공개하고 있다.

올해는 작년보다 선정 과제 수와 예산 모두 2배 늘어나 20개 과제에 총 390억원을 지원한다.

국립암센터는 유방암 진단을 위한 환자 의료영상 데이터를, 기업 ‘디노플러스’는 치매 진단을 위한 환자 뇌파 영상 데이터를 구축한다.

울산대는 자율주행 드론의 주변 인식 성능을 높이기 위해 관광지·도심지·산림지 등의 고화질(4K) 비행 촬영 데이터를 구축한다. ‘올포랜드’는 자율주행차에 활용할 수 있는 도로 파노라마 이미지 데이터 확보에 나선다.

딥페이크 영상을 잡아내기 위한 조작 영상, AI 문서요약 성능을 높이기 위한 텍스트 요약 샘플도 학습용 데이터로 구축된다.

과기정통부는 2925억원의 추경예산을 통해 올해 하반기 안에 학습용 데이터를 150종 추가로 구축해 총 191종까지 늘릴 계획이다.

낱개의 데이터들을 모으고 가공하는 데 필요한 인력을 크라우드 소싱 방식으로 확보할 방침이다. 크라우드 소싱 방식은 모든 사람이 데이터 수집·가공에 참여할 수 있는 방식이다. 작년에 2개 과제에 시범 적용한 데 이어 올해는 모든 과제에 확대 적용한다.

과기정통부 관계자는 "AI 학습용 데이터 구축을 대규모로 확대해 ‘데이터 댐’에 모으고 다양한 기술, 서비스 개발에 활용되도록 지원하겠다"며 "양질의 일자리 창출과 새로운 성정 원동력을 확보할 수 있을 것으로 기대한다"고 말했다.