한국형 생성 AI 포기 못해… 정부, ‘비라벨링’ 학습 데이터 구축 늘린다

(왼쪽부터) 이종호 과학기술정보통신부 장관, 고진 대통령 직속 디지털플랫폼위원회 위원장, 고학수 개인정보보위원회 위원장이 지난 14일 오후 서울 종로구 정부서울청사 기자회견장에서 윤석열 대통령이 참석한 가운데 디지털플랫폼 정부 실현 계획 보고회를 열고 브리핑을 하고 있다. /연합뉴스

정부가 국내 인공지능(AI) 경쟁력 강화를 위해 올해 학습 데이터 구축에 총 2805억원을 투입, 신규 데이터 150종을 구축한다. 특히 올해는 '디지털판 노가다'로 불려온 기존 라벨링 데이터 물량은 일부 축소하고, 비(非)라벨링 데이터 구축을 확대한다. 업계에서는 데이터 추가 확보로 국내 생성형 AI 개발에 속도가 날 것이란 기대감이 나온다.

17일 업계에 따르면 과학기술정보통신부는 다음 달 19일까지 '인공지능 학습용 데이터 구축사업' 참여자를 공모한다. AI 학습 데이터를 활용하는 전문기업과 데이터 수집‧보유‧가공 등의 구축 역량을 갖춘 2개 이상 기업과 기관이 컨소시엄을 구성해 참여할 수 있다. 과기정통부는 총 114개의 신규 주관기관을 선정하고, 선정 기관에 데이터 종당 구축비용으로 1년간 13억5000만원~17억원을 지원할 예정이다.

박윤규 과기정통부 제2차관은 "방대한 양의 데이터를 배워 사람처럼 추론하는 초거대 AI 등 새로운 AI 기술이 등장하면서 양질의 대규모 데이터 확보는 어느 때보다 중요해지고 있다"며 "혁신적인 아이디어를 가진 많은 기업들이 AI 도입과 개발에 보다 적극적으로 도전할 수 있도록 고품질의 데이터 인프라를 조성함으로써, 우리 국민들이 생활 속 구석구석에서 더욱 다양한 혜택을 누릴 수 있는 기반을 다져 나가겠다"고 했다.

◇ 올해 비라벨링 데이터 34종 구축… 2027년 200종 목표

과기정통부는 우선 지난해 수요조사를 통해 접수한 약 1400건의 후보 데이터를 토대로 130종의 데이터를 기획, 지정과제 형태로 추진할 계획이다. 지정과제는 지난해 1월 수립한 'AI 학습용 데이터 구축·활용 고도화 방안'에 따라 선정한 14대 분야 118종 데이터와 2022년도 계속과제 12종으로 구성했다. 나머지 20종은 자유 과제로 지역특화, 자유주제 등 일반 영역과 초거대 AI 영역으로 나눠 선정, 지원한다.

이번 사업에서 주목할 건 초거대 AI 학습을 위한 데이터 구축 방안이다. 그간 라벨링 데이터 구축에 집중해온 과기정통부는 올해부터 텍스트 데이터를 중심으로 비라벨링 데이터 구축을 병행할 방침이다. 476억원의 예산을 들여 한국어 21종 등 총 34종의 비라벨링 데이터를 구축한다.

오는 2027년까지는 총 200종의 비라벨링 데이터를 구축한다. 책 15만권에 달하는 양이다. 한국어 위주로 데이터를 구축하되, 비영어권 시장 공략을 위해 동남아·중동 등 언어 데이터도 단계적으로 늘린다. 이미지 데이터는 지금처럼 라벨링 데이터를 구축하되, 기업 등이 초거대 AI 학습에 활용할 수 있도록 설명 텍스트(캡션)를 추가한다.

2023년도 '인공지능 학습용 데이터 구축사업' 공모과제 개요. /과학기술정보통신부

라벨링 데이터는 사람이 원천 데이터에 값을 붙인 데이터를 말한다. 옷의 안쪽에 상표나 품명, 취급 주의사항을 적은 천 조각을 대는 것처럼 화면 속 객체가 개인지, 고양이인지, 사람인지, 페이크 영상인지 구분해 AI가 인식할 수 있는 형태의 데이터로 컴퓨터에 입력하는 것이다. 초기엔 사람이 일일이 데이터 값을 붙여야 했기 때문에 비용과 시간이 많이 들어 '디지털판 인형 눈 붙이기'로도 불렸다.

과기정통부가 비교적 기업 부담이 크다는 판단 아래 라벨링 데이터 구축을 지원해온 이유다. 정부는 2020년 '디지털 뉴딜' 정책 발표 당시 "인공지능도 사람처럼 지식을 축적하려면 양질의 정보가 필요하다"며 "데이터를 수집, 입력, 정리하는 등의 작업에는 많은 인력 수작업이 필요해 일자리 창출로 연결될 것"이라고 했었다.

◇ 라벨링 데이터, 생성형 AI 시대에 안 맞아… 업계 '반색'

상황은 초거대 AI의 등장으로 생성형 AI 개발이 활발해지면서 달라졌다. 초거대 AI를 기반으로 한 '챗GPT' 등 생성형 AI는 트랜스포머 구조의 인공신경망을 통해 학습하기 때문이다. 트랜스포머 모델은 사람처럼 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 이해한다. 쉽게 말해, 라벨링 데이터가 전처럼 대량으로 필요하지 않게 된 것이다.

업계는 정부의 새 데이터 구축 방안을 환영한다는 입장이다. 학습 데이터의 규모는 AI의 성능과 직결되기 때문이다. 더욱이 현존하는 비라벨링 데이터 중에는 한국어 데이터가 거의 없다. 국내 기업들은 글로벌 빅테크 간 생성형 AI 개발 경쟁이 가열되는 가운데 한국어에 특화된 모델로 틈새 시장을 공략한다는 전략을 짜고 있다.

업계는 학습 데이터 부족을 AI 개발 및 도입을 가로막는 주요 저해 요인으로 꼽아왔다. 이에 과기정통부는 2020년부터 '데이터 댐' 사업을 통해 'AI 허브'를 구축하고 6대 분야에서 총 381종의 데이터를 제공 중이지만, 양은 물론 품질 면에서 떨어진다는 평가를 받는다. 실제로 2021년 11월 기준 AI 허브에서 데이터를 내려받아 사업화 준비 단계까지 나아간 비율은 전체 11만13건 중 39%에 불과했다.

업계 관계자는 "정부는 비라벨링 데이터 중에서도 법률·의료 등 전문 데이터에 초점을 맞추는 모습이다"라며 "이런 데이터는 기업이 접근하기 어려운 만큼 많은 도움이 될 것으로 기대하고 있다"고 했다.

한국형 생성 AI 포기 못해… 정부, '비라벨링' 학습 데이터 구축 늘린다