인공지능(AI) 경쟁이 치열해지면서 데이터를 산업 목적에 맞게 정교하게 가공·공급하는 이른바 '데이터 파운드리(Data Foundry)'가 새 사업 영역으로 떠오르고 있다. 모델 규모보다 데이터의 품질과 활용 역량이 AI 성능을 가른다는 인식이 확산하면서 관련 사업을 영위하는 기업도 주목받고 있다.
17일 스타트업 업계에 따르면 데이터 파운드리 기업 바운드포는 올해 1분기 수주액이 전년 동기 대비 약 5배 증가했다. 바운드포는 직원 12명의 스타트업으로, 창업 초기 로봇·자율주행 등에 활용되는 이미지·영상 데이터 구축에 집중했다. 최근에는 텍스트 기반 업무형 데이터를 가공하는 분야로 영역을 넓혀 사업을 전개하고 있다.
데이터 파운드리는 반도체 산업의 파운드리 모델과 유사한 개념이다. 반도체 업계에서 설계와 생산을 분업화해 효율성을 높였듯, AI 산업에서도 기업이 확보한 데이터를 전문 업체가 산업 목적에 맞게 설계·가공·생산하는 구조를 뜻한다.
업계에서는 데이터 파운드리 기업의 성장을 생성형 AI 경쟁이 데이터 확보 단계에서 산업 목적에 맞는 데이터 가공·활용 경쟁으로 이동하고 있다는 사실을 보여주는 사례라고 평가한다. AI가 실제 업무 수행 영역까지 확대되면서 단순 데이터보다 맥락이 반영된 구조화 데이터 수요가 커지고 있다는 분석이 힘을 얻고 있다.
해외에서도 변화는 감지되고 있다. 미국 AI 데이터 레이블링·구축 전문 기업 '스케일 AI'는 데이터 구축과 검증, 인간 피드백 기반 강화 학습 데이터 생산으로 AI 학습에 필요한 데이터 공급 역할을 확대하고 있다. 메타는 지난해 스케일 AI에 약 143억달러(약 21조원)를 투자했다. 당시 기업 가치는 약 290억달러(약 43조원)로 평가받았다. 엔비디아, 아마존 등도 투자에 참여했다.
황인호 바운드포 대표는 "데이터 양보다 목적에 맞는 설계와 활용 역량이 중요해지고 있다"며 "데이터 생산과 가공을 전문화된 영역으로 분리하는 흐름이 확산할 것"이라고 전망했다.
국내에서는 카이로스랩도 데이터 파운드리 기업으로 꼽힌다. 카이로스랩은 연구 과정에서 활용되지 못했던 실험 데이터를 AI 학습이 가능한 형태로 표준화·가공해 다시 활용하는 사업을 하고 있다. 이를 토대로 반도체·배터리 등 소재 개발 과정에서 반복적인 시행착오를 줄이고 최적 물성을 예측하는 소재 특화 AI 솔루션 개발에 집중하고 있다.
데이터 파운드리 사업이 새로운 산업군이라기보다 원천 데이터를 목적에 맞게 정제·가공하는 데이터 엔지니어링 사업의 연장선이라는 시각도 있다. 같은 업종 안에서도 고객사마다 요구하는 데이터 구조와 품질 기준이 달라 일관된 체계를 갖추기 어렵고, 고객사별 맞춤 구축 비율이 커지면 프로젝트와 같은 용역 사업에 가까워질 수 있다는 의견도 나온다.
업계 관계자는 "데이터 생산·가공을 전문 영역으로 나누는 흐름 자체는 커질 수 있다"면서도 "고객사별로 맞춤 비중이 높아질수록 규모의 경제를 만들기 쉽지 않아 데이터 파운드리를 표방하는 기업들의 장기 수익성은 지켜봐야 할 대목"이라고 말했다.