한글과컴퓨터(한컴)가 인공지능(AI) 학습 과정에서 문제로 지적돼 온 PDF 문서 데이터 처리 병목 현상을 해결할 수 있는 핵심 기술을 글로벌 오픈소스로 공개했다고 19일 밝혔다.
이번에 공개된 '오픈데이터로더 PDF(OpenDataLoader PDF)'는 한컴의 문서 처리 기술을 기반으로 개발된 PDF 데이터 추출 엔진으로, 텍스트·표·이미지·레이아웃 정보를 정형화된 데이터(JSON, Markdown, HTML)로 변환해 AI 학습에 활용할 수 있도록 지원한다.
최근 허깅 페이스(Hugging Face)가 4억7500만 건 규모의 PDF 데이터셋 '파인PDFs(FinePDFs)'를 공개하는 등 PDF는 전 세계적으로 널리 사용되는 문서 포맷이지만, 구조적 복잡성으로 인해 학습용 데이터 추출에 제약이 많았다. 이번 프로젝트는 이러한 문제를 해소하기 위해 지난 7월 한컴과 듀얼랩(Dual Lab)이 체결한 업무협약의 결과로, 양사는 오픈소스 기반 PDF 데이터로더 공동 개발을 진행해 왔다.
오픈데이터로더 PDF는 성능 면에서도 검증을 받았다. 벤치마크 테스트 결과, 문서의 읽기 순서를 평가하는 지표인 정규화 편집 거리(NID, Normalized Indel Distance)에서 기존 오픈소스 대비 85% 수준의 성능을 보였으며, 금융·공공기관 등 민감한 데이터를 다루는 환경에서 네트워크 연결 없이 완전 오프라인으로 작동해 데이터 유출 위험을 차단한다.
또한 최근 AI 산업의 주요 과제로 떠오른 학습 데이터 안전성(AI Safety) 강화를 위해 프롬프트 인젝션(Prompt Injection)과 같은 보안 위협을 자동 감지·차단하는 기능도 제공할 계획이다. 이를 통해 AI 학습 데이터의 안정성과 신뢰성을 높이고, 안전한 학습 환경을 구축하는 데 기여한다는 목표다.
한컴은 앞으로 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동을 강화하고, 깃허브(GitHub) 기반 글로벌 개발자 커뮤니티와 협력을 확대해 오픈소스 생태계 확산을 이어갈 계획이다.
정지환 한컴 최고기술책임자(CTO)는 "AI 트랜스포메이션(AX) 시대에는 오픈소스가 기업과 사회 전반의 혁신과 경쟁력 확보를 위한 필수 전략"이라며 "이번 공개를 통해 글로벌 개발자들과 협력해 PDF 데이터 추출 기술을 발전시키고, 연말에는 AI 기반 문서 인식 기술을 추가하는 등 프로젝트 고도화를 이어가겠다"고 밝혔다.