한컴, ‘오픈데이터로더 PDF v2.0’ 공개… “오픈소스 PDF 데이터 추출 벤치마크 1위”

한컴 제공

한글과컴퓨터가 오픈소스 PDF 데이터 추출 도구 '오픈데이터로더(OpenDataLoader) PDF v2.0'을 12일 공개했다고 밝혔다.

오픈데이터로더 PDF v2.0은 인공지능(AI) 방식과 직접 추출 방식을 결합한 하이브리드 엔진을 적용한 것이 특징이다. 기업과 개발자는 외부 서버로 데이터를 전송하지 않는 로컬 환경에서 PDF 데이터 추출 기능을 사용할 수 있다.

문서 내 요소를 분석하는 인공지능(AI) 애드온 4종도 기본 제공된다. '광학문자인식(OCR)'은 이미지 기반 PDF와 스캔 문서의 텍스트 인식을 지원하며, '표 추출' 기능은 병합된 셀 등 복잡한 표 구조를 분석한다. '수식 추출'은 과학·수학 논문의 수식을 인식하고, '차트 분석'은 차트 정보를 문장 형태로 설명한다.

이들 애드온은 도클링(Docling) 등 오픈소스 인공지능(AI) 모델과 기술적으로 호환되도록 구현됐다. 특정 기업이나 기관과 제휴 관계는 아니며 기존 기술 환경에서 연동할 수 있도록 호환성을 확보했다. 향후 애드온 구조를 통해 추가 인공지능(AI) 모델을 확장할 수 있도록 설계됐다.

오픈데이터로더 PDF v2.0은 자체 벤치마크 테스트에서 읽기 순서, 표, 제목 추론 분야 등에서 높은 성능을 기록했다. 벤치마크 테스트 데이터와 재현 가능한 코드는 공식 깃허브(GitHub) 저장소에 공개됐다.

이번 공개와 함께 오픈소스 라이선스도 변경됐다. 기존 모질라 퍼블릭 라이선스 2.0(MPL 2.0·Mozilla Public License 2.0)에서 아파치 라이선스 2.0(Apache License 2.0)으로 전환해 상업적 활용 범위를 확대했다.

한컴은 향후 인공지능(AI) 프레임워크 연동도 확대할 계획이다. 2025년 랭체인(LangChain) 연동을 완료했으며, 2026년에는 랭플로우(Langflow), 라마인덱스(LlamaIndex), 제미나이 CLI(Gemini-cli) 등과의 연동을 추진한다. 또한 인공지능(AI) 에이전트 지원을 위한 MCP(모델 컨텍스트 프로토콜·Model Context Protocol) 기능도 준비 중이다.

정지환 한컴 최고기술책임자는 "오픈데이터로더 PDF v2.0은 인공지능(AI) 방식과 직접 추출 방식을 결합한 구조로 개발됐다"며 "오픈소스 라이선스 변경을 통해 개발자와 기업의 활용 범위를 넓혔다"고 밝혔다.

한컴, '오픈데이터로더 PDF v2.0' 공개… "오픈소스 PDF 데이터 추출 벤치마크 1위"