한컴 제공

한글과컴퓨터(이하 한컴)의 오픈소스 프로젝트 '오픈데이터로더(OpenDataLoader) PDF v2.0'이 깃허브에서 전체 개발 언어 기준 트렌딩 1위를 기록했다고 23일 밝혔다.

이번 성과는 출시 일주일 만에 달성된 것으로, 3월 21일 기준 깃허브 스타 수 7000개, 포크 500개를 돌파했다. 하루 최대 1800개 이상의 스타 증가도 기록했다.

'오픈데이터로더 PDF v2.0'은 PDF 문서를 텍스트, 표, 이미지 등으로 분해해 인공지능(AI)이 활용할 수 있는 데이터 형태로 변환하는 기술이다.

해당 버전은 AI 방식과 직접 추출 방식을 결합한 하이브리드 엔진을 적용했으며, 광학문자인식(OCR), 표 추출, 수식 추출, 차트 분석 기능을 제공한다.

또한 로컬 환경에서 구동되며 외부 서버 전송 없이 데이터 처리가 가능하다. 도클링(Docling) 등 타 오픈소스 모델과의 호환성도 확보했다.

한컴은 자체 벤치마크 테스트에서 읽기 순서, 표, 제목 추출 등 전 항목에서 최고 정확도를 기록했다고 밝혔다.

이번 버전에는 아파치 라이선스 2.0(Apache License 2.0)이 적용돼 상업적 활용도 가능하다.

김연수 한컴 대표는 "이번 성과는 문서 데이터 추출 기술의 완성도와 실용성이 글로벌 개발자 커뮤니티에서 검증된 결과"라며 "개방형 PDF 데이터 플랫폼으로 발전시켜 나가겠다"고 말했다.