한컴 제공

한글과컴퓨터(이하 한컴)는 자사의 PDF 데이터 추출 기술 '오픈데이터로더 PDF(OpenDataLoader PDF)'가 글로벌 AI 개발 프레임워크 '랭체인(LangChain)'의 공식 컴포넌트로 등록됐다고 3일 밝혔다.

랭체인은 챗GPT 등 대규모 언어 모델(LLM)을 기반으로 한 AI 애플리케이션 개발에 가장 널리 사용되는 오픈소스 프레임워크로, 전 세계 수십만 명의 개발자가 활용하는 사실상의 표준 도구다.

이번 등록은 한컴이 지난 9월 깃허브(GitHub)에 '오픈데이터로더 PDF'의 코드를 공개한 데 이어, 해당 기술이 글로벌 AI 개발 생태계의 핵심 구성요소로 공식 인정받았다는 점에서 의미가 크다. 랭체인과의 통합은 단순한 오픈소스 공개를 넘어, 기술의 안정성과 성능, 그리고 AI 개발 환경에서의 적합성을 글로벌 커뮤니티로부터 검증받았음을 의미한다.

'오픈데이터로더 PDF'는 AI 학습 및 활용 과정에서 병목을 유발하는 PDF 문서 내 텍스트, 표, 이미지 등의 데이터를 빠르고 정확하게 추출해 AI가 즉시 활용 가능한 형태로 변환하는 기술이다. 이를 통해 AI 모델의 데이터 전처리 효율성을 크게 높일 수 있다.

한컴은 이번 등록으로 전 세계 AI 개발자들이 '오픈데이터로더 PDF'를 활용해 PDF 데이터 처리 과정을 간소화할 수 있게 됐으며, 이를 통해 글로벌 AI 생태계의 생산성 향상에 직접 기여할 수 있게 됐다.

정지환 한컴 최고기술책임자(CTO)는 "랭체인 공식 등록은 한컴의 문서 처리 기술력이 글로벌 AI 개발 표준의 일부로 인정받은 성과"라며 "앞으로도 전 세계 개발자 커뮤니티와 협력해 기술을 고도화하고, AI 시대의 데이터 활용 문제를 해결하는 데 기여하겠다"고 말했다.