HANCOMがオープンソースのPDFデータ抽出ツール「オープンデータローダー(OpenDataLoader) PDF v2.0」を12日に公開したと明らかにした。
オープンデータローダー PDF v2.0は、人工知能(AI)方式と直接抽出方式を組み合わせたハイブリッドエンジンを適用した点が特徴である。企業と開発者は、外部サーバーにデータを送信しないローカル環境でPDFデータ抽出機能を利用できる。
文書内の要素を分析する人工知能(AI)アドオン4種も基本提供される。「光学文字認識(OCR)」は画像ベースのPDFとスキャン文書のテキスト認識を支援し、「表抽出」機能は結合セルなど複雑な表構造を分析する。「数式抽出」は科学・数学論文の数式を認識し、「チャート分析」はチャート情報を文章形式で説明する。
これらのアドオンはドックリング(Docling)などのオープンソース人工知能(AI)モデルと技術的に互換となるよう実装した。特定企業や機関との提携関係ではなく、既存の技術環境で連携できるよう互換性を確保した。今後はアドオン構造を通じて追加の人工知能(AI)モデルを拡張できるよう設計した。
オープンデータローダー PDF v2.0は自社ベンチマークテストで、読取順序、表、見出し推論分野などで高い性能を記録した。ベンチマークテストのデータと再現可能なコードは公式ギットハブ(GitHub)リポジトリで公開した。
今回の公開に合わせてオープンソースライセンスも変更した。従来のモジラパブリックライセンス2.0(MPL 2.0・Mozilla Public License 2.0)からアパッチライセンス2.0(Apache License 2.0)へ転換し、商用活用の範囲を拡大した。
ハンコムは今後、人工知能(AI)フレームワーク連携も拡大する計画である。2025年にラングチェーン(LangChain)連携を完了しており、2026年にはラングフロー(Langflow)、ラマインデックス(LlamaIndex)、ジェミナイ CLI(Gemini-cli)などとの連携を推進する。また、人工知能(AI)エージェント支援のためのMCP(モデルコンテキストプロトコル・Model Context Protocol)機能も準備中である。
チョン・ジファン ハンコム最高技術責任者は「オープンデータローダー PDF v2.0は人工知能(AI)方式と直接抽出方式を結合した構造で開発した」と述べ、「オープンソースライセンスの変更を通じて開発者と企業の活用範囲を広げた」と明らかにした。