ハンコムのOpenDataLoader PDF v2.0がGitHub全言語トレンド1位を獲得

ハンコム提供

HANCOM（以下、ハンコム）のオープンソースプロジェクト「オープンデータローダー（OpenDataLoader） PDF v2.0」がGitHubで全開発言語基準のトレンド1位を記録したと23日明らかにした。

今回の成果は発売から1週間で達成したもので、3月21日基準でGitHubのスター数が7000件、フォークが500件を突破した。1日最大1800件以上のスター増加も記録した。

「オープデータローダー PDF v2.0」はPDF文書をテキスト、表、画像などに分解し、人工知能（AI）が活用できるデータ形態に変換する技術である。

当該バージョンはAI方式と直接抽出方式を結合したハイブリッドエンジンを適用し、光学文字認識（OCR）、表抽出、数式抽出、チャート分析機能を提供する。

またローカル環境で稼働し、外部サーバーへの送信なしにデータ処理が可能である。ドクリング（Docling）など他のオープンソースモデルとの互換性も確保した。

ハンコムは自社のベンチマークテストで、読み取り順序、表、見出し抽出など全項目で最高精度を記録したと明らかにした。

今回のバージョンにはアパッチライセンス2.0（Apache License 2.0）が適用され、商用活用も可能である。

キム・ヨンスハンコム代表は「今回の成果は文書データ抽出技術の完成度と実用性がグローバル開発者コミュニティで検証された結果だ」とし、「オープンなPDFデータプラットフォームへと発展させていく」と述べた。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。