HANCOM(以下、ハンコム)のオープンソースプロジェクト「オープンデータローダー(OpenDataLoader) PDF v2.0」がGitHubで全開発言語基準のトレンド1位を記録したと23日明らかにした。
今回の成果は発売から1週間で達成したもので、3月21日基準でGitHubのスター数が7000件、フォークが500件を突破した。1日最大1800件以上のスター増加も記録した。
「オープデータローダー PDF v2.0」はPDF文書をテキスト、表、画像などに分解し、人工知能(AI)が活用できるデータ形態に変換する技術である。
当該バージョンはAI方式と直接抽出方式を結合したハイブリッドエンジンを適用し、光学文字認識(OCR)、表抽出、数式抽出、チャート分析機能を提供する。
またローカル環境で稼働し、外部サーバーへの送信なしにデータ処理が可能である。ドクリング(Docling)など他のオープンソースモデルとの互換性も確保した。
ハンコムは自社のベンチマークテストで、読み取り順序、表、見出し抽出など全項目で最高精度を記録したと明らかにした。
今回のバージョンにはアパッチライセンス2.0(Apache License 2.0)が適用され、商用活用も可能である。
キム・ヨンス ハンコム代表は「今回の成果は文書データ抽出技術の完成度と実用性がグローバル開発者コミュニティで検証された結果だ」とし、「オープンなPDFデータプラットフォームへと発展させていく」と述べた。
※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。