イラスト=ChatGPT

李在明大統領が就任後初の業務報告で、ハンコムオフィスの「アレアハングル(HWP)」形式は人工知能(AI)活用に適していないとして、対策の準備を指示した。政府と公的機関で主に使われてきたHWP文書形式がAI学習に適さず、公的データ活用の障害とみなされてきたが、改善に向けた議論が本格化するか注目される。

◇ 李大統領「AIが読めないアレアハングルのデータ…技術的解決策を見つけてほしい」

18日の関連業界によれば、李大統領は11日にセジョンコンベンションセンターで開かれた2026年業務報告でアン・ヒョンジュン国家データ庁長の報告を受け、アレアハングルの公的データ互換性の問題を指摘し、対策の用意を求めた。

李大統領は「データの重要性が増す中で、人工知能社会の核心は結局データだ」と述べ、「どのような良質のデータを作り、どう活用するかが重要だ」と語った。続けて「政府公文書はデータの観点では最も良質な資産だが、大半がアレアハングルで作成され各種手法が適用される中で、機械が読めないということではないか」とし、「これをどう解決するのか」と問いかけた。

これに対しアン庁長は「AIが読めるよう標準化を実施すべきだ」と述べ、「アレアハングルをPDFファイルなどに変換し、マシンリーダブル(Machine Readable)な形にする準備をしている」と語った。続いて李大統領が「PDFに変換すれば全て読めるのか」と重ねて確認すると、アン庁長は「一般的な場合は読めるが、不透明なケースではPDFファイルでも読めず、技術的に別の変換が必要だ」と答えた。李大統領は「技術を十分に活用すれば方法はあるはずだ」とし、「人手ではできない。技術的な解決策をうまく見つけてほしい」と指示した。

この指摘は、AI時代の核心である良質データが政府の古い慣行により十分に活用されていない現実を、大統領が公式の場で初めて指摘した事例である。データの活用性を高めるため、文書体系全般を根本的に改善すべきだという強いメッセージと解釈できる。

◇ 公的文書の大半はHWP形式…「ChatGPTでも読めない」

現在、政府と公的機関で生産される公的文書は大半がHWP拡張子ファイルの形で流通している。ウィ・ソンゴン共に民主黨議員が9月17日から10月6日まで中央省庁、広域基礎自治体の公務員を対象に実施した「公的分野のAI活用現況」アンケートによれば、全国の行政機関従事者1万4208人のうち91.1%が報告書・計画書などの行政文書を主にHWP、PDFで活用していると答えた。政府は公的部門の電算化初期に国内ソフトウェア(SW)産業を育成するため、ハンコムオフィスの使用を奨励した。これにより公的機関のHWP使用は義務ではないが、現在まで慣行という理由で続いている。

ただし、近年のAI技術の高度化でデータの重要性が増すなか、公的データ活用を高めるには改善が必要だとの声が高まっている。公的文書はAI開発企業が最も必要とするデータとされる。精練された言語で作成され、政策・行政の流れが因果関係に基づき体系的に整理されているため、国内情報と韓国語理解能力を高めるのに最適なデータだからだ。ただしHWPはセキュリティに重点を置いた閉鎖型文書フォーマットで、AI学習のためにデータを抽出する際に文脈が壊れたり、意味のない2進数情報だけが残って活用度が落ちるとの指摘が続いてきた。

これを解決するため、ハングルとコンピュータ(ハンコム)は2021年にハンコムオフィスの文書基本形式を閉鎖型のHWPから開放型のHWPXに変更した。HWPXは別途の処理なしでデータの分類・抽出が可能な機械判読型文書である。政府も2021年から文書保存の標準をHWPからHWPXへ転換した。もっとも現場では依然として限界があるとの指摘が出ている。すでにHWPで作成された過去文書を使ったり、利用者がHWPX版のハンコムオフィスを使わない場合、データ活用に制約があるためだ。

グローバルAI企業はHWPよりも国際的に通用する文書形式に注力している。実際、国内で最も多く使われる生成AIのChatGPTはHWPフォーマットを直接読めず、別途の変換過程を経る必要がある。このため公的文書がHWP中心で生産・流通される場合、グローバルAIエコシステムとの接点が限られるほかないとの指摘が出ている。

ハンコムはHWPXへの転換と技術高度化で関連問題を改善しているとの立場だ。ハンコム関係者は「現在の基本保存フォーマットであるHWPXは国際標準に従うXMLベースの構造でAI活用に適しており、HWPファイルをHWPXに変換するツールを無償で提供している」と述べ、「別途の変換過程なしでもHWPバイナリファイルからテキストと文書構造情報を直接抽出できる『ハンコムデータローダー』技術を提供している」と語った。

続けて「大規模言語モデル(LLM)の学習に関しては、特定フォーマットが技術的に不可能というより、LLM企業の支援の優先順位と戦略によるタイムラグの問題だ」とし、「実際にグーグルのGemini 3.0はHWPXだけでなくHWPフォーマットもサポートしているだけに、今後はデータ互換性がさらに高まるだろう」と付け加えた。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。