エヌビディアの韓国語合成データHFで1位

エヌビディアの韓国型合成データセット「ネモトロン・ペルソナ・コリア」が、グローバルAI開発プラットフォームのHugging Faceでデータセット部門1位を記録した。/エヌビディア

エヌビディアの韓国型合成データセット「ネモトロン・ペルソナ・コリア」が、グローバル人工知能（AI）開発プラットフォームのHugging Faceでデータセット部門1位を記録した。

エヌビディアは28日にこの成果を発表し、「韓国語特化データセットがグローバルコミュニティで高い注目を集め、技術的完成度と実用性を認められた事例だ」と述べた。韓国AIエコシステムの競争力を示す注目すべき成果だという。

ネモトロン・ペルソナ・コリアは、韓国の人口統計・地理・文化的特性を精緻に反映した600万件規模の合成データセットである。国家統計ポータル（KOSIS）・大法院（韓国の最高裁）・国民健康保険公団・韓国農村経済研究院・NAVERクラウド（NAVER Cloud）など信頼度の高い公共・民間データを基に構築された。

氏名・性別・年齢・婚姻状態・学歴・職業・居住地域など主要属性は実際の統計値に従う。敬語体系や地域別職業パターンなど、韓国語と言語文化的文脈まで考慮してデータの現実性を高めた。既存データセットで相対的に反映が少なかった高齢層・農村地域・教育・職業群まで包含する。エヌビディア側は「開発者が韓国文化をより深く理解する精緻なAIシステムを構築できるよう支援する」と明らかにした。

エヌビディアはこのデータセットを韓国の個人情報保護法（PIPA）に合わせて設計し、個人情報を含まない完全合成データで構成した。現在、ネモトロン・ペルソナ・コリアはオープンソースライセンスで公開されている。エヌビディア側は「韓国型ソブリンAI発展の中核資産として、データ多様性の拡大、モデルのバイアス緩和、応答品質の向上に寄与する」と期待を示した。

※ 本記事はAIで翻訳されています。ご意見はこちらのフォームから送信してください。