無料オンライン百科事典のウィキペディアが、人工知能(AI)企業に対し無断のデータ収集(スクレイピング)を中止するよう求めた。
ウィキペディアを運営するウィキメディア財団は10日(現地時間)、AI開発者に対してウィキペディアのコンテンツの出所を明示するなど「責任ある」利用を行い、自社の有料製品である「ウィキメディア・エンタープライズ・プラットフォーム」を利用するよう要請した。
主要なAI企業はウィキペディアのコンテンツを大量にスクレイピングし、大規模言語モデル(LLM)を基盤とする生成AIモデルの学習に利用しているとされる。AIモデルを高度化するには学習データの品質が重要だが、ウィキペディアのコンテンツは分量が膨大である一方、客観的で信頼できるとの評価を受けている。
最近、AIボットが人間であるかのように偽装してウィキペディアをスクレイピングしていると財団は明らかにした。財団によると、今年5〜6月にウィキペディアの訪問者数が異常に高かったが、無断でデータ収集を行うために訪れたAIボットが急増した結果だった。財団は「最近、人間利用者の訪問は前年同期比で8%減少した一方で、AIボットの接続と推定される訪問は増えた」と述べた。
また、AIボットでありながらあたかも人間であるかのように偽装し「ボット検知」を回避しようとする試みもあったと財団は付け加えた。
同時に、自社の有料製品を使えば、コンテンツを大規模に確保しながらもウィキペディアのサーバーに深刻な負担をかけずに済むと説明した。
また、AIプラットフォームがウィキペディアを引用して回答する際には出所を必ず明示するよう求めた。財団は「人々がインターネットで共有される情報を信頼するには、プラットフォームが情報の出所を明確に示し、(利用者が)当該出所に訪問する機会を提供する必要がある」と強調した。
さらに「(人間利用者の)ウィキペディア訪問が減少すれば、コンテンツの品質を高めるボランティアが減り、これを支援する個人寄付者も減少しかねない」と指摘した。