グーグルが自社の検索結果をスクレイピングするクロール(crawling・データ抽出)業者を相手取り訴訟を起こした。クロールで収集したデータが競合の生成型人工知能(AI)モデルの訓練に使われるのを阻止する措置とみられる。
世界最大の検索事業者であるグーグルは、テキサス州オースティンに拠点を置くクロール系スタートアップ「サーフApi」(SerpApi)が著作権を侵害しているとして、カリフォルニア北部連邦地裁に提訴したと19日(現地時間)に明らかにした。グーグルは「今回の訴訟を機にサーフApiの悪質なクロール行為を停止させることが目標だ」と述べた。
クロールとは、無数のインターネットページの内容を大量に複製して保存する作業である。AIモデルの訓練を含め、各種の分析作業に活用される。
グーグルは、サーフApiが個別のウェブサイトが定めたクロールプロトコル(指針)を無視したままコンテンツを無断取得し、これを防ぐためのセキュリティ対策まで不正に回避していると指摘した。
グーグルは「グーグルは業界標準のクロール指針に従っているが、サーフAPIのような業者は身元を隠し、大規模なボットネットワークでウェブサイトを攻撃する」とし、「彼らは偽名を使い回すなどして裏口(バックドア)を利用し、ウェブサイトのコンテンツを丸ごと収集しており、こうした違法行為はこの1年で急増した」と説明した。
とりわけ、グーグルが外部でライセンスを取得して表示しているコンテンツを彼らが持ち去り有料で再販売しているとして、「サーフApiのビジネスモデルは寄生虫のようだ(parasitic)」と言及した。
グーグルは訴状で、サーフApiの個別違反事項それぞれに対する損害賠償額を200〜2500ドルと算定した。そのうえで「彼らには賠償金を支払う能力がなく、グーグルに回復不可能な被害を引き起こしている」と強調した。
これに対しサーフApiの法務顧問であるチャド・アンソンは「グーグルの訴状はまだ受領しておらず、グーグルは提訴前に当社へ連絡してこなかった」とし、自社の事業は表現の自由を定めた合衆国憲法修正第1条によって保護されると主張した。
2017年設立のサーフApiは、当初は顧客がグーグル検索で上位表示されるよう支援するために情報を収集する会社として出発した。しかしChatGPTの開発元であるオープンAIを筆頭に生成AI企業が台頭すると、サーフApiはこれまでかき集めてきたウェブページデータを彼らに販売する新たな市場に参入した。
サーフApiは、同様の事業を手がけるリトアニアのスタートアップであるオクシラブス、ロシア企業のAQMプロキシなどとともに、ウェブページデータをオープンAIやMeta(メタ)などに販売したとされる。
このため業界では、グーグルがオープンAI、Meta(メタ)などの競合を牽制するためにサーフApiに法的措置を取ったと解釈している。
米国の裁判所は、グーグルに検索データを主要な競合と共有するよう命じたが、グーグルが提供すべきデータは利用者が入力した検索語や生データなどに限定し、検索結果を構成するアルゴリズムは共有対象から除外した。
オンラインコミュニティのレディットも10月にサーフApiをはじめとするクロール業者を相手取り訴訟を提起したことがある。