Raw Story Media Inc. v. OpenAI Inc.

Raw Story Media Inc. v. OpenAI Inc.

Case Metadata

Basic Information

1. Case Name: Raw Story Media, Inc. et al. v. OpenAI Inc. and Microsoft Corporation, 1:24-cv-01514-AT (S.D.N.Y. 2024)
2. Court: United States District Court for the Southern District of New York (Federal District Court – New York Jurisdiction)
3. Filing Date: February 28, 2024
4. Judgment Date: November 7, 2024 (Order granting motion to dismiss)
5. Case Number: 1:24-cv-01514-AT
6. Current Status: Dismissed without prejudice; plaintiffs intend to file amended complaint

Parties

7. Plaintiff(s):
– Raw Story Media, Inc. (Independent digital news publisher focused on investigative journalism and progressive news)
– AlterNet Media, Inc. (Progressive news media organization publishing political and social commentary)
8. Defendant(s):
– OpenAI Inc. (Artificial intelligence research and deployment company, developer of ChatGPT and GPT models)
– Microsoft Corporation (Technology corporation and major investor/partner of OpenAI)
9. Key Law Firms:
– For Plaintiffs: [Law firms not specified in available sources]
– For Defendants: [Law firms not specified in available sources]
10. Expert Witnesses: Not yet disclosed (case dismissed at motion to dismiss stage)

Legal Framework

11. Case Type: Digital Millennium Copyright Act (DMCA) violation – copyright management information removal, AI training data appropriation
12. Primary Legal Claims:
– Violation of 17 U.S.C. § 1202(b)(1) – Removal of copyright management information (CMI)
– Violation of 17 U.S.C. § 1202(b)(3) – Distribution of works with CMI removed
13. Secondary Claims: Unjust enrichment under New York state law
14. Monetary Relief: Statutory damages of $2,500 per violation under DMCA, actual damages, injunctive relief, and disgorgement of profits

Technical Elements

15. AI/Technology Involved:
– OpenAI’s GPT large language models (including ChatGPT)
– Web scraping technology for data collection
– Natural language processing and training algorithms
– Retrieval Augmented Generation (RAG) systems
16. Industry Sectors: Digital media publishing, artificial intelligence, technology services, journalism
17. Data Types: Copyrighted news articles, journalistic content, copyright management information metadata

Database Navigation

18. Keywords/Tags: DMCA Section 1202, AI training data, copyright management information, web scraping, ChatGPT, news media, standing doctrine, concrete injury, generative AI, journalism
19. Related Cases:
– The New York Times Co. v. OpenAI Inc., 1:23-cv-11195 (S.D.N.Y. 2023)
– Authors Guild v. OpenAI Inc., 1:23-cv-08292 (S.D.N.Y. 2023)
– Kadrey v. Meta Platforms Inc., 3:23-cv-03417 (N.D. Cal. 2023)
– Tremblay v. OpenAI Inc., 3:23-cv-03223 (N.D. Cal. 2023)

詳細分析 (Detailed Analysis)

事件の概要 (Case Overview)

背景と争点 (Background and Issues)

事実関係:
本件は、独立系デジタルニュースメディアであるRaw Story MediaとAlterNet Mediaが、OpenAIおよびMicrosoftを相手取り、AIモデルの訓練にニュース記事を使用する際に著作権管理情報(CMI)を削除したとして提訴した事案である。原告らは、OpenAIがChatGPTおよびその他のGPTモデルを訓練するために、原告らのウェブサイトから数千件の記事をスクレイピングし、その過程で記事に含まれていた著作者名、発行者名、著作権表示、利用規約へのリンクなどの重要な著作権管理情報を意図的に削除したと主張した。

中心的争点:
1. DMCA第1202条違反の成立要件としての「具体的損害」の立証
2. 著作権管理情報の削除と原告の被害との間の因果関係
3. AIモデル訓練における著作物使用に対するDMCA適用の可否
4. 訴訟適格(standing)の有無

原告の主張:
原告らは、OpenAIがCMIを削除することで、記事の著作者や出所を特定不可能にし、これにより原告らのブランド認知度、トラフィック、購読収入、広告収入に損害を与えたと主張。特に、ChatGPTが原告らのコンテンツを基に回答を生成する際、適切な帰属表示なしに情報を提供することで、ユーザーが原告らのウェブサイトを訪問する必要性を減少させたと論じた。さらに、DMCA違反1件につき2,500ドルの法定損害賠償を求めた。

被告の主張:
被告らは、原告が主張する損害は推測的かつ一般的すぎるものであり、CMI削除と主張される損害との間に直接的な因果関係が存在しないと反論。また、原告らは具体的な著作権侵害を主張しておらず、DMCA第1202条は独立した請求原因とはならないと主張。さらに、訴訟適格を満たすために必要な「事実上の損害」(injury in fact)を立証できていないとして、訴状却下の申立てを行った。

AI/技術要素:
本件の中核には、OpenAIのGPTシリーズ(GPT-3.5、GPT-4を含む)の訓練プロセスが存在する。これらのモデルは、インターネットから収集された大量のテキストデータを使用して訓練されており、その過程でウェブスクレイピング技術が使用された。原告らは、OpenAIがRetrieval Augmented Generation(RAG)システムを使用して、訓練データから情報を抽出し、ユーザーのクエリに応答する際に、元の著作権情報を表示しないシステムを構築したと主張した。

手続きの経過 (Procedural History)

重要な手続き上の決定:
2024年2月28日の訴訟提起後、被告らは連邦民事訴訟規則12条(b)(1)に基づく訴状却下の申立てを行った。主要な争点は、原告らが憲法第3条の要件を満たす訴訟適格を有するかどうかであった。裁判所は、2024年11月7日に口頭弁論を開催し、同日、訴状却下を認める命令を発出した。

証拠開示:
本件は訴状却下の申立て段階で終結したため、実質的な証拠開示(discovery)手続きには至らなかった。しかし、原告らは訴状において、OpenAIのウェブクローラーの活動記録、robots.txtファイルの無視、CMI削除のパターンなどについて詳細な主張を展開した。

専門家証言:
訴状却下段階のため、正式な専門家証言は提出されなかったが、原告らは訴状において、AI訓練プロセス、ウェブスクレイピング技術、デジタルジャーナリズムのビジネスモデルに関する技術的説明を含めていた。

判決の概要 (Judgment Summary)

裁判所の判断 (Court’s Decision)

主要な判決内容:
Analisa Torres判事は、原告らが訴訟適格の要件である「事実上の損害」を立証できなかったとして、訴状を却下した。裁判所は、原告らが主張する損害(トラフィック減少、収益損失、ブランド価値の毀損)とCMI削除との間に十分な因果関係が示されていないと判断した。

勝敗の結果:
被告らの訴状却下申立てが認められ、原告らの訴えは偏見なき却下(dismissal without prejudice)となった。これにより、原告らは修正訴状を提出する機会を与えられた。

命令された救済措置:
裁判所は実体的な救済措置を命じることなく、手続き的理由により訴状を却下した。原告らには、より具体的な損害の主張を含む修正訴状を提出する機会が与えられた。

重要な法的判断:
1. DMCA第1202条違反の請求において、原告は具体的かつ特定可能な損害を立証する必要がある
2. 一般的な市場への影響や推測的な収益損失は、訴訟適格を確立するには不十分
3. CMI削除と主張される損害との間には、直接的かつ追跡可能な因果関係が必要

反対意見・補足意見:
単独判事による判決のため、反対意見や補足意見は存在しない。

法的推論の分析 (Analysis of Legal Reasoning)

適用された法理:
裁判所は、Spokeo, Inc. v. Robins, 578 U.S. 330 (2016)およびTransUnion LLC v. Ramirez, 594 U.S. 413 (2021)で確立された訴訟適格の基準を適用。これらの判例は、原告が「具体的かつ特定化された」損害を立証する必要があることを明確にしている。

事実認定:
裁判所は、原告らがChatGPTの使用によるトラフィック減少や収益損失について一般的な主張をしているものの、具体的な事例や数値データを提供していないことを指摘。また、CMI削除がどのように直接的に原告らの損害につながったかについての因果関係の立証が不十分であると認定した。

技術的理解:
裁判所は、AI訓練プロセスとCMI削除の技術的側面について一定の理解を示しつつも、技術的な複雑性よりも法的な訴訟適格要件の充足に焦点を当てた。裁判所は、AIシステムが情報を処理し出力する方法と、それが原告らのビジネスに与える影響との関連性について、より具体的な証拠を要求した。

法的意義 (Legal Significance)

先例価値 (Precedential Value)

将来への影響:
本判決は、AI企業に対するDMCA第1202条を根拠とする訴訟において、原告が直面する立証のハードルを明確にした。将来の同様の訴訟において、原告は以下を立証する必要がある:
1. CMI削除の具体的事例
2. 削除と損害との直接的因果関係
3. 推測ではない実際の経済的損害

法理論の発展:
本件は、生成AI時代におけるDMCA適用の限界を示す重要な事例となった。従来の著作権侵害とは異なるアプローチ(CMI削除に焦点を当てる)の実効性について、裁判所が慎重な姿勢を示したことは注目に値する。

解釈の明確化:
DMCA第1202条が独立した請求原因として機能するためには、単なる技術的違反の主張では不十分であり、実際の損害の立証が必要であることが明確化された。

規制・実務への影響 (Regulatory and Practical Impact)

AIガバナンス:
AI開発企業は、訓練データ収集において以下の実務を検討すべきである:
1. CMI保持のための技術的措置の実装
2. データソースの帰属表示システムの構築
3. コンテンツ提供者との明示的なライセンス契約の締結
4. Opt-outメカニズムの尊重と実装

コンプライアンス:
メディア企業および出版社は、AI企業に対する法的保護を強化するため、以下の対策を講じるべきである:
1. CMIの強化と標準化
2. 技術的保護手段の実装
3. 損害の定量的追跡システムの構築
4. ライセンシング戦略の明確化

業界への影響:
本判決は、AI訓練におけるデータ使用の法的グレーゾーンを浮き彫りにし、業界全体で以下の動きを促進する可能性がある:
1. AI企業とコンテンツ提供者間の商業的パートナーシップの増加
2. 業界標準の策定と自主規制の強化
3. 技術的ソリューション(ブロックチェーン等)による帰属管理の導入

リスク管理:
AI企業は以下のリスク管理策を検討すべきである:
1. 訓練データの出所と権利関係の文書化
2. CMI処理に関する内部ポリシーの策定
3. コンテンツ提供者との紛争解決メカニズムの確立
4. 保険によるリスクヘッジの検討

比較法的観点 (Comparative Law Perspective)

日本法との比較:
日本の著作権法には、DMCA第1202条に直接対応する規定は存在しないが、著作者人格権(特に氏名表示権)や著作権法第113条(みなし侵害)の規定が類似の保護を提供する可能性がある。日本においてAI訓練のためのデータ使用は、著作権法第30条の4(著作物に表現された思想又は感情の享受を目的としない利用)により、一定程度許容されているが、権利管理情報の削除については明確な規定がない。

日本の企業がAI開発を行う際には:
1. 著作者人格権への配慮が特に重要
2. 情報解析目的での利用であっても、出所明示の慣行を維持すべき
3. 個人情報保護法との関係にも注意が必要

他国判例との関係:
EUでは、DSM指令(Digital Single Market Directive)により、テキスト・データマイニングに関する例外規定が設けられているが、権利者のopt-out権が認められている。英国では、AI訓練のための著作権例外規定の導入が検討されたが、撤回された経緯がある。

グローバルな影響:
本判決は、国際的に事業を展開するAI企業に対して、各国の法制度の違いを考慮した訓練データ収集戦略の必要性を示唆している。特に:
1. 地域別のコンプライアンス体制の構築
2. 国際的なライセンシング枠組みの検討
3. データローカライゼーション要件への対応

重要なポイント (Key Takeaways)

実務家への示唆:

1. 訴訟戦略の見直し: メディア企業がAI企業を訴える際、DMCA第1202条のみに依拠する戦略は、損害の立証において高いハードルに直面する。著作権侵害、不正競争防止法、契約違反など、複数の請求原因を組み合わせた包括的なアプローチが推奨される。

2. 証拠収集の重要性: 将来の訴訟に備え、メディア企業は以下のデータを体系的に収集・保存すべきである:
– AIボットによるアクセスログ
– トラフィック変化の詳細な分析
– 収益への具体的影響の定量化
– ユーザー行動パターンの変化

3. 予防的措置の実装: 技術的および法的な予防措置として、robots.txt、利用規約の強化、技術的保護手段の実装、明示的なライセンシング条項の設定が重要である。

今後の展望:

本件は修正訴状の提出が予定されており、原告らがより具体的な損害の立証に成功すれば、DMCA第1202条のAI訓練への適用について実体的な判断が示される可能性がある。また、連邦議会におけるAI規制法案の動向、業界の自主規制の発展、国際的な規制調和の進展が、この分野の法的枠組みを形作ることになるだろう。

注意すべき事項:

1. 立証責任の重要性: AI関連訴訟において、推測的または一般的な損害の主張では不十分であり、具体的かつ定量的な証拠が必要
2. 技術的複雑性への対応: 裁判所がAI技術を理解し適切に判断するため、技術専門家の関与が不可欠
3. 国際的視点の必要性: AI開発と展開のグローバルな性質を考慮し、複数法域での法的リスクを評価する必要がある
4. 商業的解決の模索: 訴訟と並行して、ライセンシング契約やパートナーシップなどの商業的解決策を検討すべきである

このレポートに関する注意事項 (Warning/Notes)

このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。


Comments

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です