Tremblay v. OpenAI, Inc. (In re OpenAI ChatGPT Litigation)
Case Metadata
Basic Information
1. Case Name: Paul Tremblay, et al. v. OpenAI, Inc., et al. (In re OpenAI ChatGPT Litigation)
2. Court: United States District Court for the Northern District of California (originally filed); currently consolidated in United States District Court for the Southern District of New York under Multidistrict Litigation
3. Filing Date: June 28, 2023
4. Judgment Date: Partial dismissal on February 12, 2024; case remains ongoing
5. Case Number: 3:23-cv-03223-AMO (N.D. Cal.); MDL No. 1:25-md-03143-SHS (S.D.N.Y.)
6. Current Status: Active litigation in discovery phase; consolidated under MDL proceedings with discovery deadlines and conferences scheduled through 2025
Parties
7. Plaintiff(s):
– Paul Tremblay (Author, individual plaintiff; author of “The Cabin at the End of the World”)
– Mona Awad (Author, individual plaintiff; novelist)
– Sarah Silverman (Author/Comedian, individual plaintiff)
– Christopher Golden (Author, individual plaintiff)
– Richard Kadrey (Author, individual plaintiff)
– Michael Chabon (Author, individual plaintiff; Pulitzer Prize-winning novelist)
– [Putative class of all persons who own U.S. copyrights in books used to train ChatGPT]
8. Defendant(s):
– OpenAI, Inc. (Delaware corporation; AI research and deployment company)
– OpenAI, L.P. (Limited partnership entity)
– OpenAI OpCo, L.L.C. (Operating company entity)
– Related OpenAI entities
9. Key Law Firms:
– For Plaintiffs: Joseph Saveri Law Firm, LLP (lead counsel); Boies Schiller Flexner LLP; Cafferty Clobes Meriwether & Sprengel LLP; Ventura Hersey & Muller, LLP
– For Defendants: Morrison & Foerster LLP; Keker, Van Nest & Peters LLP; Latham & Watkins LLP
10. Expert Witnesses: Not yet disclosed; expert discovery scheduled for 2025
Legal Framework
11. Case Type: Copyright infringement class action litigation concerning AI training on copyrighted literary works without permission or compensation
12. Primary Legal Claims: Direct copyright infringement under 17 U.S.C. § 106 (exclusive rights in copyrighted works)
13. Secondary Claims: Vicarious copyright infringement (dismissed); DMCA violations under 17 U.S.C. § 1202(b) (dismissed); California unfair competition (dismissed July 2024); negligence (dismissed); unjust enrichment (dismissed)
14. Monetary Relief: Statutory damages of up to $150,000 per infringed work; injunctive relief; attorney’s fees and costs
Technical Elements
15. AI/Technology Involved: ChatGPT (GPT-3, GPT-3.5, GPT-4); Large Language Models (LLMs); Natural Language Processing; transformer architecture; Books1 and Books2 training datasets
16. Industry Sectors: Publishing and literature; artificial intelligence and machine learning; content creation and media; education and research
17. Data Types: Copyrighted literary works (novels, non-fiction books); text corpus data; allegedly pirated book collections from shadow libraries
Database Navigation
18. Keywords/Tags: AI copyright infringement, ChatGPT litigation, fair use defense, LLM training data, shadow libraries, Books1 dataset, Books2 dataset, transformative use, generative AI, copyright class action
19. Related Cases:
– Kadrey v. Meta Platforms, Inc., No. 3:23-cv-03417 (N.D. Cal.)
– Authors Guild v. OpenAI, Inc., No. 1:23-cv-08292 (S.D.N.Y.)
– Doe v. GitHub, Inc., No. 4:22-cv-06823 (N.D. Cal.)
– Getty Images v. Stability AI, Inc., No. 1:23-cv-00135 (D. Del.)
詳細分析 (Detailed Analysis)
事件の概要 (Case Overview)
背景と争点 (Background and Issues)
事実関係: 2023年6月、複数の著名な作家がOpenAIを相手取り、同社のChatGPTを訓練するために著作権で保護された書籍を無断で使用したとして集団訴訟を提起した。原告らは、OpenAIが「Books1」および「Books2」と呼ばれるデータセットを使用してGPT-3およびその後継モデルを訓練したと主張している。これらのデータセットは、合わせて約35万冊の書籍を含み、GPT-3の訓練データの16%を占めていたとされる。特に問題とされているのは、Books2データセットが、Library Genesis、Z-Library、Sci-Hub、Bibliotikなどの「悪名高いシャドウライブラリサイト」から取得された海賊版書籍である可能性が高いという点である。
中心的争点: 本件の核心的な法的問題は、AIモデルの訓練に著作権で保護された作品を使用することが、著作権侵害に該当するか、それとも「フェアユース」として許容されるかという点である。さらに、AIが訓練データから学習して生成する出力が、元の著作物の派生物として著作権侵害を構成するかどうか、また、訓練データに含まれる著作権管理情報(CMI)を除去または変更することがDMCA違反に該当するかどうかも争点となっている。
原告の主張: 原告らは、ChatGPTが彼らの小説の正確な要約を生成できることを証拠として、OpenAIが無断で彼らの著作物を複製し、訓練データとして使用したと主張している。彼らは、この大規模な複製行為が商業目的であり、作品の潜在的市場や価値に悪影響を与えると主張し、1作品あたり最大15万ドルの法定損害賠償を求めている。また、OpenAIが著作権管理情報を意図的に除去または変更したことでDMCA違反を犯したとも主張していた。
被告の主張: OpenAIは、AIモデルの訓練は研究および教育目的のフェアユースに該当すると主張している。同社は、ChatGPTが原告の作品の実質的に類似したコピーを生成していないこと、モデルの訓練は変革的使用であること、そして訓練プロセスは書籍市場に害を与えないことを主張している。また、訓練後にデータセットを削除したことも指摘している。
AI/技術要素: ChatGPTは、トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)である。GPT-3は1750億個のパラメータを持ち、インターネットから収集された膨大なテキストデータで訓練されている。Books1データセットは、主にProject Gutenbergからの6万冊以上のパブリックドメインの書籍で構成されているとされる。一方、Books2データセットは約29万4000冊の書籍を含み、その出所が争点となっている。モデルは、次の単語を予測する自己回帰的な方法で訓練され、テキストの統計的パターンを学習することで、人間のような文章を生成する能力を獲得している。
手続きの経過 (Procedural History)
重要な手続き上の決定: 2024年2月12日、北カリフォルニア地区連邦地方裁判所のAraceli Martinez-Olguin判事は、OpenAIの棄却申立てを部分的に認め、6つの請求原因のうち5つを棄却した。生き残ったのは直接的著作権侵害の請求のみである。その後、2024年7月には、一度は存続が認められていたカリフォルニア州不正競争防止法に基づく請求も棄却された。2025年には、本件はニューヨーク州南部地区連邦地方裁判所のマルチディストリクト訴訟(MDL)に統合され、Sidney H. Stein判事の下で審理されている。
証拠開示: 2025年1月27日、連邦判事はOpenAIに対し、GPT-4の訓練データセットを原告側弁護士に開示するよう命じた。この決定は、AIモデルの訓練データの透明性に関する重要な前例となる可能性がある。現在、証拠開示は進行中であり、当事者間で訓練データへのアクセス範囲について激しい議論が行われている。証拠開示の期限は、初期事件管理会議の保留中、現在停止されているが、当事者は自主的に証拠開示を行うことができる。
専門家証言: 専門家の証拠開示は2025年に予定されており、AI技術、著作権法、出版業界への影響に関する専門的な証言が期待されている。特に、LLMの訓練プロセス、フェアユースの適用、市場への影響に関する技術的・経済的分析が重要となる見込みである。
判決の概要 (Judgment Summary)
裁判所の判断 (Court’s Decision)
主要な判決内容: 2024年2月12日の判決において、Martinez-Olguin判事は以下の判断を示した:
1. 直接的著作権侵害の請求については、原告が訓練段階での複製を十分に主張したとして、棄却を認めなかった。裁判所は、OpenAIのフェアユース抗弁の可能性を認識しながらも、この段階では事実問題として判断を留保した。
2. 代位責任に基づく著作権侵害については、原告がChatGPTの出力が彼らの著作物と実質的に類似していることを示していないとして棄却した。裁判所は、要約の生成だけでは著作権侵害の十分な証拠とならないと判断した。
3. DMCA違反の請求については、原告の主張に一貫性がないとして棄却した。特に、ChatGPTの出力が実際に原告の名前を含んでいたという事実が、CMIの除去という主張と矛盾すると指摘した。
4. 過失および不当利得の請求は、法的根拠が不十分として棄却された。
勝敗の結果: 現段階では、原告は直接的著作権侵害の請求のみで訴訟を継続することが認められており、完全な勝敗は決していない。しかし、裁判所が多くの請求を棄却したことは、OpenAIにとって部分的な勝利と見なすことができる。
命令された救済措置: 現時点では、最終的な救済措置は命じられていない。訴訟は証拠開示段階にあり、今後、集団認証、サマリージャッジメント、またはトライアルを経て最終的な判決が下される予定である。
重要な法的判断: 裁判所は、AIモデルの訓練における著作物の使用がフェアユースに該当する可能性を示唆した。これは、「変革的使用」の概念をAI分野に拡張する可能性を示している。また、AIの出力と元の著作物との間の「実質的類似性」の基準を厳格に適用し、単なる要約の生成は著作権侵害の十分な証拠とならないと判断した。
反対意見・補足意見: 本件は地方裁判所レベルの判決であるため、反対意見や補足意見は存在しない。
法的推論の分析 (Analysis of Legal Reasoning)
適用された法理: 裁判所は、著作権法の伝統的な枠組みをAI技術に適用した。特に、フェアユースの4要素テスト(使用の目的と性質、著作物の性質、使用された部分の量と実質性、市場への影響)を考慮する必要性を認めた。また、「実質的類似性」テストを厳格に適用し、著作権侵害の成立には、保護される表現の複製が必要であることを強調した。
事実認定: 裁判所は、ChatGPTが原告の作品の要約を生成できることを認めたが、これが必ずしも訓練データに原告の作品が含まれていたことの決定的な証拠とはならないと判断した。また、OpenAIがBooks1およびBooks2データセットを使用したことは認めたが、その具体的な内容や出所については事実問題として証拠開示を通じて明らかにされるべきとした。
技術的理解: 裁判所は、LLMの訓練プロセスについて基本的な理解を示し、訓練データの複製と、モデルが生成する出力との間に技術的な区別があることを認識した。裁判所は、AIモデルが訓練データを「記憶」するのではなく、統計的パターンを学習することを理解し、これが著作権分析に与える影響を考慮した。
法的意義 (Legal Significance)
先例価値 (Precedential Value)
将来への影響: 本判決は、AI訓練における著作物使用に関する初期の重要な判例として、今後の同種訴訟に大きな影響を与える。特に、フェアユース抗弁の適用可能性を示唆したことは、AI開発企業にとって重要な前例となる。一方で、直接的著作権侵害の請求を存続させたことは、著作権者の権利保護の道を開いたままにしている。
法理論の発展: 本件は、「変革的使用」の概念をAI分野に拡張する可能性を示している。従来、変革的使用は主に芸術的な文脈で適用されてきたが、AIによる大規模なデータ処理と学習が新たな形の変革的使用として認められる可能性がある。また、AIの出力と訓練データとの関係について、新たな法的枠組みの必要性を示唆している。
解釈の明確化: 裁判所は、著作権侵害の「実質的類似性」基準をAI生成コンテンツに適用する際の指針を提供した。単なる要約やパラフレーズでは著作権侵害を構成しないという判断は、AIの出力に関する今後の訴訟において重要な基準となる。
規制・実務への影響 (Regulatory and Practical Impact)
AIガバナンス: 本件は、AI開発企業に対し、訓練データの取得と使用に関するより厳格なガバナンス体制の構築を促している。特に、データの出所の文書化、ライセンスの確認、著作権リスクの評価プロセスの確立が重要となる。企業は、「クリーンな」データセットの使用を証明できる体制を整える必要がある。
コンプライアンス: AI開発企業は、以下の対策を検討すべきである:
– 訓練データの出所と権利関係の徹底的な調査と文書化
– ライセンス済みまたはパブリックドメインのデータの優先的使用
– オプトアウト機構の実装
– 著作権者との事前のライセンス交渉
– 訓練データの削除・更新ポリシーの策定
– フェアユース分析の文書化
業界への影響: 本件は、AI業界全体に以下の影響を与えている:
– 訓練データの取得コストの増加
– オープンソースAIモデルの開発への萎縮効果
– データライセンシング市場の発展
– 合成データや公開データセットへの依存の増加
– 技術的な著作権保護措置の開発促進
リスク管理: 企業は以下のリスク管理策を実施すべきである:
– 著作権侵害保険の検討
– 訓練データの監査プロセスの確立
– 法務部門とAI開発部門の緊密な連携
– 業界標準やベストプラクティスの遵守
– 規制動向の継続的なモニタリング
比較法的観点 (Comparative Law Perspective)
日本法との比較: 日本の著作権法では、平成30年改正により、情報解析のための著作物の利用が一定の条件下で認められている(著作権法第30条の4)。これは、「著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合」の利用を許可するもので、AI訓練への適用可能性がある。米国のフェアユース原則と比較して、日本法はより明確な法的根拠を提供しているが、商業利用の範囲や競合関係の考慮など、解釈上の課題も存在する。
他国判例との関係: 英国では、2023年に政府がAI訓練のための著作権例外規定の導入を検討したが、創作者団体からの反対により撤回された。EUでは、デジタル単一市場著作権指令(2019/790)により、テキスト・データマイニングに関する例外規定が設けられているが、権利者によるオプトアウトが可能である。これらの国際的動向は、グローバルなAI開発における法的調和の必要性を示している。
グローバルな影響: 本件の結果は、以下のような国際的影響を持つ:
– 多国籍AI企業のグローバルなデータ戦略の見直し
– 国際的な著作権ライセンシング枠組みの発展
– AI訓練データの「セーフハーバー」となる管轄地の出現可能性
– 国際条約や協定における AI と著作権の扱いに関する議論の活発化
– クロスボーダーでのデータ共有とAI開発における法的不確実性の増大
重要なポイント (Key Takeaways)
実務家への示唆:
1. AI開発企業の法務担当者は、訓練データの取得から使用、削除に至るまでの完全なライフサイクル管理体制を構築すべきである。
2. 著作権者側の代理人は、技術的証拠の収集と専門家証人の確保が訴訟の成否を左右することを認識すべきである。
3. フェアユース抗弁を主張する際は、変革的使用の性質、非商業的側面、市場への影響の最小化を明確に文書化することが重要である。
4. 訓練データのライセンス交渉においては、使用目的、期間、地理的範囲、派生物の取り扱いについて明確な条項を設けるべきである。
今後の展望:
本件は、AI技術と著作権法の交差点における法的枠組みの発展の始まりに過ぎない。今後、以下の展開が予想される:
– 連邦議会によるAI訓練に関する特別な著作権例外規定の制定可能性
– 業界団体による自主規制ガイドラインの策定
– 著作権者とAI企業間の集団ライセンシング機構の設立
– 技術的保護手段(TPM)のAI訓練への適用
– 国際的な規制調和の取り組み
注意すべき事項:
1. 本件はまだ係争中であり、最終的な判決によっては法的枠組みが大きく変わる可能性がある。
2. 個別のケースにおけるフェアユースの適用は、具体的な事実関係に大きく依存する。
3. 技術の急速な発展により、現在の法的分析が将来的に時代遅れになる可能性がある。
4. 異なる管轄地域では異なる法的アプローチが取られる可能性があり、グローバル企業は複数の法的枠組みを考慮する必要がある。
5. MDL統合により、関連する複数の訴訟の結果が統一的に判断される可能性があり、業界全体への影響が増幅される可能性がある。
このレポートに関する注意事項 (Warning/Notes)
– このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。
コメントを残す