Chabon et al. v. OpenAI, Inc. et al.
Case Metadata
Basic Information
1. Case Name: Michael Chabon, David Henry Hwang, Matthew Klam, Rachel Louise Snyder, and Ayelet Waldman, individually and on behalf of all others similarly situated v. OpenAI, Inc., OpenAI LP, OpenAI Opco LLC, OpenAI Global LLC, OAI Corporation LLC, OpenAI Holdings LLC, OpenAI LLC, OpenAI Startup Fund GP I LLC, OpenAI Startup Fund I LP, OpenAI Startup Fund Management LLC, and Microsoft Corporation
2. Court: United States District Court for the Northern District of California, Oakland Division (originally filed); currently consolidated in United States District Court for the Southern District of New York as part of Multidistrict Litigation (MDL)
3. Filing Date: September 8, 2023
4. Judgment Date: Not yet decided (case ongoing)
5. Case Number: Original: 4:23-cv-04625 (N.D. Cal.); MDL: 1:24-md-03122 (S.D.N.Y.)
6. Current Status: Consolidated into MDL No. 3143 (In re ChatGPT, Copilot & AI Use of Content Litigation) in the Southern District of New York as of February 8, 2024; currently in discovery phase
Parties
7. Plaintiff(s):
   – Michael Chabon – Pulitzer Prize-winning novelist and author
   – David Henry Hwang – Tony Award-winning playwright and screenwriter
   – Matthew Klam – Acclaimed novelist and short story writer
   – Rachel Louise Snyder – Award-winning journalist and author
   – Ayelet Waldman – Bestselling novelist and essayist
   – Class Representatives for all authors whose copyrighted works were allegedly used without authorization
8. Defendant(s):
   – OpenAI, Inc. and related entities – Artificial intelligence research company developing ChatGPT and other AI models
   – Microsoft Corporation – Technology corporation and major investor/partner of OpenAI with exclusive licensing rights
9. Key Law Firms:
   – Plaintiffs: Joseph Saveri Law Firm, LLP (lead counsel); Lockridge Grindal Nauen P.L.L.P.; Lieff Cabraser Heimann & Bernstein, LLP
   – Defendants: Latham & Watkins LLP (for OpenAI); Perkins Coie LLP (for Microsoft)
10. Expert Witnesses: Technical experts on AI training, copyright valuation experts, and digital forensics specialists (specific names sealed in discovery documents)
Legal Framework
11. Case Type: AI copyright infringement class action; unauthorized use of copyrighted materials for AI model training; algorithmic transparency and data sourcing litigation
12. Primary Legal Claims:
   – Direct Copyright Infringement (17 U.S.C. § 501)
   – Vicarious Copyright Infringement
   – Violations of Digital Millennium Copyright Act (DMCA) § 1202(b) – Removal of Copyright Management Information
   – Unfair Competition under California Business & Professions Code § 17200
13. Secondary Claims:
   – Negligence
   – Unjust Enrichment
   – Contributory Copyright Infringement (against Microsoft)
14. Monetary Relief: Statutory damages up to $150,000 per infringed work; actual damages and disgorgement of profits; injunctive relief to prevent further use of copyrighted materials; attorneys’ fees and costs
Technical Elements
15. AI/Technology Involved:
   – ChatGPT (GPT-3, GPT-3.5, GPT-4 models)
   – Large Language Model (LLM) training systems
   – “Books2” dataset allegedly containing pirated content
   – Shadow library platforms (Library Genesis, Z-Library, Bibliotik)
   – Web scraping and data ingestion technologies
16. Industry Sectors: Publishing, creative industries, technology/AI development, education, entertainment media
17. Data Types: Literary works, copyrighted books, training datasets, copyright management information (CMI), metadata
Database Navigation
18. Keywords/Tags: AI copyright infringement, ChatGPT litigation, Books2 dataset, shadow libraries, LLM training data, fair use defense, DMCA violations, class action, MDL consolidation, generative AI, copyright management information
19. Related Cases:
   – Tremblay v. OpenAI, Inc., 3:23-cv-03223 (N.D. Cal.)
   – Silverman v. OpenAI, Inc., 3:23-cv-03416 (N.D. Cal.)
   – Authors Guild v. OpenAI, Inc., 1:23-cv-08292 (S.D.N.Y.)
   – Kadrey v. Meta Platforms, Inc., 3:23-cv-03417 (N.D. Cal.)
   – In re ChatGPT, Copilot & AI Use of Content Litigation, MDL No. 3143 (S.D.N.Y.)
詳細分析 (Detailed Analysis)
事件の概要 (Case Overview)
背景と争点 (Background and Issues)
事実関係: 本件は、著名な作家グループがOpenAI社およびMicrosoft社を相手取り、AIモデルChatGPTの訓練において著作権で保護された書籍を無断使用したとして提起した集団訴訟である。2023年9月8日、ピューリッツァー賞受賞作家のMichael Chabonを筆頭とする5名の原告が、カリフォルニア州北部地区連邦地方裁判所に訴状を提出した。原告らは、OpenAIが「Books2」と呼ばれるデータセットを通じて、Library GenesisやZ-Libraryなどの「シャドーライブラリー」(違法な電子書籍配布サイト)から取得した海賊版書籍を使用してChatGPTを訓練したと主張している。
中心的争点: 本訴訟の核心は、AI言語モデルの訓練における著作権で保護された作品の使用が、フェアユース(公正利用)の範囲内であるか否かという点にある。具体的には以下の争点が中心となっている:
– 大規模言語モデル(LLM)の訓練データとして著作物を使用することが直接的な著作権侵害に該当するか
– 違法に取得されたコンテンツ(海賊版書籍)を訓練に使用することの法的責任
– AIが生成するコンテンツが原著作物の派生的著作物に該当するか
– 著作権管理情報(CMI)の除去がDMCA違反に該当するか
原告の主張: 原告らは、OpenAIが数十万冊の書籍を含む大規模なデータセットを使用してChatGPTを訓練し、その過程で以下の違法行為を行ったと主張している:
– 著作権者の許諾なく著作物を複製・使用した
– 違法なソースから取得したコンテンツであることを認識しながら使用を継続した
– 書籍から著作権表示やその他の管理情報を意図的に除去した
– ChatGPTが原著作物の要約や派生的コンテンツを生成できることで、原著作物の市場価値を毀損した
– Microsoft社と共謀して大規模な著作権侵害を行った
被告の主張: OpenAI社およびMicrosoft社は、以下の抗弁を提出している:
– AI訓練におけるデータ使用はフェアユースの範囲内である
– 変革的使用(transformative use)として保護されるべきである
– 原告らは実際の損害を立証していない
– 生成されるコンテンツは原著作物の複製ではなく、新たな創作物である
– 技術革新と表現の自由の観点から、AIモデルの訓練は社会的利益をもたらす
AI/技術要素: ChatGPTは、Transformer アーキテクチャに基づく大規模言語モデルで、数千億のパラメータを持つ。訓練プロセスでは、以下の技術的要素が関与している:
– テキストのトークン化とエンコーディング
– 教師なし学習による文脈理解の獲得
– ファインチューニングによる応答品質の向上
– 「Books2」データセット:研究者らの推定によると、Library Genesis等から取得した約29万冊の書籍を含む
– データクリーニングとフィルタリング処理により、著作権表示が除去された可能性
手続きの経過 (Procedural History)
重要な手続き上の決定:
– 2023年11月:被告による却下申立て(Motion to Dismiss)の提出
– 2023年12月8日:裁判所が一部の請求について却下を認める一方、主要な著作権侵害請求は維持
– 2024年2月8日:司法パネル(JPML)により、類似訴訟と共にニューヨーク州南部地区連邦地方裁判所へのMDL統合が決定
– 2024年3月:統合訴状(Consolidated Complaint)の提出
– 2024年6月:ディスカバリー手続きの開始
証拠開示: ディスカバリー段階において、以下の重要な証拠が焦点となっている:
– OpenAIの内部文書(訓練データの取得源に関する記録)
– Books2データセットの完全な内容と取得方法
– Microsoft社とのライセンス契約および技術協力の詳細
– ChatGPTの訓練ログとデータ処理記録
– 著作権管理情報の処理に関する技術文書
専門家証言: 複数の技術専門家および著作権専門家が意見書を提出:
– AI訓練プロセスにおけるデータ使用の必然性に関する技術的分析
– 海賊版コンテンツの識別と使用に関するフォレンジック分析
– 著作物の市場価値への影響に関する経済分析
– フェアユース判断における変革的使用の評価
判決の概要 (Judgment Summary)
裁判所の判断 (Court’s Decision)
注:本件は現在係争中であり、最終判決は下されていない。以下は、これまでの中間判断および手続き上の決定に基づく分析である。
主要な判決内容: 2023年12月8日のカリフォルニア州北部地区連邦地方裁判所による一部却下決定において、Araceli Martínez-Olguín判事は以下の判断を示した:
– 維持された請求:
  – 直接的著作権侵害請求:原告らは、OpenAIが著作物を無断で複製・使用したことについて、十分な事実を主張している
  – DMCA § 1202(b)違反:著作権管理情報の除去に関する請求は、さらなる事実審理が必要
  – カリフォルニア州不正競争防止法違反:違法な手段による競争上の優位性獲得の主張は検討に値する
– 却下された請求:
  – 過失請求:著作権侵害における過失理論の適用は不適切
  – 不当利得請求:連邦著作権法による専占(preemption)により州法請求は排除される
重要な法的判断: 裁判所は、AI訓練におけるフェアユース抗弁について、現段階では事実関係の詳細な検討が必要であり、申立て却下段階での判断は時期尚早であると示唆した。特に以下の点が注目される:
– 変革的使用の判断には、AIモデルの具体的な機能と生成物の性質の検討が必要
– 商業的使用の事実は、フェアユース判断において不利に働く可能性がある
– 原著作物全体の使用は、フェアユース判断において重要な考慮要素となる
法的推論の分析 (Analysis of Legal Reasoning)
適用された法理: 裁判所は、以下の先例および法理に依拠している:
– Campbell v. Acuff-Rose Music, Inc., 510 U.S. 569 (1994):変革的使用とフェアユースの判断基準
– Authors Guild v. Google, Inc., 804 F.3d 202 (2d Cir. 2015):デジタル化とフェアユースの関係
– Perfect 10, Inc. v. Amazon.com, Inc., 508 F.3d 1146 (9th Cir. 2007):技術的複製と著作権侵害
事実認定: 現段階で裁判所が認定した重要な事実:
– OpenAIがChatGPTの訓練に大量のテキストデータを使用したことは争いがない
– Books2データセットの存在と使用については、さらなる証拠開示が必要
– 原告らの著作物がChatGPTによって再現可能であることは、侵害の一応の証明となりうる
技術的理解: 裁判所は、AI技術の複雑性を認識しつつ、以下の技術的側面に注目している:
– LLMの訓練プロセスにおける著作物の「摂取」と「学習」の区別
– トークン化とエンベディングによる著作物の変換プロセス
– 生成されたコンテンツと原著作物の類似性の評価方法
法的意義 (Legal Significance)
先例価値 (Precedential Value)
将来への影響: 本訴訟は、AI時代における著作権法の適用に関する画期的な先例となる可能性が高い。特に以下の点で重要な影響を持つ:
– AI訓練データの合法性基準: 本件の判決は、どのようなデータソースがAI訓練に使用可能かの基準を確立する
– フェアユースの範囲拡大または制限: 大規模な商業的AI開発におけるフェアユース抗弁の適用可能性を明確化する
– 技術革新と著作権保護のバランス: AIイノベーションと創作者の権利保護の適切なバランスポイントを示す
法理論の発展: 本訴訟は、以下の新たな法理論の発展に寄与している:
– 「機械学習例外」の可能性: EU等で議論されている、AI訓練目的での著作物使用に関する特別な例外規定の必要性
– 派生的著作物の再定義: AI生成コンテンツが派生的著作物に該当するかの新たな判断基準
– 集合的侵害理論: 個々の著作物使用は微小でも、大規模な集合的使用が侵害となる可能性
解釈の明確化: 既存の著作権法のAI文脈での適用について、以下の明確化が期待される:
– DMCA違反の技術的文脈での適用範囲
– 「複製」概念のデジタル学習プロセスへの適用
– 損害賠償算定における新たな考慮要素
規制・実務への影響 (Regulatory and Practical Impact)
AIガバナンス: 本訴訟の結果は、AI開発企業のガバナンス体制に以下の影響を与える:
– データ取得ポリシー: 訓練データの合法的な取得と文書化の必要性
– 透明性要件: 使用データセットの開示とトレーサビリティの確保
– リスク評価プロセス: 著作権リスクの事前評価と軽減策の実装
– ライセンシング戦略: コンテンツ提供者との積極的なライセンス交渉
コンプライアンス: 企業が取るべき具体的な対応策:
– 訓練データの出所確認と適法性の検証プロセスの確立
– 著作権管理情報の保持と適切な帰属表示の実装
– オプトアウト機構の提供と権利者への配慮
– 内部監査とコンプライアンス体制の強化
業界への影響: AI産業全体への波及効果:
– 開発コストの増大: ライセンス料支払いによる開発コストの上昇
– 競争環境の変化: 大手企業と新興企業の格差拡大の可能性
– イノベーションへの影響: 規制強化による技術革新速度の鈍化懸念
– 国際競争力: 規制の地域差による競争上の影響
リスク管理: 類似リスクを回避するための考慮事項:
– デューデリジェンスの徹底:データソースの法的調査
– 保険とインデムニティ:著作権侵害リスクのカバー
– 代替データ戦略:パブリックドメインや許諾済みコンテンツの活用
– 技術的対策:著作物の過度な記憶を防ぐ技術的制限
比較法的観点 (Comparative Law Perspective)
日本法との比較: 日本の著作権法およびAI規制との重要な相違点:
– 著作権法第30条の4(2018年改正): 日本では、「電子計算機による情報解析」目的での著作物利用が一定条件下で許容されている。これは、非享受目的での利用として、AIの機械学習を含む情報解析に著作物を使用することを認めるものである。
– 権利制限の範囲: 日本法は、著作物の表現を享受しない利用について、より柔軟な制限規定を設けているが、商業的大規模利用についての明確な線引きは課題として残る。
– データベース権: 日本には独自のデータベース製作者の権利があり、AI訓練データの法的保護に異なるアプローチを取る可能性がある。
他国判例との関係: 国際的な類似事案の動向:
– 英国: Getty Images v. Stability AI – 画像生成AIに関する著作権訴訟が進行中
– EU: AI Act施行に伴い、透明性要件と著作権への配慮が法制化
– 中国: AI生成コンテンツの著作権帰属に関する初期的な判例が形成されつつある
– カナダ: フェアディーリング規定の下でのAI訓練の適法性が議論されている
グローバルな影響: 多国籍企業への実務的影響:
– 法域間の規制差異への対応: 各国の異なる規制要件に対応した複数のAIモデル開発の必要性
– データローカライゼーション: 特定法域でのデータ使用制限への対応
– 国際的なライセンシング: グローバルなコンテンツライセンス戦略の必要性
– 規制アービトラージ: より寛容な法域での開発活動の集中可能性
重要なポイント (Key Takeaways)
実務家への示唆:
– 予防法務の重要性: AI開発プロジェクトの初期段階から著作権リスクの評価と対策を組み込むことが不可欠である。特に、訓練データの取得源と使用権限の明確な文書化が求められる。
– ライセンス戦略の再考: フェアユースに依存するのではなく、主要なコンテンツ提供者との積極的なライセンシング交渉を進めることが、法的リスクの軽減につながる。
– 技術的セーフガード: 著作物の過度な記憶や逐語的再現を防ぐ技術的対策の実装により、侵害リスクを低減できる可能性がある。
– 透明性とコミュニケーション: データ使用に関する透明性の確保と、権利者とのオープンな対話が、訴訟リスクの軽減に寄与する。
今後の展望:
– 立法的解決の可能性: 米国議会でAI訓練データに関する特別な制度創設が議論される可能性が高い。日本の著作権法第30条の4のような規定の導入も検討されるかもしれない。
– 業界標準の形成: AI開発企業間で、訓練データの適正使用に関する自主的なガイドラインや業界標準が形成される動きが加速するだろう。
– 技術的ソリューションの発展: ブロックチェーンやデジタル透かし技術を活用した、著作権追跡とライセンス管理システムの開発が進む可能性がある。
– 国際協調の必要性: AI技術のグローバル性を踏まえ、国際的な規制調和やガイドライン策定の動きが活発化することが予想される。
注意すべき事項:
– MDL統合の影響: 本件はMDLに統合されたため、他の類似訴訟と共に包括的な解決が図られる可能性がある。個別の和解交渉よりも、業界全体に影響する包括的な解決策が模索される可能性が高い。
– 技術的複雑性: AIの技術的側面に関する裁判所の理解度が判決に大きく影響する可能性がある。専門家証言の質と説得力が重要な要素となる。
– 公共政策的配慮: 裁判所は、純粋な法的分析だけでなく、AI技術の社会的重要性と創作者の権利保護のバランスを考慮する可能性がある。
– 先例の限定的効果: 本件の判決は、テキストベースのLLMに関するものであり、画像、音声、動画等の他のモダリティには直接適用されない可能性がある。
このレポートに関する注意事項 (Warning/Notes)
– このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。

コメントを残す