Dubus et al v. NVIDIA Corporation
Case Metadata
Basic Information
1. Case Name: Dubus et al v. NVIDIA Corporation
2. Court: United States District Court for the Northern District of California
3. Filing Date: May 2, 2024
4. Judgment Date: Not yet decided (ongoing litigation, trial potentially scheduled for November 2026)
5. Case Number: 4:24-cv-02655 (also referenced as C-24-2655-VC)
6. Current Status: In discovery phase; fact discovery scheduled to close November 20, 2025
Parties
7. Plaintiff(s):
– Andre Dubus III (Individual, acclaimed novelist and author)
– Susan Orlean (Individual, journalist and longtime New Yorker contributor)
– Class representatives seeking to represent all authors whose copyrighted works were allegedly used without permission
8. Defendant(s):
– NVIDIA Corporation (Public company, leading AI and GPU technology manufacturer with market cap exceeding $2 trillion)
9. Key Law Firms:
– Plaintiff: Cafferty Clobes Meriwether & Sprengel LLP (Chicago-based elite civil litigation firm)
– Defendant: BakerHostetler (monitoring counsel)
10. Expert Witnesses: To be determined (expert reports due January 7, 2026)
Legal Framework
11. Case Type: Copyright infringement class action relating to AI model training
12. Primary Legal Claims: Direct copyright infringement under 17 U.S.C. § 501 et seq. for unauthorized copying and use of copyrighted literary works to train AI models
13. Secondary Claims: Potential class certification issues for representing all affected authors
14. Monetary Relief: Seeking statutory damages, actual damages, destruction of infringing models, and attorneys’ fees (specific amounts not yet determined)
Technical Elements
15. AI/Technology Involved:
– NVIDIA NeMo Megatron language models (GPT versions: 1.3B, 5B, 20B parameters; T5 version: 3B parameters)
– The Pile dataset (825GB total)
– Books3 dataset (108GB, approximately 196,000 books)
– Bibliotik shadow library source
16. Industry Sectors: AI/machine learning, publishing, literary works, technology development
17. Data Types: Copyrighted literary works, training datasets, pirated book collections
Database Navigation
18. Keywords/Tags: AI copyright infringement, large language models, Books3 dataset, fair use defense, shadow libraries, NeMo Megatron, The Pile, transformative use, class action copyright
19. Related Cases:
– Nazemian v. NVIDIA Corporation (4:24-cv-01454-JST) – consolidated case
– Silverman v. Meta Platforms (similar Books3 allegations)
– Makkai v. Databricks (concurrent filing regarding Books3)
– Various cases against OpenAI regarding ChatGPT training
詳細分析 (Detailed Analysis)
事件の概要 (Case Overview)
背景と争点 (Background and Issues)
事実関係:
本訴訟は、2024年5月2日に著名な作家であるAndre Dubus III氏とSusan Orlean氏がNVIDIA Corporationを相手取って提起した著作権侵害集団訴訟である。原告らは、NVIDIAが同社のNeMo Megatron言語モデルの訓練において、著作権で保護された文学作品を無断で使用したと主張している。
問題の中核にあるのは「Books3」と呼ばれるデータセットで、これは約196,000冊の書籍を含む108GBのデータ集合体である。このデータセットは、「Bibliotik」という無許諾コンテンツの「シャドーライブラリ」から派生したもので、The Pileデータセット(総容量825GB)の約12%を占めている。NVIDIAは2022年9月にNeMo Megatronモデルをリリースしたが、これらのモデルの訓練にThe Pileデータセットを使用したことは否定していない。
中心的争点:
1. AI モデルの訓練のための著作物の大量複製が著作権法違反に該当するか
2. AI訓練活動がフェアユースの原則により保護されるか
3. 商業的AI開発のための文学作品の大量複製が変容的使用(transformative use)を構成するか
4. AIモデルが著作物を「統計的相関」に変換することが著作権侵害を免責するか
原告の主張:
– NVIDIAは許可、クレジット、または報酬なしに著作権保護された作品を複製した
– Books3データセットには海賊版書籍が含まれており、その使用は明白な著作権侵害である
– Stephen King、Margaret Atwood、Zadie Smithなど著名作家の作品が無断使用された
– 商業目的でのAI開発は、フェアユースの抗弁を無効にする
– 侵害的な複製物の破壊と損害賠償を求める
被告の主張:
– AI訓練は著作権法におけるフェアユースを構成する
– AIモデルは著作物を出力において再現しない
– 著作権で保護された書籍はAIモデル内で「統計的相関」となる
– AI訓練の変容的性質が使用を正当化する
AI/技術要素:
NVIDIAのNeMo Megatronは、大規模言語モデル(LLM)のファミリーであり、以下のバリエーションが含まれる:
– NeMo Megatron-GPT 1.3B(13億パラメータ)
– NeMo Megatron-GPT 5B(50億パラメータ)
– NeMo Megatron-GPT 20B(200億パラメータ)
– NeMo Megatron-T5 3B(30億パラメータ)
これらのモデルは、自然言語処理、テキスト生成、その他のAIアプリケーションに使用されている。
手続きの経過 (Procedural History)
重要な手続き上の決定:
1. 2024年5月29日:Nazemian v. NVIDIA事件との関連付け命令
2. 2024年:Jon S. Tigar判事への事件再割当て
3. 2025年1月:証拠開示に関する保護命令の発行
4. 2025年1月:共同事件管理声明の提出
証拠開示:
現在、証拠開示段階が進行中であり、以下のスケジュールが設定されている:
– 2025年7月1日:実質的な文書提出の完了
– 2025年11月20日:事実証拠開示の終了
– 2026年1月7日:専門家報告書の提出期限
専門家証言:
専門家証言はまだ提出されていないが、AI技術、著作権評価、市場への影響に関する専門家の証言が予想される。
判決の概要 (Judgment Summary)
裁判所の判断 (Court’s Decision)
本件はまだ係属中であり、実体的な判決は下されていない。しかし、以下の手続き的決定がなされている:
主要な判決内容:
現時点では実体的判決なし。訴訟は2026年まで継続予定。
命令された救済措置:
まだ決定されていないが、原告は以下を求めている:
– 法定損害賠償
– 実損害賠償
– 侵害モデルの破壊
– 弁護士費用と訴訟費用
重要な法的判断:
今後の判決により、AI訓練におけるフェアユースの範囲が明確化される可能性がある。
法的意義 (Legal Significance)
先例価値 (Precedential Value)
将来への影響:
本訴訟は、2024年5月時点で24件以上存在するAI企業に対する著作権訴訟の一つであり、以下の点で重要な先例となる可能性がある:
1. AI訓練データの取得における同意要件の確立
2. フェアユースドクトリンのAI文脈での適用範囲の明確化
3. 「変容的使用」概念のAI開発への適用基準の設定
法理論の発展:
– AIモデル訓練における著作権法の適用に関する新たな法原則の確立
– デジタル時代における著作権保護と技術革新のバランスの再定義
– 大規模データ処理における「複製」の概念の再解釈
解釈の明確化:
– 既存のフェアユース4要素テストのAI訓練への適用方法
– 商業的利用と研究目的の区別基準
– 市場への影響の評価方法
規制・実務への影響 (Regulatory and Practical Impact)
AIガバナンス:
企業は以下のガバナンス要件を考慮する必要がある:
1. 訓練データの出所と権利関係の明確な文書化
2. 著作権コンプライアンスプログラムの実装
3. データ取得プロセスの透明性確保
コンプライアンス:
AI開発企業が取るべき対応策:
– ライセンス契約による合法的なデータ取得
– オプトイン/オプトアウトメカニズムの実装
– 著作権者との収益分配モデルの検討
業界への影響:
– AI開発コストの増加可能性
– ライセンス取得能力を持つ大企業への市場集中
– オープンソースAI開発への制約
リスク管理:
類似リスクを回避するための考慮事項:
1. デュー・デリジェンスプロセスの強化
2. 代替訓練データソースの開発
3. 著作権者との事前合意の取得
比較法的観点 (Comparative Law Perspective)
日本法との比較:
日本の著作権法(著作権法第30条の4)では、情報解析のための著作物の利用について一定の例外規定が存在する。しかし、この規定は主に非営利の研究目的を想定しており、商業的AI開発への適用については議論がある。
主な相違点:
1. 日本法は「情報解析」目的での利用を明示的に規定
2. 米国のフェアユース原則はより柔軟だが予測可能性が低い
3. 日本では著作権者の権利制限がより明確に規定されている
他国判例との関係:
– EU:AI法案による新たな規制枠組みの構築
– 英国:AI訓練のための著作権例外規定の検討(現在保留中)
– 中国:AI生成コンテンツに関する規制の導入
グローバルな影響:
多国籍AI企業は、各国の異なる著作権制度に対応する必要があり、以下の影響が予想される:
1. グローバルなデータガバナンス基準の必要性
2. 国際的なライセンシングフレームワークの開発
3. 規制の断片化によるイノベーションへの影響
重要なポイント (Key Takeaways)
実務家への示唆:
1. AI開発企業の法務担当者:
– 訓練データの権利関係を事前に精査する必要性
– ライセンス契約の締結またはパブリックドメインデータの使用
– 著作権リスク評価プロセスの確立
2. 著作権者の代理人:
– AI企業に対する集団訴訟の可能性を検討
– 技術的証拠の収集と専門家証人の準備
– 損害賠償額の算定方法の研究
3. 企業のコンプライアンス担当者:
– AI利用ポリシーの策定と実装
– ベンダーのAIシステムの著作権コンプライアンス確認
– 内部AI開発における著作権管理体制の構築
今後の展望:
– 2026年の判決または和解により、AI訓練の法的枠組みが明確化される可能性
– 議会による新たな立法の可能性(AI訓練に特化した著作権規定)
– 業界標準やベストプラクティスの確立
注意すべき事項:
1. 本訴訟の結果は、AI業界全体に波及効果を持つ可能性が高い
2. 和解の場合、詳細な条件が公開されない可能性がある
3. 技術の急速な進化により、法的枠組みが追いつかない状況が継続する可能性
4. 国際的な規制の調和が今後の重要課題となる
このレポートに関する注意事項 (Warning/Notes)
– このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。
コメントを残す