Stewart O’Nan, et al. v. Databricks, Inc., et al. (In Re Mosaic LLM Litigation)

Stewart O’Nan, et al. v. Databricks, Inc., et al. (In Re Mosaic LLM Litigation)

Case Metadata

Basic Information

1. Case Name: Stewart O’Nan, et al. v. Databricks, Inc., et al. (In Re Mosaic LLM Litigation), 3:24-cv-01451 (N.D. Cal. 2024)
2. Court: United States District Court for the Northern District of California, San Francisco Division
3. Filing Date: March 8, 2024
4. Judgment Date: Not yet decided (case pending)
5. Case Number: 3:24-cv-01451 (Master File); consolidated with 3:24-cv-02653
6. Current Status: Active litigation – consolidated case pending, motion for appointment of interim lead counsel scheduled for hearing February 7, 2025

Parties

7. Plaintiff(s):
– Stewart O’Nan (Award-winning author, individual)
– Brian Keene (Horror and dark fantasy author, individual)
– Abdi Nazemian (Young adult and adult fiction author, individual)
– Rebecca Makkai (Author, individual – added through consolidation)
– Jason Reynolds (Author, individual – added through consolidation)
8. Defendant(s):
– Databricks, Inc. (Data analytics and AI platform company, Delaware corporation)
– Mosaic ML, Inc. (AI/machine learning subsidiary acquired July 2023, Delaware corporation)
9. Key Law Firms:
– Plaintiffs: Joseph Saveri Law Firm, LLP; Matthew Butterick
– Defendants: To be confirmed in court filings
10. Expert Witnesses: Not yet disclosed (case in early stages)

Legal Framework

11. Case Type: Class action copyright infringement litigation involving AI training data
12. Primary Legal Claims:
– Direct copyright infringement (17 U.S.C. § 501)
– Vicarious copyright infringement
– Violation of Digital Millennium Copyright Act Section 1202
13. Secondary Claims: Potential unfair competition and unjust enrichment claims
14. Monetary Relief: Actual damages, statutory damages up to $150,000 per infringed work, attorneys’ fees, injunctive relief

Technical Elements

15. AI/Technology Involved: MPT-7B and MPT-30B large language models, RedPajama-Books dataset, Books3 dataset
16. Industry Sectors: AI/machine learning, publishing, data analytics, cloud computing
17. Data Types: Literary works, copyrighted books, training datasets, text corpora

Database Navigation

18. Keywords/Tags: AI copyright, LLM training, Books3, shadow library, fair use defense, vicarious liability, DMCA 1202, RedPajama, MPT models
19. Related Cases:
– Nazemian et al. v. NVIDIA Corporation, 4:24-cv-01454 (N.D. Cal. 2024)
– Doe 1 et al. v. GitHub, Inc., 3:22-cv-06823 (N.D. Cal. 2022)
– Andersen et al. v. Stability AI Ltd., 3:23-cv-00201 (N.D. Cal. 2023)
– Tremblay et al. v. OpenAI, Inc., 3:23-cv-03223 (N.D. Cal. 2023)

詳細分析 (Detailed Analysis)

事件の概要 (Case Overview)

背景と争点 (Background and Issues)

事実関係: 本訴訟は、2024年3月8日に提起された著作権侵害集団訴訟である。原告らは、被告Databricks社とその子会社Mosaic ML社が、大規模言語モデル(LLM)であるMPT-7BおよびMPT-30Bの訓練において、原告らの著作物を無断で使用したと主張している。被告らは、いわゆる「シャドウライブラリー」であるBibliotikから収集されたBooks3データセットのコピーであるRedPajama-Booksデータセットを使用して、これらのモデルを訓練したとされる。2023年7月にDatabricks社がMosaic ML社を買収した後も、侵害行為が継続していると原告らは主張している。

中心的争点:
– AIモデルの訓練における著作物の使用が著作権侵害に該当するか
– フェアユース法理がAI訓練データへの適用可能性
– 海賊版コンテンツを含むデータセットの使用に関する法的責任
– 親会社による子会社の侵害行為に対する代位責任

原告の主張:
– 被告らは原告らの著作物を許可なく複製し、商業的AIモデルの訓練に使用した
– Books3データセットは違法な「シャドウライブラリー」から取得された海賊版コンテンツである
– 被告の行為はフェアユースの範囲を超えている
– 数百万の著作権者に影響を与える可能性のある集団訴訟の認定を求める

被告の主張:
– AI訓練における著作物の使用はフェアユース法理により保護される
– 機械学習における変換的使用(transformative use)の主張
– 原告の具体的損害の立証不足

AI/技術要素:
– MPT(MosaicML Pretrained Transformer)モデルシリーズ:オープンソースの大規模言語モデル
– RedPajamaデータセット:1.2兆トークンを含む公開訓練データセット
– Books3:約19万冊の書籍を含む物議を醸すデータセット(Bibliotikから取得)
– トランスフォーマーアーキテクチャに基づく自然言語処理技術

手続きの経過 (Procedural History)

重要な手続き上の決定:
– 2024年5月13日:Breyer判事がMakkaiケースを関連事件と認定、Whyte判事からBreyer判事へ移送
– 2024年12月2日:両当事者の合意により、O’NanケースとMakkaiケースの併合を裁判所が承認

証拠開示: 現段階では本格的な証拠開示手続きは開始されていない。今後、訓練データの詳細、モデル開発プロセス、内部文書等の開示が予想される。

専門家証言: 専門家証人はまだ指名されていないが、AI技術、著作権評価、市場影響に関する専門家の証言が予想される。

判決の概要 (Judgment Summary)

裁判所の判断 (Court’s Decision)

本件は係争中であり、実体的判断はまだ下されていない。現在までの裁判所の決定は手続き的事項に限定されている。

主要な判決内容: 未定(係争中)

勝敗の結果: 未定(係争中)

命令された救済措置: 未定(原告は差止命令、損害賠償、弁護士費用を請求)

重要な法的判断: 今後の判決により、以下の重要な法的問題が明確化される可能性がある:
– AI訓練におけるフェアユースの範囲
– 大規模データセット使用における著作権責任
– AI開発における親会社の代位責任

反対意見・補足意見: 該当なし(まだ判決が出ていないため)

法的推論の分析 (Analysis of Legal Reasoning)

適用された法理:
– 著作権法(17 U.S.C. § 501)に基づく直接侵害
– 代位責任の法理
– フェアユース法理(17 U.S.C. § 107)の潜在的適用

事実認定: 裁判所はまだ実体的な事実認定を行っていない。

技術的理解: 本件は裁判所のAI技術に対する理解度を試す重要な事案となる。特に、機械学習における「複製」の概念、訓練データの変換的使用、生成AIと従来の著作権侵害の区別などが焦点となる。

法的意義 (Legal Significance)

先例価値 (Precedential Value)

将来への影響:
– AI訓練データの適法性に関する重要な先例となる可能性
– オープンソースAI開発の実践に影響を与える
– データセットのライセンシング要件を明確化する可能性

法理論の発展:
– デジタル時代におけるフェアユース法理の進化
– AI特有の著作権問題に対する新たな法的枠組みの構築
– 変換的使用の概念の拡張または制限

解釈の明確化:
– 機械学習における「複製」の法的定義
– AI訓練と従来の著作権使用の区別
– データセットの連鎖的使用に関する責任の所在

規制・実務への影響 (Regulatory and Practical Impact)

AIガバナンス:
– 訓練データの出所と適法性の文書化要件
– AIモデル開発における著作権コンプライアンスプログラムの必要性
– データガバナンスとリスク管理フレームワークの強化

コンプライアンス:
– 企業は訓練データの著作権状態を積極的に確認する必要
– ライセンス取得またはクリーンルームデータの使用検討
– 買収時のAI関連知的財産デューデリジェンスの重要性向上

業界への影響:
– オープンソースAIコミュニティへの萎縮効果の可能性
– 商業的AIサービスのコスト構造への影響
– データライセンシング市場の形成促進

リスク管理:
– 訓練データの監査とトレーサビリティの確立
– 著作権侵害保険の検討
– 代替データソースの開発投資

比較法的観点 (Comparative Law Perspective)

日本法との比較:
日本の著作権法第30条の4は、「情報解析」目的での著作物利用を一定条件下で許可している。これは、AIの学習を目的とした著作物の利用について、米国よりも明確な法的枠組みを提供している可能性がある。ただし、商業的利用や海賊版コンテンツの使用については、日本法でも問題となる可能性が高い。

他国判例との関係:
– EU:AI法案とデータガバナンス規則により、より厳格な規制枠組み
– 英国:著作権法改正案でAI訓練のための例外規定を検討中
– カナダ:フェアディーリング規定の適用可能性を検討中

グローバルな影響:
– 多国籍AI企業のグローバルコンプライアンス戦略への影響
– 国際的なAI訓練データ基準の必要性
– クロスボーダーデータ利用に関する法的不確実性

重要なポイント (Key Takeaways)

実務家への示唆:
– AI開発企業は訓練データの著作権クリアランスプロセスを確立すべき
– M&A取引において、AI資産の知的財産デューデリジェンスが不可欠
– オープンソースデータセット使用時も慎重な法的評価が必要
– 著作権侵害リスクに対する保険やインデムニティ条項の検討

今後の展望:
– 2025年2月7日の主任弁護士指名聴聞会が重要な節目
– 証拠開示段階で訓練データの詳細が明らかになる可能性
– 和解による業界標準の形成可能性
– 議会による立法的解決の可能性

注意すべき事項:
– Books3や類似の「シャドウライブラリー」データセットの使用リスク
– フェアユース抗弁への過度の依存の危険性
– 買収後の継続的侵害に対する責任
– 集団訴訟認定による潜在的な巨額賠償リスク

このレポートに関する注意事項 (Warning/Notes)

このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。


Comments

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です