Makkai v. Databricks Inc.

Makkai v. Databricks Inc.

Case Metadata

Basic Information

1. Case Name: Makkai et al v. Databricks, Inc. et al, 3:24-cv-02653-CRB (N.D. Cal. 2024)
2. Court: United States District Court for the Northern District of California (Federal District Court, San Francisco Division)
3. Filing Date: May 2, 2024
4. Judgment Date: Not yet decided (ongoing litigation)
5. Case Number: 3:24-cv-02653-CRB (consolidated with 3:24-cv-01451-CRB)
6. Current Status: Pending – Active litigation with case management conference scheduled for January 17, 2025

Parties

7. Plaintiff(s):
– Rebecca Makkai (Individual, Award-winning novelist and author)
– Jason Reynolds (Individual, #1 New York Times bestselling author and MacArthur Genius Grant recipient)
8. Defendant(s):
– Databricks, Inc. (Corporation, Cloud-based data analytics and AI platform provider)
– Mosaic ML, Inc. (Corporation, AI model development subsidiary of Databricks)
9. Key Law Firms:
– Plaintiffs: Cafferty Clobes Meriwether & Sprengel LLP; Joseph Saveri Law Firm
– Defendants: Not specified in available documents
10. Expert Witnesses: Not yet disclosed (expert discovery closes July 25, 2025)

Legal Framework

11. Case Type: Copyright infringement class action involving AI training data
12. Primary Legal Claims: Direct copyright infringement (17 U.S.C. § 106) against Mosaic ML; Vicarious copyright infringement against Databricks
13. Secondary Claims: Class action certification pending for similarly situated authors
14. Monetary Relief: Damages amount not specified; seeking statutory damages and injunctive relief

Technical Elements

15. AI/Technology Involved: MPT-7B and MPT-30B large language models (LLMs); RedPajama-Books dataset; Books3 dataset derived from Bibliotik shadow library
16. Industry Sectors: Technology, Publishing, Artificial Intelligence, Cloud Computing
17. Data Types: Copyrighted literary works, training datasets for large language models

Database Navigation

18. Keywords/Tags: AI copyright, LLM training data, Books3 dataset, shadow library, fair use defense, generative AI, RedPajama, MPT models
19. Related Cases: O’Nan v. Databricks (3:24-cv-01451-CRB); Similar cases against OpenAI, Meta, Anthropic, and other AI companies

詳細分析 (Detailed Analysis)

事件の概要 (Case Overview)

背景と争点 (Background and Issues)

事実関係: 本件は、2024年5月2日に提起された著作権侵害集団訴訟である。原告のRebecca Makkai氏(「The Great Believers」等の著作で知られる受賞歴のある小説家)とJason Reynolds氏(MacArthur Genius Grant受賞者であり、ニューベリー賞受賞作「Long Way Down」の著者)は、被告のDatabricks社とその子会社Mosaic ML社が、原告らの著作物を無断で大規模言語モデル(LLM)の訓練データとして使用したと主張している。

中心的争点:
– AIモデル訓練における著作物の無断使用が著作権侵害を構成するか
– Books3という「シャドーライブラリー」由来のデータセット使用の適法性
– AI訓練におけるフェアユース抗弁の成立可否
– 親会社(Databricks)の代位責任の有無

原告の主張:
原告らは、Mosaic ML社がMPT-7BおよびMPT-30Bという大規模言語モデルの訓練において、RedPajama-Booksデータセットを通じて原告らの著作物を無断複製・使用したと主張。このRedPajama-BooksはBibliotikという海賊版サイトから派生したBooks3データセットのコピーであり、Mosaic ML社は自社のブログ投稿やデータセット構成表でRedPajamaの使用を公に認めていた。原告らは、この行為が米国著作権法に基づく排他的権利の侵害にあたると主張し、法定損害賠償と差止命令を求めている。

被告の主張:
被告らは、原告らの著作物の使用があったとしても、それはフェアユースの範囲内であると主張。また、2025年8月の裁判所の判断により、より新しいAIモデルに関する原告らの主張の一部は「過度に曖昧」であるとして却下されている。

AI/技術要素:
本件の技術的中核は、Mosaic ML社が開発したMPTシリーズの大規模言語モデルである。これらのモデルは、RedPajama-Booksデータセットを含む大量のテキストデータで訓練された。RedPajama-BooksはBooks3データセットの複製であり、Books3自体はBibliotikという違法な電子書籍共有サイトから取得された著作権保護された書籍を含んでいる。

手続きの経過 (Procedural History)

重要な手続き上の決定:
– 2024年5月13日:Breyer判事がO’Nan v. Databricks事件との関連性を認め、事件を統合
– 2024年12月2日:正式に両事件がマスターファイルとして統合
– 2025年8月:連邦裁判所が、より新しいAIモデルに関する原告の主張の一部を「過度に曖昧」として却下

証拠開示:
証拠開示手続きは進行中であり、専門家証言の開示期限は2025年7月25日に設定されている。訓練データセットの具体的な内容や使用方法に関する技術文書の開示が焦点となっている。

専門家証言:
専門家証言はまだ提出されていないが、AI訓練プロセス、著作権侵害の技術的側面、および市場への影響に関する専門家の見解が予定されている。

判決の概要 (Judgment Summary)

裁判所の判断 (Court’s Decision)

本件はまだ係属中であり、最終判決は出されていない。しかし、2025年8月に重要な中間判断が下された:

主要な判決内容:
連邦裁判所は、被告の新しいAIモデルに関する原告の主張の一部について「過度に曖昧」であると判断し、これらの主張を却下した。ただし、中核的な著作権侵害の主張は継続することが認められた。

法的推論の分析 (Analysis of Legal Reasoning)

適用された法理:
裁判所は、AI訓練データ事案における具体的な主張の必要性を強調した。単に「AIモデルが著作物を使用した可能性がある」という漠然とした主張では不十分であり、具体的な使用の証拠が必要であるとした。

技術的理解:
裁判所は、大規模言語モデルの訓練プロセスとデータセットの構造について理解を示しつつ、原告が提起する法的問題の新規性を認識している。

法的意義 (Legal Significance)

先例価値 (Precedential Value)

将来への影響:
本件は、AI訓練における著作物使用に関する重要な先例となる可能性がある。特に以下の点で注目される:

1. シャドーライブラリー由来のデータセット使用に対する法的責任の確立
2. AI開発におけるフェアユース抗弁の限界の明確化
3. 大規模な著作権侵害に対する集団訴訟の可能性

法理論の発展:
本件は、デジタル時代における著作権法の適用範囲を再定義する可能性がある。特に、機械学習目的での大規模複製が変形的使用(transformative use)として認められるかが重要な論点となっている。

解釈の明確化:
既存の著作権法がAI訓練データにどのように適用されるかについて、裁判所の判断が待たれる。特に、商業的AI開発における「研究目的」の解釈が焦点となる。

規制・実務への影響 (Regulatory and Practical Impact)

AIガバナンス:
本件の結果は、AI開発企業に以下のようなガバナンス要件を課す可能性がある:

1. 訓練データの出所と適法性の確認義務
2. 著作権者への通知または補償制度の確立
3. データセット使用に関する透明性の向上

コンプライアンス:
企業が取るべき対応策として以下が考えられる:

– 訓練データの監査とライセンス確認プロセスの確立
– シャドーライブラリー由来のデータセット使用の回避
– 著作権クリアランス手続きの強化
– オプトアウト機構の実装

業界への影響:
AI業界全体への具体的効果として:

– 訓練データ取得コストの増加可能性
– オープンソースデータセットの再評価
– ライセンス付きコンテンツの需要増加
– AI開発の透明性向上への圧力

リスク管理:
類似リスクを回避するための考慮事項:

1. データプロベナンス(出所)の徹底的な記録
2. 第三者データセット使用時のデューデリジェンス
3. 著作権侵害保険の検討
4. 代替的な合法的データソースの開発

比較法的観点 (Comparative Law Perspective)

日本法との比較:
日本の著作権法における以下の点との相違が注目される:

1. 権利制限規定の相違: 日本著作権法第30条の4(著作物に表現された思想又は感情の享受を目的としない利用)がAI学習に適用される可能性があるが、米国のフェアユース法理とは異なるアプローチ
2. データベース権: 日本法ではデータベースの著作物としての保護があるが、米国法とは保護範囲が異なる
3. 集団訴訟制度: 米国のクラスアクション制度と異なり、日本では選定当事者制度があるが、規模と効果が異なる

他国判例との関係:
– 英国:Getty Images v. Stability AI事件との類似性
– EU:AI法(AI Act)との関連での著作権保護の議論
– カナダ:Canadian Publishers v. OpenAI事件での類似の論点

グローバルな影響:
多国籍AI企業への影響として:

1. グローバルなデータ使用ポリシーの再検討
2. 各国法制度に応じたローカライゼーション
3. 国際的な著作権クリアランスの必要性
4. クロスボーダーでのコンプライアンス体制の構築

重要なポイント (Key Takeaways)

実務家への示唆:

1. AI開発企業の法務部門: 訓練データの適法性確認プロセスを早急に確立し、シャドーライブラリー由来のデータ使用を避ける必要がある

2. 著作権者の代理人: AI企業に対する著作権侵害の立証において、具体的な使用証拠の収集が重要。技術専門家との連携が不可欠

3. 契約実務: AI開発に関する契約において、訓練データの出所と使用権限に関する表明保証条項の重要性が高まっている

4. リスク評価: Books3やその派生データセットを使用している企業は、早急にリスク評価と代替策の検討が必要

今後の展望:

1. 2025年1月17日の事件管理会議: 訴訟の方向性を決定する重要な会議となる可能性
2. 専門家証言の影響: 2025年7月の専門家証言期限後、技術的側面の理解が深まることが予想される
3. 和解の可能性: 他のAI著作権訴訟の動向を見ると、和解による解決の可能性も考えられる
4. 立法的対応: 本件の結果により、AI訓練データに関する新たな立法の議論が加速する可能性

注意すべき事項:

1. 証拠保全: AI企業は訓練データの使用に関する記録を適切に保存する必要がある
2. 公表リスク: ブログやプレゼンテーションでのデータセット使用の公表は、訴訟リスクを高める可能性
3. 親会社の責任: 子会社のAI開発活動に対する親会社の監督責任が問われる可能性
4. 国際的展開: 複数国での同時訴訟リスクを考慮した戦略が必要

このレポートに関する注意事項 (Warning/Notes)

このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。


Comments

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です