Case Metadata
Basic Information
- Case Name: Millette v. OpenAI, Inc., et al.
- Court: United States District Court for the Northern District of California (originally filed); consolidated into Southern District of New York as part of In re OpenAI, Inc. Copyright Infringement Litigation, MDL No. 3143
- Filing Date: August 2, 2024
- Judgment Date: Not yet decided (case ongoing)
- Case Number: 5:24-cv-04710 (N.D. Cal.); 1:25-cv-03297 (S.D.N.Y.)
- Current Status: Active – consolidated into MDL proceedings for pretrial matters
Parties
- Plaintiff(s): David Millette (YouTube content creator from Massachusetts), representing a proposed class of YouTube users and video creators whose content was allegedly used without permission
- Defendant(s): OpenAI, Inc. and related entities (OpenAI LP, OpenAI GP LLC, OpenAI LLC, OpenAI OpCo LLC, OpenAI Global LLC, OAI Corporation LLC, OpenAI Holdings LLC), artificial intelligence research and development companies valued at approximately $90 billion
- Key Law Firms:
- Plaintiff: Bursor & Fisher, P.A. (L. Timothy Fisher, Joshua B. Bursor)
- Defendant: Latham & Watkins (for OpenAI entities)
- Expert Witnesses: To be determined during discovery phase
Legal Framework
- Case Type: AI training data litigation – unjust enrichment and unfair competition claims related to unauthorized use of YouTube video transcriptions for large language model training
- Primary Legal Claims:
- Unjust enrichment under California state law
- Unfair competition under California Business and Professions Code § 17200 (UCL)
- Secondary Claims: None – notably absent are direct copyright infringement claims
- Monetary Relief: Over $5 million in damages sought for the proposed class of affected YouTube creators
Technical Elements
- AI/Technology Involved:
- OpenAI’s ChatGPT and GPT-4 large language models
- Whisper speech recognition system for audio transcription
- Automated video scraping and transcription technology
- Industry Sectors: Content creation, video streaming platforms, artificial intelligence development
- Data Types: YouTube video transcriptions, audio content converted to text, natural language training datasets
Database Navigation
- Keywords/Tags: YouTube creators, video transcription, AI training data, unjust enrichment, unfair competition, large language models, Whisper, ChatGPT, copyright preemption
- Related Cases:
- Millette v. Google LLC (related case involving similar claims)
- Millette v. Nvidia Corp. (similar YouTube creator claims)
- Tremblay v. OpenAI (authors’ class action with similar state law claims)
- New York Times v. OpenAI & Microsoft (news publisher copyright case)
詳細分析 (Detailed Analysis)
事件の概要 (Case Overview)
背景と争点 (Background and Issues)
この訴訟は、AI技術の発展における新たな法的争点を提起する重要な事案である。原告のDavid Milletteは、2009年からYouTubeアカウントを運営するマサチューセッツ州のコンテンツクリエイターで、OpenAIが彼や他の数百万人のYouTube利用者の動画を無断で文字起こしし、その転写データをChatGPTやGPT-4などの大規模言語モデル(LLM)の訓練に使用したと主張している。
事実関係: 2021年後期、OpenAIはインターネット上のテキストデータを使い尽くしたため、新たな訓練データ源を必要としていた。同社はWhisperという音声認識システムを開発し、これを使用してYouTube動画の音声を文字起こしした。報告によると、OpenAIのチームは100万時間以上のYouTube動画を転写し、これらの転写データをGPT-4の訓練に使用した。この過程で、OpenAIの一部スタッフはYouTubeの利用規約に違反する可能性について議論していたとされる。
中心的争点:
- OpenAIによるYouTube動画の無断転写が不当利得にあたるか
- YouTube利用規約により保護されたコンテンツクリエイターの権利侵害
- 州法による不正競争法違反の成立
- 連邦著作権法による州法請求の先占(preemption)の適用可能性
原告の主張: 原告は、OpenAIが彼らの創作物を無断で利用して「著しい利益」を得たと主張している。YouTubeの利用規約により、動画投稿者は自らのコンテンツに対する所有権を保持しており、OpenAIはこれらの権利を侵害したとしている。また、OpenAIの訓練データセットの多くが「同意、クレジット表示、補償なし」でコピーされた作品から構成されていると指摘している。
被告の主張: OpenAIは2024年12月に、この訴状がTremblay v. OpenAI事件の「完全な写し」であり、不正競争と不当利得のような州法理論を扱った裁判所はすべて「AI模型の訓練における著作権保護材料の使用は連邦著作権法によって排他的に規律される」との同一の結論に達していると主張して却下申立てを行った。
AI/技術要素: この事件は、生成AI技術の中核となる大規模言語モデルの訓練プロセスに焦点を当てている。LLMは膨大なテキストデータから学習し、入力された文字列に続く最も可能性の高いテキスト文字列を予測することで自然言語応答を生成する。動画転写は、他のデータ源が枯渇する中で重要な訓練データの成分となっている。
手続きの経過 (Procedural History)
重要な手続き上の決定:
- 2024年8月2日:カリフォルニア州北部地区連邦地方裁判所に提訴
- 2024年8月28日:関連事件Millette v. Googleとの関連付け命令
- 2024年12月13日:OpenAIが多地区訴訟(MDL)への統合を申立て
- 2025年4月2日:司法パネルがMDLへの統合を命令
- 2025年4月27日:ニューヨーク州南部地区への移送完了
- 2025年7月30日:Microsoftが統合クラスアクション訴状の一部に対する却下申立てを提出
証拠開示: 現在、MDL手続きの一環として証拠開示段階にある。OpenAIは文書の過度な指定について争点となっており、Sidney Stein判事が当事者間の協議継続を命じている。
専門家証言: 技術専門家の証言は今後の手続きで重要な役割を果たすと予想される。特にAI訓練プロセス、動画転写技術、データマイニング手法に関する証言が求められる可能性が高い。
判決の概要 (Judgment Summary)
裁判所の判断 (Court’s Decision)
この事件はまだ審理中であり、本案に関する最終判決は下されていない。しかし、関連事件や類似の州法請求に関する裁判所の判断から、今後の展開を予測することができる。
既存の法的判断: 関連事件であるTremblay v. OpenAIでは、裁判所が不当利得請求について、原告らがOpenAIが「詐欺、錯誤、強制、または要求」を通じて原告らの著作権保護作品から不当に利益を得たと申し立てることができなかったとして却下している。また、多くの裁判所がAI訓練データに関する州法理論について、連邦著作権法による先占の問題を指摘している。
予想される争点:
- 著作権法による先占: 連邦著作権法第301条による州法請求の先占が主要な争点となる可能性が高い
- 「追加要素」の存在: 州法請求が先占を免れるための「追加要素」の立証
- 損害の具体性: 実際の経済的損害の立証
- クラス認定: 提案されたクラスの適切性と共通争点の存在
重要な法的判断: 現時点では本格的な法的判断は下されていないが、MDL統合により、Sidney Stein判事の下で一貫した判断が期待される。Stein判事は既に他のOpenAI関連事件で重要な判断を下しており、この事件にも影響を与える可能性がある。
法的推論の分析 (Analysis of Legal Reasoning)
適用される法理: この事件では、州法の不当利得と不正競争法理が中心となっているが、最も重要な争点は連邦著作権法による先占である。第301条の先占要件には、(1)対象となる権利が著作権法の範囲内にあること、(2)州法が著作権と同等の権利を保護していることが含まれる。
事実認定の課題: 裁判所は以下の事実認定を行う必要がある:
- OpenAIが実際にYouTube動画を転写したか
- その転写が無許可で行われたか
- 原告らが実際の損害を被ったか
- YouTube利用規約による権利保護の程度
技術的理解の重要性: AI技術、特に大規模言語モデルの訓練プロセスに対する裁判所の理解が判決に大きく影響する。Whisper技術による音声転写の仕組みや、転写データが最終的なAI出力にどのように反映されるかの理解が重要である。
法的意義 (Legal Significance)
先例価値 (Precedential Value)
将来への影響: この判例は以下の点で将来のAI訴訟に重要な影響を与える可能性がある:
- コンテンツクリエイターの権利保護: YouTube等のプラットフォーム上のコンテンツクリエイターがAI訓練使用に対してどの程度の法的保護を享受できるかを明確化
- 州法救済の有効性: 著作権登録を行っていないクリエイターが州法に基づく救済を求める可能性の判断
- プラットフォーム利用規約の効力: YouTube等の利用規約がAI企業による第三者的利用に対してどの程度の法的拘束力を持つかの確立
法理論の発展: この事件は、新興AI技術分野における以下の法原則の発展に貢献する可能性がある:
- デジタルコンテンツの無断利用に対する州法救済の範囲
- 大規模データ収集におけるプラットフォーム利用規約の役割
- AI訓練における「不当利得」概念の適用
解釈の明確化: 連邦著作権法の先占に関する既存の法理論をAI訓練データの文脈でどのように適用するかについて、重要な指針を提供する可能性がある。
規制・実務への影響 (Regulatory and Practical Impact)
AIガバナンス: この事件の結果は、AI企業の訓練データ収集・使用に関するガバナンス要件に以下の影響を与える可能性がある:
- 訓練データ収集における同意取得プロセスの厳格化
- データ源の透明性向上要求
- プラットフォーム利用規約の遵守義務の明確化
コンプライアンス: AI企業は以下の対応策を検討する必要がある:
- 訓練データの出所に関する詳細な記録保持
- プラットフォーム利用規約の事前確認プロセスの確立
- コンテンツクリエイターとのライセンス契約締結の検討
- 代替的な合成データ生成技術への投資
業界への影響: この判決は以下の業界実務に具体的な影響を与える可能性がある:
- YouTube等のプラットフォームにおけるデータ利用ポリシーの見直し
- AI企業による訓練データのライセンス化の促進
- コンテンツクリエイターの収益化手段の多様化
リスク管理: 類似リスクを回避するため、企業は以下を考慮すべきである:
- 第三者プラットフォームからのデータ収集前の法的確認
- 利用規約違反リスクの事前評価
- データ収集の技術的手段に関する透明性向上
比較法的観点 (Comparative Law Perspective)
日本法との比較: 日本の著作権法および関連法制との主要な相違点:
- 著作権制度: 日本では著作権は創作と同時に発生し、登録は不要。米国のように著作権登録が訴訟要件とならない
- プラットフォーム責任: 日本のプロバイダ責任制限法は、米国のDMCAとは異なる枠組みを提供
- 不正競争防止法: 日本の不正競争防止法は、営業秘密の保護等において米国州法とは異なるアプローチを採用
EU法との関係: EUのデジタルサービス法およびAI法は、AI訓練における透明性義務を課しており、この事件の展開にも影響を与える可能性がある。
グローバルな影響: 多国籍AI企業への影響として、以下が考えられる:
- 各国のデータ保護法制への対応必要性
- グローバルな訓練データガバナンス体制の構築
- 国際的なAI倫理基準の策定圧力
重要なポイント (Key Takeaways)
実務家への示唆: 弁護士・企業法務担当者が知るべき要点:
- 著作権登録の重要性: 連邦著作権法に基づく救済を求める場合、事前の著作権登録が必要。未登録の場合は州法に依拠せざるを得ないが、先占の問題が生じる
- プラットフォーム利用規約の確認: 第三者プラットフォームからデータを収集する前に、当該プラットフォームの利用規約を詳細に確認し、AI訓練目的での利用が許可されているかを検討する
- MDL手続きの理解: AI関連訴訟の多くがMDLに統合される傾向があるため、MDL手続きの理解と効率的な訴訟戦略の策定が重要
- 技術的専門知識の必要性: AI技術、特に大規模言語モデルの訓練プロセスに関する専門知識が法的判断に大きく影響するため、技術専門家との連携が不可欠
今後の展望: 関連する法的論点の発展予測:
- フェアユース抗弁の展開: AI訓練における著作権法上のフェアユース抗弁がどのように適用されるかが、今後の重要な争点となる
- 州法救済の限界: 連邦著作権法による先占の範囲が明確化され、州法に基づく救済の限界が確定される可能性
- 業界標準の確立: AI企業による自主的なデータ利用ガイドラインの策定が促進される可能性
注意すべき事項: 類似案件における留意点:
- 証拠保全の重要性: AI訓練プロセスに関する技術文書や内部通信の適切な保全が訴訟の成否を左右する
- クラスアクション戦略: 提案されたクラスの適切性や共通争点の立証が複雑であり、慎重な戦略が必要
- 国際的な影響: 米国での判決が他国のAI規制や企業実務に与える影響を考慮した総合的な対応が必要
- 技術進歩への対応: AI技術の急速な発展により、訴訟期間中にも技術環境が変化する可能性があるため、柔軟な法的戦略が求められる
このレポートに関する注意事項 (Warning/Notes)
- このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。
コメントを残す