Doe v. GitHub, Inc. et al.
Case Metadata
Basic Information
1. Case Name: Doe v. GitHub, Inc., Microsoft Corporation, and OpenAI, Inc., 3:22-cv-06823-JST
2. Court: United States District Court for the Northern District of California, Oakland Division
3. Filing Date: November 3, 2022
4. Judgment Date: January 3, 2024 (partial dismissal order); December 16, 2024 (interlocutory appeal granted)
5. Case Number: 3:22-cv-06823-JST
6. Current Status: On interlocutory appeal to the Ninth Circuit Court of Appeals regarding DMCA “identicality” requirement
Parties
7. Plaintiff(s):
– “Doe 1” (pseudonymous software developer and GitHub user)
– “Doe 2” (pseudonymous software developer and GitHub user)
– Class representatives for all persons whose code was used to train GitHub Copilot without permission
8. Defendant(s):
– GitHub, Inc. (software development platform subsidiary of Microsoft, hosting over 100 million repositories)
– Microsoft Corporation (technology company, owner of GitHub since 2018)
– OpenAI, Inc. (artificial intelligence research organization, developed the Codex model underlying Copilot)
9. Key Law Firms:
– Plaintiffs: Joseph Saveri Law Firm LLP; Lockridge Grindal Nauen P.L.L.P.
– GitHub/Microsoft: Jones Day
– OpenAI: Morrison & Foerster LLP
10. Expert Witnesses:
– Technical experts on AI model training and code generation (specific names sealed)
– Copyright law experts on software licensing and attribution requirements
Legal Framework
11. Case Type: AI copyright infringement and open-source license violation; DMCA Section 1202(b) violations; breach of contract; tortious interference
12. Primary Legal Claims:
– Violation of Digital Millennium Copyright Act (DMCA) Section 1202(b) – removal of copyright management information
– Direct copyright infringement
– Breach of open-source license terms (MIT, Apache 2.0, GPL)
13. Secondary Claims:
– Breach of contract (GitHub Terms of Service and Privacy Policy)
– Negligence
– Unjust enrichment
– Unfair competition under California Business and Professions Code Section 17200
– Civil conspiracy
14. Monetary Relief:
– Statutory damages up to $150,000 per infringed work
– Disgorgement of profits from Copilot subscriptions
– Punitive damages
– Class-wide relief estimated in billions of dollars
Technical Elements
15. AI/Technology Involved:
– GitHub Copilot: AI-powered code completion tool
– OpenAI Codex: Large language model trained on billions of lines of public code
– Training data: Public GitHub repositories including open-source projects
– Code generation: Autocomplete functionality producing code snippets and functions
16. Industry Sectors: Software development, artificial intelligence, cloud computing, developer tools
17. Data Types: Source code, open-source licenses, copyright management information, developer attribution data
Database Navigation
18. Keywords/Tags: AI code generation, GitHub Copilot, DMCA 1202(b), open-source licensing, copyright management information, fair use, software copyright, class action, Northern District of California, interlocutory appeal
19. Related Cases:
– Andersen v. Stability AI Ltd., 3:23-cv-00201-WHO (N.D. Cal.) – AI image generation copyright
– Authors Guild v. OpenAI, Inc., 1:23-cv-08292 (S.D.N.Y.) – text generation copyright
– The New York Times Company v. Microsoft Corporation, 1:23-cv-11195 (S.D.N.Y.) – LLM training copyright
詳細分析 (Detailed Analysis)
事件の概要 (Case Overview)
背景と争点 (Background and Issues)
事実関係: 2021年6月、GitHubはMicrosoftおよびOpenAIと共同で、AIを活用したコード補完ツール「GitHub Copilot」を発表した。このツールは、OpenAIのCodexモデルを基盤とし、GitHubでホストされている数十億行のパブリックコードで訓練されている。Copilotは開発者がコードを書く際に、コメントや部分的なコードから完全な関数やコードブロックを自動生成する。原告らは、自らのオープンソースコードがライセンス条項に違反して使用され、著作権管理情報が削除されたと主張している。
中心的争点:
– AIモデルの訓練におけるオープンソースコードの使用が著作権侵害に当たるか
– GitHub Copilotが生成するコードが訓練データと「同一」である必要があるか(DMCA第1202条(b)項の適用要件)
– オープンソースライセンスの帰属要件の違反
– AIによるコード生成がフェアユースに該当するか
原告の主張:
– Copilotは訓練データから直接コードを複製し、著作権管理情報なしに出力している
– MITライセンス、GPLライセンスなどの帰属要件が無視されている
– GitHubの利用規約およびプライバシーポリシーに違反している
– 開発者のコードが商業目的で不正に使用されている
被告の主張:
– Copilotの出力は変換的使用でありフェアユースに該当する
– 生成されるコードは新規の創作物である
– DMCA違反の主張には「同一性」の証明が必要
– オープンソースライセンスは機械学習での使用を明示的に禁止していない
AI/技術要素:
– OpenAI Codex: GPT-3の派生モデルで、プログラミング言語に特化
– 訓練データ: GitHubの公開リポジトリから収集された540GB以上のコード
– 生成プロセス: 確率的言語モデルによるコード補完
– コンテキスト理解: 周囲のコード、コメント、ファイル名を考慮した生成
手続きの経過 (Procedural History)
重要な手続き上の決定:
– 2023年5月11日: 裁判所は被告の棄却申立てを部分的に認容、DMCA請求とカリフォルニア州法請求を存続
– 2024年1月3日: Jon S. Tigar判事がDMCA請求に「同一性」要件を適用する判決
– 2024年6月24日: DMCA請求を「同一性」の立証不足により棄却
– 2024年10月14日: 原告が中間上訴の申立て
– 2024年12月16日: 第9巡回控訴裁判所が中間上訴を認容
証拠開示:
– Copilotの訓練データセットの詳細な構成
– コード生成アルゴリズムの技術文書
– 内部メモおよびライセンスコンプライアンスに関する議論
– 生成されたコードと元のコードの比較分析
専門家証言:
– AI専門家による機械学習モデルの動作原理の説明
– 著作権法専門家によるソフトウェアライセンスの解釈
– コンピュータサイエンス専門家によるコード類似性の分析
判決の概要 (Judgment Summary)
裁判所の判断 (Court’s Decision)
主要な判決内容:
2024年1月3日の判決において、Tigar判事は以下の判断を示した:
– DMCA第1202条(b)項の違反認定には、除去された著作権管理情報を含む作品と配布された作品が「同一」である必要がある
– 原告はCopilotが訓練データと「同一」のコードを出力することを十分に立証していない
– 契約違反およびカリフォルニア州法に基づく請求は審理を継続
– クラスアクション認定の問題は後日判断
勝敗の結果:
– DMCA請求: 被告勝訴(棄却されたが上訴中)
– 契約違反請求: 審理継続中
– 不正競争法請求: 審理継続中
– 著作権直接侵害: 棄却
命令された救済措置:
現時点では最終判決が出ていないため、救済措置は未定。原告は以下を求めている:
– Copilotサービスの差止命令
– 法定損害賠償
– 不当利得の返還
– 懲罰的損害賠償
重要な法的判断:
– DMCA第1202条(b)項における「同一性」要件の確立
– AIシステムによる著作物の使用に関する新たな法的枠組みの必要性
– オープンソースライセンスとAI訓練の関係の明確化
反対意見・補足意見:
地方裁判所レベルのため反対意見はないが、第9巡回控訴裁判所での上訴において異なる判断が下される可能性がある。
法的推論の分析 (Analysis of Legal Reasoning)
適用された法理:
– 著作権法のフェアユース原則(17 U.S.C. § 107)
– DMCA第1202条(b)項の著作権管理情報保護
– 契約法の一般原則
– カリフォルニア州不正競争防止法
事実認定:
– Copilotは公開されたコードを訓練データとして使用
– 生成されたコードは必ずしも元のコードと同一ではない
– ライセンス情報は生成プロセスで失われる
– 商業サービスとして有料で提供されている
技術的理解:
裁判所は機械学習モデルの動作原理について詳細な理解を示し、特に以下の点を認識:
– 大規模言語モデルは確率的にテキストを生成する
– 訓練データの「記憶」と「生成」の違い
– コード生成における創造性と派生の境界
法的意義 (Legal Significance)
先例価値 (Precedential Value)
将来への影響:
この事件は以下の点でAI訴訟の先例となる可能性がある:
– AI生成コンテンツにおける著作権侵害の判断基準
– オープンソースコミュニティとAI開発の関係
– DMCA適用における「同一性」要件の解釈
– 機械学習における訓練データ使用の法的枠組み
法理論の発展:
– AIシステムの「創造性」と「複製」の区別
– デジタル時代における著作権管理情報の重要性
– 集合的著作物としてのコードリポジトリの扱い
– 技術的進歩と既存法制度の調和
解釈の明確化:
– フェアユース原則のAI文脈での適用
– ライセンス条項の機械による遵守義務
– 派生的著作物の定義の拡張
– 商業利用と研究利用の境界
規制・実務への影響 (Regulatory and Practical Impact)
AIガバナンス:
企業は以下のガバナンス強化が必要:
– 訓練データの出所と権利関係の明確化
– ライセンスコンプライアンスの自動化
– 透明性のあるAI開発プロセス
– ステークホルダーとの事前協議
コンプライアンス:
AI開発企業が取るべき対策:
– 著作権フィルタリングシステムの実装
– オプトアウト機構の提供
– ライセンス情報の保持と表示
– 法務部門とエンジニアリング部門の連携強化
業界への影響:
– AI開発コストの増加(ライセンス料、コンプライアンスコスト)
– オープンソースコミュニティとの協力関係の再構築
– 新たなライセンスモデルの開発
– AI生成コードの品質保証プロセスの確立
リスク管理:
– 訓練データの法的デューデリジェンス
– 保険商品の見直しと拡充
– 契約条項の明確化
– 紛争解決メカニズムの事前設定
比較法的観点 (Comparative Law Perspective)
日本法との比較:
日本の著作権法との主要な相違点:
– 日本法における「引用」(第32条)の要件がより厳格
– AIと著作権に関する文化庁の検討会での議論
– 機械学習のための著作物利用の例外規定(第30条の4)
– プログラムの著作物の特別規定(第10条第1項第9号)
他国判例との関係:
– EU: AI法案におけるトレーニングデータの透明性要求
– 英国: 著作権例外規定の見直し議論
– 中国: AI生成コンテンツの著作権帰属に関する司法解釈
– カナダ: フェアディーリング原則の適用
グローバルな影響:
– 国際的なAI開発企業のコンプライアンス戦略
– クロスボーダーでのデータ利用の法的課題
– 国際条約(ベルヌ条約、TRIPS協定)との整合性
– 技術標準と法的要件の国際的調和
重要なポイント (Key Takeaways)
実務家への示唆:
– AI開発契約において訓練データの権利関係を明確に規定する必要性
– オープンソースソフトウェアの商業利用における注意義務の高まり
– DMCA違反リスクの評価と対策の重要性
– クラスアクションリスクを考慮した製品設計
今後の展望:
– 第9巡回控訴裁判所での「同一性」要件の再検討
– 議会によるAI特別法制定の可能性
– 業界自主規制ガイドラインの策定
– 国際的な規制調和の進展
注意すべき事項:
– AI生成物の著作権帰属の不確実性
– 訓練データ使用に関する透明性の要求増大
– 技術的対策と法的対策の両面からのアプローチ必要性
– ステークホルダー間の利益調整の複雑化
このレポートに関する注意事項 (Warning/Notes)
– このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。
コメントを残す