Doe 1 et al. v. GitHub, Inc. et al.
Case Metadata
Basic Information
1. Case Name: Doe 1 et al. v. GitHub, Inc. et al., No. 4:22-cv-06823-JST (N.D. Cal. 2022)
2. Court: United States District Court for the Northern District of California, Oakland Division
3. Filing Date: November 3, 2022
4. Judgment Date: January 22, 2024 (Order on Motion to Dismiss); September 27, 2024 (Certification for Interlocutory Appeal)
5. Case Number: 4:22-cv-06823-JST (consolidated with 4:22-cv-07074-JST)
6. Current Status: On interlocutory appeal to the Ninth Circuit Court of Appeals (Case No. 24-7700)
Parties
7. Plaintiff(s):
– J. Doe 1, J. Doe 2, J. Doe 3, J. Doe 4, J. Doe 5 (individual software developers and GitHub users)
– Representative plaintiffs for a proposed class of millions of GitHub users
8. Defendant(s):
– GitHub, Inc. (code repository hosting service, Microsoft subsidiary)
– Microsoft Corporation (parent company of GitHub)
– OpenAI, Inc. and related entities (OpenAI, L.P., OpenAI GP, L.L.C., OpenAI Startup Fund entities, OpenAI OpCo, L.L.C., OpenAI Global, LLC, OAI Corporation, OpenAI Holdings, LLC, OpenAI HoldCo, LLC)
9. Key Law Firms:
– For Plaintiffs: Joseph Saveri Law Firm, LLP; Matthew Butterick (lawyer and open-source programmer)
– For Defendants: [Information not available in sources]
10. Expert Witnesses: [Information not yet publicly available due to early stage of litigation]
Legal Framework
11. Case Type: AI copyright infringement, open-source license violation, class action lawsuit
12. Primary Legal Claims:
– Violation of Digital Millennium Copyright Act (DMCA) Section 1202(b) – removal of copyright management information
– Breach of contract (open-source license terms)
13. Secondary Claims:
– California Consumer Privacy Act violations
– Tortious interference in contractual relationships
– Fraud
– Unjust enrichment
– Unfair competition (California Business & Professions Code)
– Negligence
– Civil conspiracy
– Declaratory relief
14. Monetary Relief: Statutory damages potentially ranging from $1 billion to $9 billion (conflicting reports in sources)
Technical Elements
15. AI/Technology Involved:
– GitHub Copilot (AI-powered coding assistant)
– OpenAI Codex (underlying AI model)
– Machine learning training on public GitHub repositories
16. Industry Sectors: Software development, cloud computing services, artificial intelligence
17. Data Types: Open-source code repositories, software licenses (MIT, GPL, Apache), copyright management information
Database Navigation
18. Keywords/Tags: AI copyright, GitHub Copilot, open-source licenses, DMCA, code generation, machine learning training data, class action, software copyright
19. Related Cases: First class-action lawsuit challenging AI training and output systems in the United States
詳細分析 (Detailed Analysis)
事件の概要 (Case Overview)
背景と争点 (Background and Issues)
事実関係:
2022年11月3日、ソフトウェア開発者らがGitHub、Microsoft、OpenAIを相手取り、カリフォルニア州北部地区連邦地方裁判所に集団訴訟を提起した。原告らは、GitHubのパブリックリポジトリに著作権で保護されたコードを公開していた開発者である。2021年6月、GitHubとOpenAIは、ソフトウェアコーディングを支援するAIベースのツール「GitHub Copilot」をリリースした。このツールは、GitHubの公開リポジトリから収集した数十億行のコードでトレーニングされたOpenAI Codexモデルを基盤としている。
中心的争点:
– AIシステムがオープンソースコードを学習データとして使用することの適法性
– 生成されたコードが元のコードと「同一」である必要があるか否か
– 著作権管理情報(CMI)の削除がDMCA違反を構成するか
– オープンソースライセンスの帰属要件違反
– AIが生成したコードの著作権侵害の立証基準
原告の主張:
原告らは、被告らが以下の行為により法的権利を侵害したと主張している:
– MIT、GPL、Apacheライセンスなど、帰属表示を要求するオープンソースライセンスの違反
– 著作権表示、ライセンス条項、帰属情報なしにコードを複製・配布
– DMCA第1202条(b)項に違反する著作権管理情報の削除
– オープンソース開発者の知的財産の不当な商業化
被告の主張:
被告らは以下の抗弁を提示:
– GitHub Copilotが生成するコードは原告のコードと「同一」ではない
– AIによる学習はフェアユースに該当する可能性
– 原告らは具体的な著作権侵害の証拠を提示していない
– GitHub利用規約により、ユーザーは公開リポジトリのコード使用を許諾している
AI/技術要素:
GitHub Copilotは、OpenAI Codexモデルを使用した AI コード生成ツールである。このシステムは:
– GitHubの公開リポジトリから収集した数十億行のコードで学習
– 開発者のコメントやコードの文脈から、次に書くべきコードを予測・提案
– Visual Studio Code、JetBrains IDE、Neovimなどの開発環境に統合
– 月額サブスクリプションモデルで商業化(個人:$10/月、ビジネス:$19/月)
手続きの経過 (Procedural History)
重要な手続き上の決定:
– 2022年12月20日:Jon S. Tigar判事が事件番号4:22-cv-07074-JSTとの併合を命令
– 2023年1月:Microsoft、GitHub、OpenAIが訴訟却下申立てを提出するも却下
– 2023年3月7日:保護命令について当事者間で合意
– 2023年5月4日:被告GitHub、Microsoftが訴状却下申立てを提出
– 2024年1月22日:Tigar判事が却下申立てを一部認容、一部棄却する命令を発出
– 2024年9月27日:中間上訴の認証および上訴中の手続き停止を認める命令
証拠開示:
現段階では限定的な証拠開示のみ実施。保護命令により機密情報の取り扱いが規定されている。
専門家証言:
本格的な専門家証言はまだ行われていないが、今後、AI技術、著作権法、オープンソースライセンスに関する専門家の証言が予想される。
判決の概要 (Judgment Summary)
裁判所の判断 (Court’s Decision)
主要な判決内容:
2024年1月22日のTigar判事の命令により、当初の22の請求のうち2つのみが存続することとなった:
1. 存続した請求:
– オープンソースライセンスの契約違反
– DMCA第1202条(b)項違反(著作権管理情報の削除)の一部
2. 却下された請求:
– 直接的な著作権侵害(原告が同一コードの証拠を提示できなかったため)
– カリフォルニア州消費者プライバシー法違反
– 不正競争
– 詐欺
– 不当利得
– 過失
– 共謀
勝敗の結果:
現時点では部分的な勝利と敗北が混在。被告は主要な請求の却下に成功したが、2つの重要な請求が残存し、訴訟は継続している。
命令された救済措置:
現段階では最終的な救済措置は決定されていない。原告らは以下を求めている:
– 金銭的損害賠償(集団全体で10億ドル~90億ドルの範囲)
– 差止命令
– 宣言的判決
重要な法的判断:
– AIが生成したコードが著作権侵害を構成するには、元のコードと「実質的に類似」または「同一」である必要がある
– 単にAIが学習データとしてコードを使用したことだけでは著作権侵害を立証するには不十分
– オープンソースライセンスの契約条項は、AIシステムにも適用される可能性がある
反対意見・補足意見:
地方裁判所レベルのため、反対意見や補足意見はない。
法的推論の分析 (Analysis of Legal Reasoning)
適用された法理:
– 著作権侵害の「実質的類似性」テスト
– DMCA第1202条の「著作権管理情報」の定義と範囲
– 契約法における「第三者受益者」理論
– カリフォルニア州法における不正競争の要件
事実認定:
裁判所は以下の重要な事実認定を行った:
– 原告らは、GitHub Copilotが原告のコードと同一のコードを生成した具体例を提示できなかった
– GitHubの利用規約により、ユーザーは公開リポジトリのコードに一定の権利を付与している
– オープンソースライセンスの帰属要件は、契約上の義務を構成する可能性がある
技術的理解:
裁判所は、AIシステムの技術的側面について慎重なアプローチを取っている。特に:
– 機械学習における「トレーニング」と「推論」の区別を認識
– コード生成における確率的プロセスの理解
– 完全な複製と変換的使用の境界に関する検討
法的意義 (Legal Significance)
先例価値 (Precedential Value)
将来への影響:
本件は、米国におけるAIシステムの学習と出力に関する初の集団訴訟として、今後のAI訴訟に重要な先例を提供する:
– AI生成コンテンツの著作権侵害立証基準の確立
– オープンソースライセンスのAIシステムへの適用可能性の明確化
– 機械学習における「フェアユース」の範囲の画定
– 技術的な複製と創造的な生成の法的区別
法理論の発展:
– AIシステムによる著作物の使用に関する新たな法的枠組みの必要性を示唆
– 「AIオーサーシップ」と「AI支援創作」の法的位置づけの検討
– デジタル時代における著作権管理情報(CMI)の重要性の再確認
解釈の明確化:
– DMCA第1202条のAI文脈での適用範囲
– オープンソースライセンスの「派生作品」定義のAI生成物への適用
– 契約法理論のAIサービス利用規約への適用
規制・実務への影響 (Regulatory and Practical Impact)
AIガバナンス:
企業は以下のガバナンス体制の構築が必要:
– AI学習データの出所と権利関係の明確な記録
– ライセンス要件の自動認識と遵守システム
– 生成コンテンツの帰属表示メカニズム
– 著作権管理情報の保持と表示
コンプライアンス:
AI開発企業が取るべき対応策:
– オープンソースコードの使用に関する明確なポリシー策定
– ライセンス違反を防ぐための技術的セーフガード実装
– ユーザーへの適切な警告と免責条項の提供
– 権利者からのオプトアウト機能の実装
業界への影響:
– AI開発における学習データ選択の慎重化
– 商用AIツールの価格設定とビジネスモデルの見直し
– オープンソースコミュニティとの協力関係の強化
– 新たなライセンスモデルの開発(AI学習を考慮したライセンス)
リスク管理:
– 学習データの権利クリアランスプロセスの確立
– 生成コンテンツの事前スクリーニング機能の実装
– 保険やインデムニティ条項によるリスク移転
– 定期的な法的監査とコンプライアンスレビュー
比較法的観点 (Comparative Law Perspective)
日本法との比較:
日本の法制度における対応する課題:
1. 著作権法の観点:
– 日本著作権法第30条の4(情報解析のための複製等)の適用可能性
– AIによる学習が「非享受目的」として認められるか
– 生成物の著作権侵害判断基準(依拠性と類似性)
2. 契約法の観点:
– オープンソースライセンスの日本法上の効力
– 利用規約による権利制限の有効性
– 第三者のためにする契約理論の適用
3. データ保護の観点:
– 個人情報保護法との関係(コードに含まれる個人識別情報)
– 不正競争防止法における営業秘密の保護
他国判例との関係:
– EU:AIアクトにおけるAIシステムの透明性要件との関連
– 英国:著作権法改正議論におけるAI学習例外規定
– 中国:AIサービス規定における生成コンテンツの責任帰属
グローバルな影響:
– 多国籍企業のAI開発戦略への影響
– 国際的なAI倫理基準の形成
– クロスボーダーでのライセンス遵守の複雑化
– AIサービスの地域別提供モデルの検討
重要なポイント (Key Takeaways)
実務家への示唆:
1. AI開発企業の法務担当者:
– 学習データの権利関係を事前に精査する体制構築が不可欠
– オープンソースライセンスの要件を技術的に実装する必要性
– 生成コンテンツに関する明確な利用規約と免責条項の整備
2. オープンソース開発者:
– ライセンス選択時にAI学習への対応を考慮
– コードリポジトリにおける権利表示の徹底
– AI学習からのオプトアウト機能の活用
3. 企業ユーザー:
– AIツール利用時の生成コンテンツの権利確認プロセス
– 社内でのAIツール利用ガイドラインの策定
– 第三者権利侵害リスクの評価と対策
今後の展望:
1. 短期的展望(1-2年):
– 第9巡回区控訴裁判所での中間上訴の結果
– 類似訴訟の増加と集団訴訟の拡大
– AI企業による自主的なライセンス遵守機能の実装
2. 中期的展望(3-5年):
– AI学習に関する立法措置の可能性
– 新たなオープンソースライセンスモデルの普及
– 業界標準としてのAI倫理ガイドラインの確立
3. 長期的展望(5年以上):
– AI著作権に関する国際条約の検討
– AIと人間の創作物の法的区別の確立
– 新たな知的財産権カテゴリーの創設可能性
注意すべき事項:
1. 証拠収集の重要性:
– AI生成コンテンツと元コードの類似性を立証する技術的証拠
– ライセンス違反の具体的事例の記録保持
– 損害額算定のための利用実態データ
2. 和解の可能性:
– 訴訟の長期化によるコストとリスク
– 業界全体への影響を考慮した戦略的和解
– ライセンス料支払いモデルの創設可能性
3. 技術的対応策:
– AIモデルの「忘却学習」技術の開発
– ライセンス準拠型コード生成の実装
– ブロックチェーンを用いた権利管理システム
このレポートに関する注意事項 (Warning/Notes)
– このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。
コメントを残す