Doe v. GitHub, Inc.

Doe v. GitHub, Inc.

Case Metadata

Basic Information

1. Case Name: Doe 1, et al. v. GitHub, Inc., et al., No. 3:22-cv-06823-JST (N.D. Cal. 2022)
2. Court: United States District Court for the Northern District of California, San Francisco Division
3. Filing Date: November 3, 2022
4. Judgment Date: May 11, 2023 (District Court Order on Motion to Dismiss); Currently on appeal
5. Case Number: 3:22-cv-06823-JST (District Court); No. 24-15577 (9th Cir. Appeal)
6. Current Status: On appeal to the United States Court of Appeals for the Ninth Circuit

Parties

7. Plaintiff(s):
– Doe 1, Doe 2, Doe 3 (anonymous individual software developers)
– Representing a putative class of all persons residing in the United States who own copyrights in code hosted on GitHub
– Description: Open-source software developers whose code was allegedly used without permission to train AI systems

8. Defendant(s):
– GitHub, Inc. (code repository hosting platform, subsidiary of Microsoft)
– Microsoft Corporation (parent company of GitHub, technology corporation)
– OpenAI, Inc. and OpenAI, L.P. (artificial intelligence research organizations)
– Description: Technology companies that developed, trained, and commercialized the GitHub Copilot AI coding assistant

9. Key Law Firms:
– For Plaintiffs: Joseph Saveri Law Firm, LLP; Matthew Butterick (individual attorney)
– For Defendants: Cooley LLP (GitHub); Wilmer Cutler Pickering Hale and Dorr LLP (Microsoft); Keker, Van Nest & Peters LLP (OpenAI)

10. Expert Witnesses: Not yet disclosed (case in early stages)

Legal Framework

11. Case Type: AI copyright infringement and open-source license violation class action litigation
12. Primary Legal Claims:
– Breach of Contract (open-source license terms)
– Violation of Digital Millennium Copyright Act (DMCA) Section 1202(b)
– Copyright infringement
– Unfair competition under California Business and Professions Code Section 17200

13. Secondary Claims:
– Negligence
– Unjust enrichment
– Violation of California Consumer Privacy Act (CCPA)
– Breach of privacy rights
– Tortious interference with contractual relations

14. Monetary Relief: Statutory damages of $1,500 per violation; potential billions in aggregate damages if class certified

Technical Elements

15. AI/Technology Involved:
– GitHub Copilot (AI-powered code completion tool)
– OpenAI Codex (underlying large language model)
– Machine learning training on public GitHub repositories

16. Industry Sectors: Software development, artificial intelligence, open-source software, cloud computing services

17. Data Types: Source code, software documentation, open-source licenses, developer metadata

Database Navigation

18. Keywords/Tags: AI training data, copyright infringement, open-source licenses, GitHub Copilot, Codex, DMCA, Section 1202, code generation, machine learning, fair use, transformative use, class action

19. Related Cases:
– Kadrey v. Meta Platforms, Inc., No. 3:23-cv-03417 (N.D. Cal. 2023)
– Andersen v. Stability AI Ltd., No. 3:23-cv-00201 (N.D. Cal. 2023)
– Getty Images v. Stability AI, Inc., No. 1:23-cv-00135 (D. Del. 2023)
– Authors Guild v. OpenAI, Inc., No. 1:23-cv-08292 (S.D.N.Y. 2023)

詳細分析 (Detailed Analysis)

事件の概要 (Case Overview)

背景と争点 (Background and Issues)

事実関係: 本件は、AIコード生成ツールであるGitHub Copilotの開発と商業化をめぐる集団訴訟である。2022年11月、匿名の開発者らが、GitHub、Microsoft、OpenAIを相手取り、公開されているGitHubリポジトリ上のコードを許可なくAIモデルの訓練に使用したとして提訴した。GitHub Copilotは、開発者がコードを書く際にAIが自動的にコードの提案や補完を行うツールであり、OpenAIのCodexモデルを基盤としている。

原告らは、被告らが数百万のGitHubリポジトリからコードをスクレイピングし、オープンソースライセンスの帰属表示要件やその他の条件を無視してAIモデルを訓練したと主張している。特に問題となったのは、Copilotが訓練データから直接コピーされたコードを生成し、元のライセンス情報や著作権表示を削除して出力することがあるという点である。

中心的争点:
– AIシステムによる著作権で保護されたコードの使用が著作権侵害に該当するか
– オープンソースライセンスの条件(特に帰属表示要件)の違反があったか
– DMCA第1202条(b)における「著作権管理情報」の削除が成立するか
– AIによるコード生成がフェアユースとして保護されるか
– 訓練データの使用が「変容的使用」に該当するか

原告の主張:
– GitHub Copilotは、オープンソースライセンスで要求される帰属表示なしにコードを複製・配布している
– 被告らは、著作権管理情報(ライセンス情報、著作者名等)を意図的に削除した
– AIモデルの訓練は商業目的であり、フェアユースの抗弁は適用されない
– 開発者のプライバシー権が侵害され、不当な競争行為が行われた

被告の主張:
– AIモデルの訓練は変容的使用であり、著作権侵害には該当しない
– 生成されるコードは新しい表現であり、訓練データの直接的な複製ではない
– オープンソースライセンスは、AIモデルの訓練を明示的に禁止していない
– 原告らは具体的な損害を立証していない

AI/技術要素:
GitHub CopilotはOpenAIのCodexモデルを基盤とし、GPT-3アーキテクチャを使用している。このモデルは、GitHubの公開リポジトリから収集された数十億行のコードで訓練された。システムは、開発者のコンテキストを分析し、関数、変数名、コメント等を基に、次に書かれるであろうコードを予測・提案する。訓練プロセスでは、教師なし学習と強化学習の組み合わせが使用され、コードの構文と意味を理解する能力を獲得している。

手続きの経過 (Procedural History)

重要な手続き上の決定:
2023年5月11日、Jon S. Tigar判事は被告らの棄却申立てに対する判決を下した。裁判所は22の請求のうち20を棄却したが、契約違反(オープンソースライセンス違反)の請求については訴訟継続を認めた。また、DMCA第1202条違反の請求については、原告に修正訴状の提出機会を与えた。

2023年7月、原告らは第二次修正訴状を提出し、DMCA違反の主張を補強した。被告らは再度棄却申立てを行ったが、裁判所は2024年初頭にDMCA請求の一部について訴訟継続を認めた。

証拠開示:
現在、証拠開示手続きが進行中である。重要な争点として、GitHub Copilotの訓練データセットの詳細、アルゴリズムの内部動作、生成されたコードと訓練データとの類似性の程度等が焦点となっている。被告らは、営業秘密と技術的機密情報の保護を理由に、一部の情報開示に抵抗している。

専門家証言:
両当事者は、機械学習、著作権法、オープンソースライセンスの専門家を指名する予定である。特に、AIモデルの技術的動作と著作権侵害の関係について、専門家の意見が重要な役割を果たすと予想される。

判決の概要 (Judgment Summary)

裁判所の判断 (Court’s Decision)

主要な判決内容:
2023年5月11日の地方裁判所の判決では、Tigar判事は以下の判断を示した:

1. 著作権侵害請求の棄却: 裁判所は、原告らが具体的にどのコードが侵害されたかを特定していないとして、直接的な著作権侵害の請求を棄却した。

2. 契約違反請求の存続: オープンソースライセンスの違反に関する契約違反の請求については、原告らが十分な事実を主張したとして訴訟継続を認めた。

3. DMCA第1202条違反の部分的認容: 著作権管理情報の削除に関する請求について、裁判所は原告に修正の機会を与えた。その後の修正訴状で、この請求の一部が認められた。

4. 不法行為請求の棄却: 過失、不当利得、プライバシー侵害等の不法行為に基づく請求は、より具体的な法的根拠が必要として棄却された。

勝敗の結果:
現段階では部分的な勝利と敗北が混在している。被告らは多くの請求の棄却に成功したが、契約違反とDMCA違反の中核的な請求は存続しており、本案審理に進む可能性がある。

命令された救済措置:
現時点では最終的な救済措置は決定されていない。原告らは、損害賠償、差止命令、不当利得の返還を求めている。

重要な法的判断:
裁判所は、AIシステムによるコード生成における「同一性」の問題について重要な示唆を行った。DMCA第1202条の文脈で、生成されたコードが訓練データと「同一」である必要があるかという問題は、控訴審での主要な争点となっている。

法的推論の分析 (Analysis of Legal Reasoning)

適用された法理:
裁判所は、著作権侵害の認定には「実質的類似性」の立証が必要であるという伝統的な基準を適用した。また、契約法の観点から、オープンソースライセンスを拘束力のある契約として扱った。

事実認定:
裁判所は、GitHub Copilotが時として訓練データから逐語的にコードを複製することがあるという原告の主張を、訴答段階では真実として受け入れた。しかし、これが著作権侵害を構成するかは、さらなる事実審理が必要とした。

技術的理解:
判決は、AIシステムの技術的複雑性を認識しつつ、既存の法的枠組みをどのように適用するかという課題に直面していることを示している。裁判所は、機械学習モデルの「学習」と「複製」の区別について慎重なアプローチを取っている。

法的意義 (Legal Significance)

先例価値 (Precedential Value)

将来への影響:
本件は、AI時代における著作権法の適用に関する最初の重要な判例の一つとなる可能性がある。特に以下の点で先例的価値を持つ:

– AIモデルの訓練におけるフェアユース抗弁の範囲
– オープンソースライセンスのAI開発への適用可能性
– DMCA第1202条の「著作権管理情報」の定義とAI生成コンテンツへの適用
– AIシステムによる著作権侵害の立証基準

法理論の発展:
本件は、「AIによる創作」と「AIによる複製」の境界線を明確にする必要性を浮き彫りにしている。また、変容的使用の理論がAIの文脈でどのように適用されるかという新しい法的問題を提起している。

解釈の明確化:
裁判所の判断は、既存の著作権法とデジタル時代の新技術との間のギャップを埋める試みとして重要である。特に、コードの機能的側面と表現的側面の区別について、新たな視点を提供している。

規制・実務への影響 (Regulatory and Practical Impact)

AIガバナンス:
本件の結果は、AI開発における以下のガバナンス要件に影響を与える可能性がある:

– 訓練データの収集と使用に関する透明性要件
– ライセンス遵守のための技術的措置の実装
– AI生成コンテンツにおける帰属表示メカニズムの開発
– 著作権で保護されたコンテンツのフィルタリングシステム

コンプライアンス:
企業は以下の対応策を検討する必要がある:

– AIモデル訓練前のライセンス監査の実施
– オプトアウトメカニズムの提供
– 生成されたコンテンツの出所追跡システムの構築
– 法的リスク評価プロセスの強化

業界への影響:
– AI開発企業は、訓練データの選択においてより慎重なアプローチを取る必要がある
– オープンソースコミュニティは、AIによる使用を考慮したライセンス条項の改訂を検討している
– 新しいビジネスモデルとライセンシングフレームワークの開発が加速する可能性がある

リスク管理:
– 訓練データのライセンス状況の包括的な文書化
– 生成されたコンテンツの法的レビュープロセスの確立
– 侵害申立てに対する迅速な対応メカニズムの構築
– 保険カバレッジの見直しと拡大

比較法的観点 (Comparative Law Perspective)

日本法との比較:
日本の著作権法第30条の4は、情報解析のための著作物の利用について一定の例外を設けている。これは、AIモデルの訓練に有利な規定と解釈される可能性があるが、商業利用や競合関係がある場合の適用範囲については議論がある。また、日本ではオープンソースライセンスの法的性質について、契約として扱うか、著作権法上の利用許諾として扱うかの議論が継続している。

他国判例との関係:
– EU:欧州では、テキスト・データマイニング例外規定(DSM指令第3条、第4条)が存在するが、商業目的での使用には制限がある
– 英国:知的財産庁は、AI訓練のための著作権例外の導入を検討したが、現在は保留状態
– 中国:AIと著作権に関する明確な法的枠組みはまだ確立されていないが、北京インターネット法院等で関連事案が審理されている

グローバルな影響:
本件の判決は、国際的なAI開発企業の実務に大きな影響を与える。特に、クロスボーダーでのAIサービス提供において、各国の著作権法とライセンス要件の遵守が課題となる。また、国際的な調和の必要性が高まっており、WIPO等の国際機関での議論が活発化している。

重要なポイント (Key Takeaways)

実務家への示唆:
1. ライセンスデューデリジェンス: AI開発プロジェクトにおいて、訓練データのライセンス状況を詳細に調査・文書化することが不可欠である。

2. 技術的対策の実装: 著作権管理情報を保持し、生成されたコンテンツに適切な帰属表示を行う技術的メカニズムの開発が推奨される。

3. 契約条項の見直し: AI使用を想定した明確な条項を含むライセンス契約の策定が必要である。

4. リスク評価フレームワーク: AI開発・展開における法的リスクを体系的に評価するプロセスの確立が重要である。

今後の展望:
– 第9巡回区控訴裁判所の判決が、AI訓練におけるフェアユースの範囲を明確にする可能性がある
– 議会による新たな立法措置の可能性があり、AI特有の著作権例外規定が検討される可能性がある
– 業界標準とベストプラクティスの確立が進み、自主規制の枠組みが発展する可能性がある

注意すべき事項:
– AIモデルの訓練に使用するデータの出所と権利状況を明確に把握すること
– 生成されたコンテンツが既存の著作物と類似している可能性を常に考慮すること
– オープンソースライセンスの条件を厳格に遵守し、必要な帰属表示を行うこと
– 技術の進化に伴い、法的解釈も変化する可能性があることを認識すること

このレポートに関する注意事項 (Warning/Notes)

このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。


Comments

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です