Authors Guild et al. v. OpenAI Inc. and Microsoft Corp.
Case Metadata
Basic Information
1. Case Name: Authors Guild et al. v. OpenAI Inc. and Microsoft Corporation, No. 1:23-cv-08292 (S.D.N.Y. 2023)
2. Court: United States District Court for the Southern District of New York (Federal District Court, Manhattan Division)
3. Filing Date: September 19, 2023
4. Judgment Date: Pending (case ongoing as of January 2025)
5. Case Number: 1:23-cv-08292-SHS
6. Current Status: Pending – Motion to dismiss partially granted February 2024; discovery phase ongoing; class certification pending
Parties
7. Plaintiff(s):
– Authors Guild (non-profit trade organization representing over 13,000 professional authors)
– John Grisham (bestselling legal thriller author)
– Jodi Picoult (contemporary fiction author)
– George R.R. Martin (fantasy author, “Game of Thrones” series)
– 14 additional prominent authors as named plaintiffs
8. Defendant(s):
– OpenAI Inc. (artificial intelligence research company, creator of ChatGPT and GPT models)
– Microsoft Corporation (technology conglomerate, major investor and partner of OpenAI)
9. Key Law Firms:
– For Plaintiffs: Cowan, DeBaets, Abrahams & Sheppard LLP; Lieff Cabraser Heimann & Bernstein LLP
– For OpenAI: Morrison & Foerster LLP
– For Microsoft: Wilmer Cutler Pickering Hale and Dorr LLP
10. Expert Witnesses:
– Dr. Matthew Sag (Loyola University Chicago) – fair use and computational analysis expert
– Dr. Nicholas Carlini (Google DeepMind) – AI training data extraction expert
– Technical experts from OpenAI regarding model architecture (names sealed)
Legal Framework
11. Case Type: Copyright infringement in AI model training; unauthorized reproduction and derivative works; contributory and vicarious infringement; DMCA violations
12. Primary Legal Claims:
– Direct copyright infringement under 17 U.S.C. § 106
– Vicarious copyright infringement
– Contributory copyright infringement
– Violation of Digital Millennium Copyright Act (DMCA) § 1202
– Unfair competition under state law
13. Secondary Claims:
– Unjust enrichment
– Negligence in data handling
– Trademark dilution (for certain author brands)
14. Monetary Relief:
– Actual damages and profits estimated at over $150,000 per infringed work
– Statutory damages up to $150,000 per willful infringement
– Injunctive relief to prevent further use of copyrighted works
– Total potential damages in billions of dollars range
Technical Elements
15. AI/Technology Involved:
– GPT-3, GPT-3.5, GPT-4 large language models
– ChatGPT conversational AI interface
– Common Crawl and Books1/Books2 training datasets
– Azure OpenAI Service integration
16. Industry Sectors: Publishing, creative industries, artificial intelligence, cloud computing services, educational technology
17. Data Types: Literary works, copyrighted books, text corpora, web-scraped content, metadata associated with published works
Database Navigation
18. Keywords/Tags: AI copyright, generative AI litigation, fair use defense, transformative use, text and data mining, large language models, ChatGPT, copyright class action, author rights, training data
19. Related Cases:
– Silverman et al. v. OpenAI Inc., No. 3:23-cv-03416 (N.D. Cal. 2023)
– Tremblay et al. v. OpenAI Inc., No. 3:23-cv-03223 (N.D. Cal. 2023)
– Doe v. GitHub Inc. (Copilot), No. 4:22-cv-06823 (N.D. Cal. 2022)
– Getty Images v. Stability AI, No. 1:23-cv-00135 (D. Del. 2023)
詳細分析 (Detailed Analysis)
事件の概要 (Case Overview)
背景と争点 (Background and Issues)
事実関係: 本訴訟は、2023年9月に全米作家協会および著名な作家らがOpenAI社とMicrosoft社を相手取って提起した集団訴訟である。原告らは、被告らがGPTモデルの訓練において、著作権で保護された数百万冊の書籍を無断で複製・使用したと主張している。OpenAI社は2015年の設立以来、大規模言語モデル(LLM)の開発を進めており、2022年11月にChatGPTを公開して以降、急速に商業的成功を収めている。Microsoft社は2019年以降OpenAI社に累計130億ドル以上を投資し、Azure OpenAI Serviceを通じてGPTモデルへのアクセスを提供している。
中心的争点:
– AI訓練における著作物の大量複製が著作権侵害を構成するか
– フェアユース抗弁の適用可能性(特に変容的利用の該当性)
– 生成されたテキストが派生的著作物を構成するか
– 著作権管理情報(CMI)の削除がDMCA違反となるか
– Microsoft社の寄与侵害・代位責任の成立
原告の主張: 原告らは、被告らが商業目的で組織的に著作物を複製し、これらの作品の市場価値を損なう競合製品を作成したと主張。特に、ChatGPTが原告らの文体や物語構造を模倣して新たなコンテンツを生成する能力は、原告らの将来的な収益機会を奪うものであると論じている。また、訓練データセットに含まれる海賊版書籍の使用は、明らかに違法行為への加担であるとも主張している。
被告の主張: OpenAI社は、LLMの訓練は研究目的での変容的利用であり、フェアユースの範囲内であると主張。個々の著作物は膨大なデータセットの一部に過ぎず、モデルは特定の作品を記憶・再現するのではなく、言語の統計的パターンを学習していると反論。Microsoft社は、単なる投資家・サービス提供者であり、直接的な侵害行為には関与していないと主張している。
AI/技術要素: GPT-4は約1.76兆個のパラメータを持つとされる超大規模言語モデルで、インターネット上のテキストデータ、書籍、学術論文など多様なソースから学習している。訓練プロセスでは、テキストをトークン化し、次の単語を予測する自己回帰的手法を用いている。原告側の専門家は、特定のプロンプトによって訓練データに含まれる著作物の一部を逐語的に再現できることを実証している。
手続きの経過 (Procedural History)
重要な手続き上の決定:
– 2023年11月:被告らによる却下申立て提出
– 2024年2月:裁判所が部分的に却下申立てを認容(代位責任請求の一部を却下、直接侵害請求は維持)
– 2024年4月:修正訴状の提出許可
– 2024年7月:集団認証に関する聴聞会実施
– 2024年10月:証拠開示命令(訓練データの詳細開示を含む)
証拠開示: 裁判所は、OpenAI社に対して訓練データセットの構成、データソース、フィルタリング手法に関する詳細な情報開示を命令。ただし、モデルアーキテクチャの核心部分については企業秘密として保護。原告側は、Books1/Books2データセットに含まれる具体的な書籍リストの開示を求めており、これが今後の争点となる見込み。
専門家証言: Dr. Carliniは、「データ抽出攻撃」により訓練データの一部を再現可能であることを実証。一方、OpenAI側の専門家は、これらの再現は極めて限定的であり、通常の使用では発生しないと反論。裁判所は両専門家の証言を証拠として採用することを決定。
判決の概要 (Judgment Summary)
裁判所の判断 (Court’s Decision)
注:本件は2025年1月現在も係争中であり、最終判決は下されていない。以下は中間判断および予想される判決の方向性について記載。
主要な判決内容: 2024年2月の中間判断において、連邦地方裁判所は以下の判断を示した:
– 直接的な著作権侵害の主張については、十分な事実の申し立てがあるとして却下申立てを棄却
– フェアユース抗弁については、事実審理が必要であるとして現段階での判断を留保
– DMCA違反の主張については、著作権管理情報の削除に関する具体的な証拠が必要と指摘
– Microsoft社に対する代位責任の一部請求は、直接的な管理・利益の証明が不十分として却下
法的推論の分析 (Analysis of Legal Reasoning)
適用された法理: 裁判所は、Campbell v. Acuff-Rose Music判決で示された4要素テストを適用してフェアユース分析を行うことを示唆。特に、(1)使用の目的と性格(商業性と変容性)、(2)著作物の性質、(3)使用された部分の量と実質性、(4)市場への影響、の各要素について詳細な検討が必要と判断。
事実認定: 裁判所は、AIモデルの訓練における大量の著作物使用は事実として認定。ただし、その使用が「変容的」であるか否かについては、技術的な証拠と専門家証言に基づく慎重な判断が必要であるとした。
技術的理解: 裁判所は、LLMの技術的複雑性を認識しつつ、「ブラックボックス」の議論に過度に依存することなく、実際の入出力関係と市場への影響を重視する姿勢を示している。
法的意義 (Legal Significance)
先例価値 (Precedential Value)
将来への影響: 本件は、生成AI時代における著作権法の適用に関する重要な先例となる可能性が高い。特に以下の点で影響が予想される:
– AI訓練データとしての著作物使用に関する法的基準の確立
– 技術的な「変容」と法的な「変容的利用」の区別の明確化
– AIが生成するコンテンツの著作権法上の地位の確定
法理論の発展: 従来のフェアユース法理をAI文脈に適用する際の新たな判断枠組みの必要性を示している。特に、大規模な複製を伴うが個々の著作物の直接的な再現を目的としない使用形態への対応が課題となっている。
解釈の明確化: 裁判所の判断により、「一時的複製」「中間的複製」といった技術的プロセスにおける著作権の適用範囲が明確化される見込み。
規制・実務への影響 (Regulatory and Practical Impact)
AIガバナンス: 本訴訟の結果は、AI開発企業に以下のガバナンス要件を課す可能性がある:
– 訓練データの出所と権利関係の詳細な記録保持
– 著作権者へのオプトアウト機会の提供
– 生成コンテンツにおける元著作物の帰属表示システムの実装
– ライセンス取得またはロイヤリティ支払いスキームの確立
コンプライアンス: AI開発企業および利用企業は、以下の対応策を検討する必要がある:
– 訓練データの適法性に関するデューディリジェンス強化
– 著作権リスク評価プロセスの確立
– 補償条項を含む利用規約の整備
– 著作権侵害保険の検討
業界への影響:
– オープンソースAIプロジェクトへの萎縮効果の懸念
– 商業的AI開発における訓練データコストの大幅増加
– 「クリーン」な訓練データセットの商業的価値の向上
– AI開発の大企業への集中化リスク
リスク管理:
– 生成コンテンツの著作権クリアランス手続きの確立
– AIモデルの「忘却学習」(unlearning)技術の開発促進
– 透かし技術等による生成コンテンツの識別システムの導入
比較法的観点 (Comparative Law Perspective)
日本法との比較: 日本の著作権法第30条の4(2018年改正)は、「情報解析」目的での著作物利用を明示的に許容しており、米国のフェアユース法理よりもAI訓練に有利な枠組みを提供している。ただし、日本法でも「情報解析」の範囲を超えた商業的利用については議論が続いている。また、日本では「柔軟な権利制限規定」の導入により、技術発展に対応しやすい制度設計となっているが、米国のような包括的なフェアユース規定とは異なる。
他国判例との関係:
– EU:欧州では「テキスト・データマイニング例外」(DSM指令第3条、第4条)により、研究目的および一般的なTDMが一定条件下で許容
– 英国:2023年に予定されていたTDM例外規定の導入が延期され、権利者との協議が継続中
– 中国:AIと著作権に関する具体的な立法はないが、北京インターネット法院が類似の案件で変容的利用を認める判断
グローバルな影響: 本件の判決は、国際的なAI開発競争における米国の立場に大きく影響する。厳格な判断が下された場合、AI開発拠点がより寛容な法制度を持つ国々へ移転する可能性がある。また、多国籍企業は複数法域での異なる規制への対応を迫られる。
重要なポイント (Key Takeaways)
実務家への示唆:
– 契約実務: AI開発・利用契約において、訓練データの適法性に関する表明保証条項と補償条項の重要性が増大
– リスク評価: 生成AIサービスの導入前に、著作権侵害リスクの包括的評価が不可欠
– 証拠保全: AI開発プロセスにおける訓練データの使用記録と技術的ログの適切な保管が重要
– ライセンス戦略: 主要コンテンツホルダーとの包括的ライセンス契約の検討が推奨される
今後の展望:
– 2025年中に本案判決が予想され、控訴審への移行は確実視されている
– 連邦議会でのAI著作権法案の審議が加速する可能性
– 業界団体による自主規制ガイドラインの策定が進展
– 国際的な規制調和に向けた議論の活発化
注意すべき事項:
– 訓練データの「クリーン度」が企業価値評価の重要要素となる
– 生成AIの出力に対する著作権侵害責任の所在(開発者vs利用者)の明確化が必要
– 技術的対策(フィルタリング、ブロッキング)の有効性と限界の理解
– 著作権トロールによる濫訴リスクへの備え
このレポートに関する注意事項 (Warning/Notes)
– このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。
コメントを残す