Authors Guild v. OpenAI Inc.

Authors Guild v. OpenAI Inc.

Case Metadata

Basic Information

1. Case Name: Authors Guild et al. v. OpenAI Inc. et al., No. 1:23-cv-08292-SHS (S.D.N.Y. filed Sept. 19, 2023)
2. Court: United States District Court for the Southern District of New York (Federal trial court with jurisdiction over Manhattan, Bronx, Westchester, and surrounding counties)
3. Filing Date: September 19, 2023
4. Judgment Date: Not yet decided (summary judgment briefing scheduled for January-February 2025)
5. Case Number: 1:23-cv-08292-SHS
6. Current Status: Pending – In discovery phase with summary judgment motions anticipated in early 2025

Parties

7. Plaintiff(s):
– The Authors Guild (nonprofit organization representing professional writers’ interests)
– 17 individual authors including Jonathan Franzen, John Grisham, George R.R. Martin, Jodi Picoult, David Baldacci, Elin Hilderbrand, and others (bestselling fiction and non-fiction authors)
8. Defendant(s):
– OpenAI Inc. (artificial intelligence research company, developer of ChatGPT and GPT models)
– Microsoft Corporation (technology company, major investor in OpenAI and commercial partner)
9. Key Law Firms:
– For Plaintiffs: Cowan DeBaets Abrahams & Sheppard LLP
– For OpenAI: Latham & Watkins LLP
– For Microsoft: Orrick, Herrington & Sutcliffe LLP
10. Expert Witnesses: Not yet disclosed (discovery ongoing)

Legal Framework

11. Case Type: Copyright infringement related to AI training data; unauthorized reproduction and creation of derivative works; unfair competition
12. Primary Legal Claims:
– Direct copyright infringement under 17 U.S.C. § 106
– Vicarious copyright infringement
– Contributory copyright infringement
– Violation of DMCA Section 1202 (removal of copyright management information)
13. Secondary Claims:
– Unfair competition under common law
– Unjust enrichment
– Creation of unauthorized derivative works
14. Monetary Relief: Actual damages and defendants’ profits (amount to be determined); statutory damages up to $150,000 per willfully infringed work; injunctive relief sought

Technical Elements

15. AI/Technology Involved:
– GPT-3, GPT-3.5, GPT-4 large language models
– ChatGPT conversational AI interface
– Training datasets including alleged copyrighted books
– Natural language processing and text generation algorithms
16. Industry Sectors: Publishing, creative writing, artificial intelligence, software development, cloud computing services
17. Data Types: Copyrighted literary works (novels, non-fiction books), training corpus data, text generation outputs

Database Navigation

18. Keywords/Tags: AI copyright infringement, large language models, ChatGPT litigation, fair use defense, transformative use, book piracy, training data, generative AI, Authors Guild, OpenAI litigation
19. Related Cases:
– Kadrey v. Meta Platforms, Inc., No. 3:23-cv-03417 (N.D. Cal.)
– Tremblay v. OpenAI, Inc., No. 3:23-cv-03223 (N.D. Cal.)
– Doe v. GitHub, Inc., No. 4:22-cv-06823 (N.D. Cal.)
– Getty Images v. Stability AI, No. 1:23-cv-00135 (D. Del.)
– Andersen v. Stability AI Ltd., No. 3:23-cv-00201 (N.D. Cal.)

詳細分析 (Detailed Analysis)

事件の概要 (Case Overview)

背景と争点 (Background and Issues)

事実関係: 本訴訟は、2023年9月19日に米国作家協会(Authors Guild)および17名の著名な作家によって、OpenAI社およびMicrosoft社を相手取って提起された著作権侵害訴訟である。原告らは、被告らがGPTシリーズの大規模言語モデル(Large Language Models、LLMs)の訓練において、原告らの著作物を無断で使用したと主張している。

訴状によれば、OpenAI社は数百万冊の書籍を含む大規模なデータセットを使用してGPTモデルを訓練したが、その中には原告らの著作権で保護された作品が含まれていたとされる。これらの書籍は、いわゆる「シャドウライブラリ」と呼ばれる海賊版書籍サイトから取得された可能性が高いと原告らは主張している。

中心的争点: 本件の核心的な法的争点は以下の通りである:
– AIモデルの訓練における著作物の使用が著作権侵害を構成するか
– フェアユース(公正利用)の抗弁が適用されるか
– 生成AIが作成する出力が原著作物の派生的著作物に該当するか
– 技術的中立性の原則がAI開発にどのように適用されるか
– 著作権管理情報(CMI)の除去に関するDMCA違反の成否

原告の主張: 原告らは以下の点を主張している:
– OpenAIは原告らの書籍全文を無断で複製し、商業目的でGPTモデルの訓練に使用した
– ChatGPTは原告らの作品と実質的に類似した文章を生成する能力を持ち、これは派生的著作物の無断作成に該当する
– 被告らは違法に取得された書籍データを使用したことを知りながら、あるいは知るべきであったにもかかわらず使用を継続した
– Microsoft社はOpenAIの侵害行為から直接的な経済的利益を得ており、寄与侵害および代位責任を負う

被告の主張: 被告らは以下の抗弁を展開している:
– AIモデルの訓練は変革的使用(transformative use)であり、フェアユースの保護を受ける
– GPTモデルは特定の著作物を記憶・再現するのではなく、言語パターンを学習しているに過ぎない
– 生成される出力は新たな創作物であり、原著作物の複製や派生物ではない
– 技術革新は社会全体の利益に資するものであり、著作権法による過度の制限は公共の利益に反する

AI/技術要素: 本件で問題となっているGPTモデルは、Transformer アーキテクチャに基づく自己回帰型言語モデルである。これらのモデルは以下の技術的特徴を持つ:
– 数千億のパラメータを持つニューラルネットワーク
– 教師なし学習による次単語予測タスクでの訓練
– インターネット上のテキスト、書籍、記事など多様なソースからの訓練データ
– ファインチューニングとRLHF(人間のフィードバックによる強化学習)による性能向上

手続きの経過 (Procedural History)

重要な手続き上の決定:
– 2023年11月:被告らによる訴訟却下申立て(Motion to Dismiss)の提出
– 2024年2月:裁判所が訴訟却下申立てを一部認容、一部棄却。直接侵害および寄与侵害の主張は維持されたが、代位責任の一部主張は棄却
– 2024年3月:類似訴訟との併合(consolidation)命令
– 2024年6月:証拠開示手続きの範囲に関する裁判所の決定
– 2024年9月:保護命令(protective order)の発令により、機密情報の取り扱いが規定される

証拠開示: 現在進行中の証拠開示において、以下の重要な情報が争点となっている:
– GPTモデルの訓練データセットの詳細な構成
– 書籍データの取得源と取得方法
– モデル訓練時の技術的プロセスとデータ処理方法
– OpenAIとMicrosoftの間の契約関係と技術共有の範囲

専門家証言: 証拠開示段階のため、専門家証人の詳細はまだ公開されていないが、以下の分野の専門家が証言することが予想される:
– 機械学習とAI技術の専門家
– 著作権法の専門家
– 出版業界の経済的影響に関する専門家
– コンピューター・フォレンジックの専門家

判決の概要 (Judgment Summary)

裁判所の判断 (Court’s Decision)

本件は現在係属中であり、最終判決は出されていない。しかし、2024年2月の中間判断において、Sidney H. Stein判事は以下の重要な判断を示した:

主要な判決内容:
– 直接的著作権侵害の主張について、原告らは訴答段階で十分な事実を主張したと認定
– フェアユースの抗弁は事実認定を要する問題であり、訴訟却下段階では判断できないとした
– DMCA第1202条違反の主張について、著作権管理情報の除去に関する具体的な主張が認められた
– 純粋な代位責任理論に基づく一部の主張は、法的根拠が不十分として棄却

勝敗の結果: 未決定(2025年初頭のサマリージャッジメント申立て後に重要な判断が予想される)

命令された救済措置: 現時点では最終的な救済措置は命令されていないが、原告らは以下を求めている:
– 著作権侵害行為の差止命令
– 実損害および被告らが得た利益の賠償
– 法定損害賠償(故意の侵害の場合、作品あたり最大15万ドル)
– 弁護士費用の負担

重要な法的判断: 中間判断における重要な示唆:
– AIモデルの訓練における著作物使用は、自動的にフェアユースとはならない
– 技術的革新性だけでは著作権侵害の免責事由とはならない
– 商業的使用の性質は、フェアユース分析において重要な要素となる

反対意見・補足意見: 該当なし(地方裁判所の単独判事による判断のため)

法的推論の分析 (Analysis of Legal Reasoning)

適用された法理: 裁判所は以下の確立された法理を適用している:
– フェアユースの4要素テスト(17 U.S.C. § 107)
– 実質的類似性の基準(substantial similarity test)
– 寄与侵害の要件(知識と実質的寄与)
– 変革的使用の判断基準(Campbell v. Acuff-Rose Music判決)

事実認定: 現段階での暫定的な事実認定:
– GPTモデルの訓練に書籍データが使用された可能性が高い
– 被告らは商業目的でAIサービスを提供している
– 原告らの作品と類似した出力が生成される可能性がある

技術的理解: 裁判所は、AIモデルの技術的複雑性を認識しつつ、以下の点を重視している:
– 大規模言語モデルの訓練プロセスの本質
– データの「学習」と「記憶」の区別
– 生成AIの出力の予測不可能性と制御可能性のバランス

法的意義 (Legal Significance)

先例価値 (Precedential Value)

将来への影響: 本件判決は以下の点で将来のAI関連訴訟に重大な影響を与える可能性がある:
– AI開発におけるフェアユースの範囲の明確化
– 訓練データの合法的取得に関する基準の確立
– 生成AIの出力に対する著作権法の適用方法
– プラットフォーム提供者の責任範囲の画定

法理論の発展: 本件は、デジタル時代における著作権法の新たな解釈を促す可能性がある:
– 「変革的使用」概念のAI文脈での再定義
– 機械学習における「複製」の法的意味の明確化
– AIによる創作物の著作権帰属問題への示唆

解釈の明確化: 既存の著作権法のAI分野への適用において、以下の点が明確化される可能性:
– DMCA適用におけるアルゴリズムの位置づけ
– 技術的保護手段の回避とAI訓練の関係
– 著作物の「表現」と「アイデア」の区別のAI文脈での適用

規制・実務への影響 (Regulatory and Practical Impact)

AIガバナンス: 企業のAIガバナンスに対する以下の要求が生じる可能性:
– 訓練データの出所と権利関係の詳細な記録保持
– 著作権コンプライアンスのための内部統制システムの構築
– データ取得プロセスの透明性確保
– 第三者の知的財産権を尊重する訓練手法の開発

コンプライアンス: AI開発企業が取るべき対応策:
– ライセンス取得または許諾済みデータセットの使用
– オプトアウト機構の実装
– 著作権フィルタリングシステムの導入
– 法務部門とAI開発部門の緊密な連携

業界への影響: AI産業および出版業界への具体的影響:
– AI訓練データのライセンス市場の形成
– 出版社とAI企業間の新たな収益分配モデルの確立
– オープンソースAIモデル開発への影響
– クリエイティブ産業におけるAI利用のガイドライン策定

リスク管理: 類似リスクを回避するための考慮事項:
– デューデリジェンスの強化(データソースの適法性確認)
– 保険によるリスクヘッジ(AI関連の知的財産権侵害保険)
– 段階的なモデル展開とリスク評価
– ステークホルダーとの事前協議と合意形成

比較法的観点 (Comparative Law Perspective)

日本法との比較: 日本の著作権法およびAI規制との比較において、以下の相違点が注目される:

著作権法第30条の4(2018年改正)により、日本では「情報解析」目的での著作物利用が一定の条件下で許容されている。これは、AIの機械学習を含む情報解析のための複製等を、著作権者の利益を不当に害しない限りにおいて認めるものである。米国のフェアユース doctrine と異なり、日本法は特定の利用目的を明文で規定している点で、より予測可能性が高い。

しかし、日本法においても、学習済みモデルが元の著作物と類似した出力を生成する場合の取り扱いは明確でなく、「享受目的」の利用と判断される可能性がある。また、違法にアップロードされた著作物を訓練データとして使用することの適法性についても、議論が続いている。

他国判例との関係:
– EU:欧州では、DSM指令(デジタル単一市場における著作権指令)により、テキスト・データマイニングに関する例外規定が設けられているが、商業目的での利用には権利者のオプトアウトが認められている
– 英国:2023年、英国政府は当初計画していたAI訓練のための著作権例外規定の導入を見送り、業界との自主的な合意形成を促進する方針に転換した
– カナダ:カナダ著作権法のフェアディーリング規定は、米国より限定的であり、AI訓練への適用可能性は不明確

グローバルな影響: 本件判決は、以下の点で国際的な影響を持つ可能性がある:
– 多国籍AI企業のグローバルなデータ取得・利用戦略の見直し
– 国際的なAI倫理基準とベストプラクティスの形成
– 各国の立法動向への影響(AI訓練データに関する特別法の制定等)
– 国際条約レベルでのAIと知的財産権の調和の必要性

重要なポイント (Key Takeaways)

実務家への示唆:
– AI開発企業の法務担当者は、訓練データの取得源と権利処理について、開発初期段階から関与し、適切な記録を保持する必要がある
– 著作権者側の代理人は、技術的な証拠の収集と専門家の確保が訴訟の成否を左右することを認識すべきである
– ライセンス交渉において、AI利用に関する条項を明示的に含めることが重要となる
– コンプライアンス体制の構築において、技術部門と法務部門の密接な連携が不可欠である

今後の展望:
– 2025年のサマリージャッジメント判決が、米国におけるAIと著作権の関係に関する重要な先例となる可能性が高い
– 議会による立法的解決(AIに特化した著作権法改正)の動きが活発化する可能性
– 業界団体による自主規制やベストプラクティスの策定が進むことが予想される
– 国際的な調和に向けた議論が、WIPO等の国際機関で本格化する可能性

注意すべき事項:
– 本件の結論如何に関わらず、AI開発における「予防法務」の重要性は高まる一方である
– 技術の急速な発展に法的枠組みが追いつかない「規制のラグ」に留意し、保守的なリスク管理が求められる
– 生成AIの出力に対する責任の所在について、エンドユーザー向けの利用規約やガイドラインの整備が重要
– データプライバシー、競争法、消費者保護法等、著作権以外の法的リスクとの複合的な対応が必要

このレポートに関する注意事項 (Warning/Notes)

このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。


Comments

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です