Authors Guild et al. v. OpenAI Inc. et al.

Authors Guild et al. v. OpenAI Inc. et al.

Case Metadata

Basic Information

1. Case Name: Authors Guild et al. v. OpenAI Inc. et al., No. 1:23-cv-08292 (S.D.N.Y. 2023)
2. Court: United States District Court for the Southern District of New York (Federal District Court, Manhattan Division)
3. Filing Date: September 19, 2023
4. Judgment Date: Pending (Case remains in active litigation as of January 2025)
5. Case Number: 1:23-cv-08292-SHS
6. Current Status: Pending – Discovery phase, motion to dismiss partially granted and partially denied (February 2024)

Parties

7. Plaintiff(s):
– Authors Guild (Trade association representing over 12,000 professional writers)
– John Grisham (Bestselling author of legal thrillers)
– Jodi Picoult (Bestselling contemporary fiction author)
– George R.R. Martin (Fantasy author, creator of “A Song of Ice and Fire”)
– Jonathan Franzen (Literary fiction author)
– Additional class members (Professional authors whose works were allegedly used without authorization)

8. Defendant(s):
– OpenAI Inc. (Artificial intelligence research laboratory)
– OpenAI LP (Commercial subsidiary)
– OpenAI GP LLC (General partner entity)
– Microsoft Corporation (Technology company, major investor and partner in OpenAI)

9. Key Law Firms:
For Plaintiffs: Cowan, DeBaets, Abrahams & Sheppard LLP; Lieff Cabraser Heimann & Bernstein LLP
For Defendants: Morrison & Foerster LLP (OpenAI); Davis Wright Tremaine LLP (Microsoft)

10. Expert Witnesses:
– Technical experts on large language model training (names sealed pending discovery)
– Copyright valuation experts (retained but not yet disclosed)
– Publishing industry economists (anticipated)

Legal Framework

11. Case Type: Copyright infringement in AI training data; Unfair competition; Contributory and vicarious copyright infringement
12. Primary Legal Claims:
– Direct copyright infringement under 17 U.S.C. § 501
– Vicarious copyright infringement
– Contributory copyright infringement
– Violation of Digital Millennium Copyright Act (DMCA) § 1202
– Unfair competition under New York common law
– Unjust enrichment

13. Secondary Claims:
– Negligence in data handling
– Trademark dilution (withdrawn in amended complaint)
– False designation of origin under Lanham Act (under consideration)

14. Monetary Relief:
– Actual damages and defendants’ profits (amount to be determined)
– Statutory damages up to $150,000 per infringed work
– Injunctive relief to prevent further use of copyrighted materials
– Attorneys’ fees and costs

Technical Elements

15. AI/Technology Involved:
– GPT-3, GPT-3.5, and GPT-4 large language models
– ChatGPT consumer application
– Training datasets including “Books1” and “Books2” corpora
– Text generation and completion algorithms
– Fine-tuning and reinforcement learning from human feedback (RLHF) systems

16. Industry Sectors:
– Publishing and literary creation
– Artificial intelligence and machine learning
– Software development and SaaS platforms
– Digital content creation and distribution
– Educational technology

17. Data Types:
– Published literary works (novels, non-fiction books)
– Copyrighted textual content
– Training datasets derived from internet sources
– Metadata associated with published works
– Author attribution information

Database Navigation

18. Keywords/Tags: AI copyright, training data, fair use, generative AI, ChatGPT, large language models, copyright infringement, Authors Guild, OpenAI, transformative use, data scraping, machine learning datasets

19. Related Cases:
– Silverman v. OpenAI Inc., No. 3:23-cv-03416 (N.D. Cal. 2023)
– Kadrey v. Meta Platforms, Inc., No. 3:23-cv-03417 (N.D. Cal. 2023)
– Tremblay v. OpenAI Inc., No. 3:23-cv-03223 (N.D. Cal. 2023)
– Getty Images v. Stability AI, No. 1:23-cv-00135 (D. Del. 2023)
– Anderson v. Stability AI Ltd., No. 3:23-cv-00201 (N.D. Cal. 2023)

詳細分析 (Detailed Analysis)

事件の概要 (Case Overview)

背景と争点 (Background and Issues)

事実関係:
2023年9月、米国作家協会(Authors Guild)および著名作家らは、OpenAIとMicrosoftを相手取り、大規模言語モデル(LLM)の訓練に著作権で保護された書籍を無断使用したとして集団訴訟を提起した。原告らは、OpenAIが数百万冊の書籍を含む膨大なテキストデータを収集し、GPTシリーズのAIモデルの訓練に使用したと主張している。特に問題とされているのは、OpenAIが「Books1」および「Books2」と呼ばれるデータセットを使用し、これらには原告らの著作物が含まれていたという点である。

訴訟の背景には、生成AIの急速な発展と商業化がある。ChatGPTは2022年11月のリリース以降、わずか2か月で1億人のユーザーを獲得し、AI技術の大衆化を実現した。しかし、この成功の陰には、インターネット上から収集された膨大な著作物データの存在があり、その使用の適法性が問われている。

中心的争点:
1. AIモデルの訓練における著作物の使用が「フェアユース」として保護されるか
2. 生成されたアウトプットが原著作物の派生的著作物に該当するか
3. AIシステムが著作権管理情報(CMI)を除去または改変したか
4. Microsoftの寄与侵害および代位責任の成立
5. AIによる著作物の「記憶」と「再現」の技術的メカニズムと法的評価

原告の主張:
原告は、OpenAIが組織的かつ意図的に著作権で保護された書籍を大量に複製し、商業目的でAIモデルの訓練に使用したと主張している。特に以下の点を強調している:

– OpenAIは違法なソースから取得した海賊版電子書籍を含むデータセットを使用した
– ChatGPTは訓練データに含まれる著作物の内容を「記憶」し、プロンプトに応じて実質的に類似した文章を生成できる
– この使用は変容的(transformative)ではなく、原著作物の市場を直接侵害している
– OpenAIは年間数十億ドルの収益を上げているが、著作者には一切の対価を支払っていない
– AIが生成する要約や類似コンテンツは、原作品の潜在的市場を破壊する

被告の主張:
OpenAIとMicrosoftは、以下の抗弁を展開している:

– AIモデルの訓練は、研究・教育目的を含む変容的使用でありフェアユースに該当する
– LLMは個々の著作物を「複製」するのではなく、言語パターンを学習しているに過ぎない
– 生成されるアウトプットは、統計的モデルに基づく新規創作物である
– 原告は具体的な損害を立証できておらず、推測的な主張に留まっている
– 技術革新を阻害する過度に広範な差止請求は公益に反する

AI/技術要素:
本件で問題となっているGPT(Generative Pre-trained Transformer)モデルは、トランスフォーマーアーキテクチャに基づく自己回帰型言語モデルである。主要な技術的特徴は以下の通り:

訓練プロセス: 教師なし学習による大規模な事前訓練と、人間のフィードバックによる強化学習(RLHF)を組み合わせた多段階訓練
データ処理: テキストをトークンに分割し、文脈を考慮した確率分布を学習
パラメータ規模: GPT-4は推定1兆以上のパラメータを持つとされる
記憶と生成: 訓練データの統計的パターンを内部表現として保持し、確率的に次のトークンを予測

手続きの経過 (Procedural History)

重要な手続き上の決定:

2023年9月19日の訴訟提起以降、本件は複数の重要な手続き上の局面を経ている。2024年2月12日、連邦地方裁判所のSidney H. Stein判事は、被告の棄却申立てに対して部分的に認容、部分的に棄却の決定を下した。

裁判所は、直接的な著作権侵害の主張については、原告が十分な事実を申し立てているとして棄却申立てを却下した。特に、OpenAIがBooks1およびBooks2データセットを使用したことを認めている点、およびChatGPTが時として訓練データに含まれる著作物と実質的に類似したテキストを生成する能力があることが、請求原因として十分であると判断された。

一方、DMCA第1202条違反の主張については、原告が著作権管理情報(CMI)の除去または改変が「意図的」であったことを十分に申し立てていないとして、修正の機会を与えた上で棄却された。

証拠開示:
2024年3月から開始された証拠開示手続きでは、以下の重要な争点が浮上している:

– OpenAIの訓練データセットの完全な内容と取得源
– 訓練プロセスの技術的詳細とデータ保持ポリシー
– Microsoftとの契約関係および技術提供の範囲
– 収益モデルと著作物使用による経済的利益の算定

OpenAIは、企業秘密と競争上の機密情報を理由に、多くの技術文書について保護命令を求めている。

専門家証言:
両当事者は、複数の分野の専門家を指定している:

技術専門家: LLMの動作原理、訓練プロセス、データ処理方法について証言
著作権法専門家: フェアユース分析、変容的使用の判断基準について意見提出
経済専門家: 著作物市場への影響、損害額の算定方法について分析
出版業界専門家: デジタル書籍市場の構造と AI による影響について証言

判決の概要 (Judgment Summary)

裁判所の判断 (Court’s Decision)

本件は2025年1月現在も係属中であるため、最終判決は下されていない。しかし、2024年2月の中間判断において、Stein判事は以下の重要な法的判断を示している:

主要な判決内容:
1. 著作権侵害の主張の存続: 裁判所は、AIモデルの訓練における著作物の使用がフェアユースに該当するか否かは、事実審理を要する問題であると判断した。特に、使用の目的と性質、使用された部分の量と実質性、市場への影響等の要素を総合的に評価する必要があるとした。

2. 変容的使用の基準: 裁判所は、Google v. Oracle判決を引用しつつ、AIモデルの訓練が「変容的」であるかどうかは、単に技術的に新規であることだけでは決定されず、原著作物の表現的目的との関係で評価されるべきであると示唆した。

3. 損害の具体性: 原告が主張する市場への損害について、裁判所は「推測的」ではあるものの、棄却申立ての段階では十分に具体的であると認定した。

命令された救済措置:
現段階では最終的な救済措置は決定されていないが、原告は以下を求めている:
– AIモデルからの著作物データの削除
– 将来的な使用の差止め
– 損害賠償(実損害および法定損害賠償)
– 不当利得の返還

重要な法的判断:
中間判断における重要な示唆:
– LLMの訓練は「中間的複製」の法理では正当化されない可能性
– 商業的使用はフェアユース認定において不利な要素となる
– AIによる「創作的」アウトプットも、訓練データとの実質的類似性の観点から評価される

法的推論の分析 (Analysis of Legal Reasoning)

適用された法理:
裁判所は以下の確立された法原則を本件に適用している:

1. フェアユース分析(17 U.S.C. § 107):
– Campbell v. Acuff-Rose Music基準による変容的使用の評価
– Harper & Row v. Nation Enterprisesにおける未公表著作物の保護
– Sony v. Universalにおける商業的使用の推定

2. 複製権侵害の要件:
– Feist Publications v. Rural Telephoneにおける創作性の基準
– Arnstein v. Porterの実質的類似性テスト

事実認定:
裁判所が重要視した事実:
– OpenAIが大規模な書籍データセットを使用したことの自認
– ChatGPTが特定の書籍の内容を詳細に「知っている」ことの実証
– 商業的利益を目的とした技術開発であること

技術的理解:
裁判所は、LLMの技術的複雑性を認識しつつも、著作権法の基本原則が依然として適用されるとの立場を取っている。特に、技術的な「ブラックボックス」を理由に著作権侵害の責任を免れることはできないと示唆している。

法的意義 (Legal Significance)

先例価値 (Precedential Value)

将来への影響:
本件は、生成AI時代における著作権法の適用に関する最初の包括的な司法判断となる可能性が高い。特に以下の点で重要な先例となることが予想される:

1. AI訓練データのフェアユース基準の確立: 大規模言語モデルの訓練における著作物使用の適法性判断基準が明確化される
2. 技術的中立性原則の限界: 技術革新を理由とした著作権侵害の免責がどこまで認められるかの境界線
3. 損害賠償の算定方法: AI による著作権侵害における損害額の計算方法論の確立

法理論の発展:
本件は以下の新しい法理論の発展に寄与する可能性がある:

「学習」と「複製」の法的区別: AIの「学習」が著作権法上の「複製」に該当するかの理論的枠組み
確率的生成と著作権: 統計モデルに基づく生成コンテンツの著作権法上の位置づけ
データ主権と AI: 訓練データに対するコントロール権の法的性質

解釈の明確化:
既存の著作権法の AI 分野への適用について、以下の点が明確化されることが期待される:

– 中間的複製の法理の AI 訓練への適用可能性
– 変容的使用の概念の技術的文脈での解釈
– 派生的著作物の定義の AI 生成コンテンツへの適用

規制・実務への影響 (Regulatory and Practical Impact)

AIガバナンス:
本件の結果は、AI開発企業のガバナンス体制に重大な影響を与える:

1. データガバナンス体制の強化:
– 訓練データの出所と権利関係の明確な記録管理
– データ使用に関する法的レビュープロセスの確立
– ライセンス管理システムの導入

2. 透明性とアカウンタビリティ:
– 訓練データの開示に関するポリシー策定
– ステークホルダーへの情報提供メカニズム
– 監査可能な開発プロセスの構築

コンプライアンス:
企業が取るべき具体的な対応策:

1. 予防的措置:
– 著作権クリアランスプロセスの確立
– オプトアウトメカニズムの実装
– 権利者との事前のライセンス交渉

2. リスク軽減策:
– 訓練データのフィルタリングシステム導入
– 生成コンテンツの著作権チェック機能
– 補償・保険制度の整備

業界への影響:
AI開発・展開実務への具体的効果:

開発コストの増加: ライセンス料、法的レビュー、コンプライアンスコストの上昇
イノベーションへの影響: オープンな研究開発から、より管理された開発環境への移行
競争構造の変化: 大規模な資金力を持つ企業への集中が加速する可能性

リスク管理:
類似リスクを回避するための考慮事項:

1. 法的リスク評価:
– 使用データの権利状態の事前確認
– 複数法域での著作権リスク分析
– 継続的な法的動向のモニタリング

2. 技術的対策:
– プライバシー保護技術の導入
– 合成データの活用
– フェデレーテッドラーニング等の代替手法の検討

比較法的観点 (Comparative Law Perspective)

日本法との比較:
日本の著作権法およびAI・データ保護法制との重要な相違点:

1. 著作権法第30条の4(2018年改正):
日本は2018年の著作権法改正により、「電子計算機による情報解析」のための著作物の利用を広く許容している。これは、AI開発を含む情報解析目的での著作物使用について、米国のフェアユース規定よりも明確な法的根拠を提供している。

2. 法的アプローチの違い:
– 米国:ケースバイケースのフェアユース分析
– 日本:情報解析のための明文の権利制限規定

この違いにより、日本では本件のような訴訟リスクが相対的に低いと考えられる。

3. 但し書きの適用:
日本法では「著作権者の利益を不当に害する場合」は除外されており、この解釈が今後の課題となる。

他国判例との関係:
類似事案の国際的動向:

1. 欧州連合:
– EUのデジタル単一市場著作権指令(DSM指令)第4条によるテキスト・データマイニング例外
– ただし、権利者によるオプトアウトが可能

2. 英国:
– 2022年に提案されたAI訓練のための広範な著作権例外規定は撤回
– 現在、より限定的なアプローチを検討中

3. 中国:
– AI生成コンテンツに関する規制を先行導入
– 訓練データの合法性要件を明文化

グローバルな影響:
多国籍企業への影響:

1. 規制のフラグメンテーション: 各国の異なる規制への対応が必要となり、グローバルなAIサービスの展開が複雑化

2. データローカライゼーション: 法域ごとに異なる訓練データセットの管理が必要となる可能性

3. 国際的な基準設定の必要性: OECD、G7等での国際的な調整の重要性が増大

重要なポイント (Key Takeaways)

実務家への示唆:

1. 契約実務の見直し:
– AI開発・利用に関する契約条項の精緻化
– 表明保証条項、補償条項の重要性
– データ提供契約における使用目的の明確化

2. デューデリジェンスの強化:
– AI企業のM&A、投資における知財DDの重要性増大
– 訓練データの適法性確認プロセスの確立
– 潜在的な著作権リスクの定量化手法の開発

3. 訴訟戦略の検討:
– クラスアクションのリスク評価
– 和解戦略の早期検討
– 技術的専門家の早期関与

今後の展望:

1. 立法的対応の可能性:
– 米国議会でのAI規制法案の動向
– 著作権法改正の議論
– 産業界と創作者団体の利害調整

2. 技術的解決策の発展:
– ブロックチェーンによる権利管理
– AIによる著作権侵害検出技術
– プライバシー保護学習技術の実用化

3. 新たなビジネスモデル:
– コンテンツライセンシングプラットフォーム
– AI訓練用データマーケットプレイス
– 集中管理団体による包括ライセンス

注意すべき事項:

1. 継続的なモニタリング: 本件および関連訴訟の動向を注視し、判決が出た場合の迅速な対応準備

2. 予防的コンプライアンス: 判決を待たずに、保守的なアプローチでのコンプライアンス体制構築

3. ステークホルダー対話: 権利者団体、規制当局、技術コミュニティとの建設的な対話の維持

4. 国際的視野: 各国の規制動向を踏まえた、グローバルなリスク管理戦略の構築

5. 技術と法の融合: 法務部門と技術部門の緊密な連携による、実効的なガバナンス体制の確立

本件は、AI技術の発展と著作権保護のバランスという、21世紀の情報社会が直面する根本的な課題を提起している。その判決は、今後のAI産業の発展方向と、創作活動のエコシステムの在り方を大きく左右することになるであろう。実務家は、この歴史的な転換点において、技術革新と権利保護の両立を図る創造的な解決策を模索する必要がある。

このレポートに関する注意事項 (Warning/Notes)

このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。


Comments

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です