Alter v. OpenAI, Inc. et al.

Alter v. OpenAI, Inc. et al.

Case Metadata

Basic Information

1. Case Name: Alter et al. v. OpenAI, Inc. et al., No. 1:23-cv-10211-SHS (S.D.N.Y. 2023)
2. Court: United States District Court for the Southern District of New York
3. Filing Date: November 16, 2023
4. Judgment Date: Pending (case ongoing)
5. Case Number: 1:23-cv-10211-SHS (consolidated with MDL No. 3143)
6. Current Status: Pending – Discovery phase ongoing through April 2025; class certification briefing scheduled for June 2025

Parties

7. Plaintiff(s):
– Julian Sancton (lead plaintiff) – Nonfiction author and journalist
– Paul Tremblay – Fiction and nonfiction author
– Mona Awad – Fiction author
– Christopher Golden – Horror and thriller author
– Richard Kadrey – Science fiction author
– Brian Keene – Horror author
– Stewart O’Nan – Fiction author
– Nicholas Basbanes – Nonfiction author specializing in literary and cultural topics
– Nicholas Gage – Investigative journalist and author
– David Henry Sterry – Author and activist
– Ariel Lawhon – Historical fiction author
– Additional nonfiction authors as proposed class representatives

8. Defendant(s):
– OpenAI, Inc. – Artificial intelligence research and deployment company
– OpenAI GP, LLC – General partner entity of OpenAI
– OpenAI OpCo LLC – Operating company entity of OpenAI
– Microsoft Corporation – Technology corporation and major OpenAI investor/partner

9. Key Law Firms:
– For Plaintiffs: Susman Godfrey LLP; Joseph Saveri Law Firm; Emery Celli Brinckerhoff Abady Ward & Maazel LLP
– For OpenAI Defendants: Latham & Watkins LLP
– For Microsoft: Orrick, Herrington & Sutcliffe LLP

10. Expert Witnesses: Not yet disclosed (discovery phase ongoing)

Legal Framework

11. Case Type: Copyright infringement class action related to AI training on copyrighted materials
12. Primary Legal Claims:
– Direct copyright infringement under 17 U.S.C. § 501
– Vicarious copyright infringement
– Contributory copyright infringement
– Removal of copyright management information under 17 U.S.C. § 1202(b)
13. Secondary Claims:
– Unfair competition
– Negligence
– Unjust enrichment
14. Monetary Relief:
– Statutory damages up to $150,000 per infringed work
– Actual damages and profits
– Injunctive relief
– Class-wide relief for all authors whose works were allegedly used

Technical Elements

15. AI/Technology Involved:
– ChatGPT (various versions including GPT-3.5 and GPT-4)
– Large Language Model (LLM) training systems
– Web scraping technologies for data collection
– Books3 dataset (alleged training dataset containing copyrighted books)
16. Industry Sectors:
– Publishing and literary works
– Artificial intelligence and machine learning
– Technology and software development
– Digital content creation and distribution
17. Data Types:
– Published books (fiction and nonfiction)
– Literary copyrighted works
– Training datasets for language models
– Textual content used for AI model training

Database Navigation

18. Keywords/Tags: AI copyright infringement, ChatGPT litigation, LLM training data, fair use defense, generative AI legal challenges, Books3 dataset, copyright management information, class action AI lawsuit, OpenAI litigation, Microsoft AI liability

19. Related Cases:
– Authors Guild v. OpenAI, Inc., No. 1:23-cv-08292 (S.D.N.Y.)
– Silverman v. OpenAI, Inc., No. 3:23-cv-03416 (N.D. Cal.)
– Kadrey v. Meta Platforms, Inc., No. 3:23-cv-03417 (N.D. Cal.)
– Doe v. GitHub, Inc., No. 4:22-cv-06823 (N.D. Cal.)
– Getty Images v. Stability AI, Inc., No. 1:23-cv-00135 (D. Del.)
– Andersen v. Stability AI Ltd., No. 3:23-cv-00201 (N.D. Cal.)

詳細分析 (Detailed Analysis)

事件の概要 (Case Overview)

背景と争点 (Background and Issues)

事実関係:
本件は、2023年11月に提起された集団訴訟で、ノンフィクション作家を中心とする複数の著者が、OpenAI社およびMicrosoft社を相手取り、ChatGPTの訓練に自らの著作物が無断使用されたと主張している。原告らによれば、被告らは「Books3」と呼ばれるデータセットを含む大規模なコーパスを使用し、著作権で保護された書籍を許可なくAIモデルの訓練に利用したとされる。この訴訟は、生成AIの開発における著作権法の適用という、技術と法の交差点における重要な問題を提起している。

中心的争点:
– AIモデルの訓練における著作物の使用が著作権侵害を構成するか
– フェアユース(公正利用)の抗弁がAI訓練データに適用可能か
– 生成AIが著作物の「派生的作品」を作成することが侵害行為となるか
– 著作権管理情報の除去に関する責任の有無
– Microsoft社の寄与侵害または代位責任の成立可否

原告の主張:
原告らは、OpenAI社が数千から数百万冊に及ぶ著作権保護された書籍を無断でコピーし、ChatGPTの訓練に使用したと主張。これにより、AIモデルが原告らの作品の表現、構造、スタイルを学習し、実質的に類似したコンテンツを生成可能になったと論じている。さらに、著作権管理情報(CMI)を意図的に除去または改変したことで、デジタル著作権管理の規定にも違反したと指摘。各侵害作品につき最高15万ドルの法定損害賠償と、将来的な侵害行為の差止めを求めている。

被告の主張:
OpenAI社は、AI訓練における著作物の使用は変容的(transformative)であり、フェアユースとして保護されると主張。訓練プロセスは著作物の市場を代替するものではなく、むしろ全く新しい技術的用途を創出するものであると論じている。また、生成されるアウトプットは原作品の複製ではなく、学習された統計的パターンに基づく新たな創作であるとの立場を取っている。Microsoft社は、単なる投資者・パートナーであり、直接的な侵害行為には関与していないと主張している。

AI/技術要素:
ChatGPTは、大規模言語モデル(LLM)技術を基盤とする生成AI システムで、膨大なテキストデータから言語パターンを学習する。訓練プロセスでは、トランスフォーマーアーキテクチャを使用し、数十億のパラメータを持つニューラルネットワークが、テキストの統計的関係性を学習。原告らが問題視する「Books3」データセットは、約19万冊の書籍を含むとされ、違法にスクレイピングされた電子書籍の集合体であると指摘されている。

手続きの経過 (Procedural History)

重要な手続き上の決定:
2024年2月、本件は他の複数のAI著作権訴訟と共に、広域係属訴訟(MDL)として統合され、ニューヨーク南部地区連邦地方裁判所のSidney H. Stein判事の下で審理されることとなった。2024年8月には、被告の一部棄却申立てが部分的に認められ、過失および不当利得の請求は却下されたが、主要な著作権侵害請求は維持された。裁判所は、フェアユースの問題は事実審理を要する争点であると判断している。

証拠開示:
現在進行中の証拠開示手続きでは、OpenAIの訓練データセットの詳細、データ収集方法、および内部文書の開示が焦点となっている。原告側は、Books3データセットへのアクセスと、その使用に関する技術文書の提出を求めている。被告側は、企業秘密および技術的機密情報の保護を理由に、一部の開示に抵抗している。

専門家証言:
技術専門家による証言の準備が進められており、AI訓練プロセスの技術的側面、著作物の使用態様、および生成されるアウトプットの性質について、詳細な分析が予定されている。経済専門家による市場への影響評価も計画されている。

判決の概要 (Judgment Summary)

裁判所の判断 (Court’s Decision)
注:本件は現在係属中であり、最終判決は下されていない。以下は、これまでの中間的判断および予想される法的論点を記載。

主要な判決内容:
現時点での裁判所の判断は、手続き的申立てに関するものに限定されている。2024年8月の決定において、裁判所は著作権侵害の主張については事実審理が必要であると認定し、被告の棄却申立てを大部分却下した。特に、フェアユースの抗弁については、その変容的性質、使用の目的と性格、市場への影響などの要素を総合的に評価する必要があるとした。

命令された救済措置:
現段階では最終的な救済措置は決定されていないが、原告らは以下を求めている:
– 各侵害作品につき最高15万ドルの法定損害賠償
– 将来的な著作権侵害行為の差止命令
– 不当に得た利益の返還
– 弁護士費用の負担

重要な法的判断:
裁判所は、AI訓練における著作物使用の法的性質について、先例のない問題であることを認識しつつ、既存の著作権法の枠組みを適用して判断する姿勢を示している。特に、Campbell v. Acuff-Rose Music事件で示されたフェアユースの4要素テストの適用が中心的な論点となることが示唆されている。

法的意義 (Legal Significance)

先例価値 (Precedential Value)

将来への影響:
本件の判決は、AI開発における著作権法の適用について重要な先例となる可能性が高い。特に、大規模言語モデルの訓練における著作物使用がフェアユースとして認められるか否かの判断は、AI産業全体の開発手法と法的リスク管理に直接的な影響を与える。仮に原告勝訴となれば、AI企業は訓練データの取得において、より厳格なライセンシング体制の構築を迫られることになる。

法理論の発展:
本件は、デジタル時代における「変容的使用」の概念を再定義する機会となっている。従来の変容的使用の判断基準が、機械学習という全く新しい技術的文脈においてどのように適用されるべきかという問題は、著作権法の理論的発展に寄与する。また、AIによる創作物の法的地位や、訓練データと生成アウトプットの関係性についての法的枠組みの確立にも貢献する可能性がある。

解釈の明確化:
既存の著作権法規定、特にDMCA(デジタルミレニアム著作権法)の著作権管理情報条項のAI文脈での適用について、明確な指針が示されることが期待される。また、寄与侵害や代位責任の理論が、AI開発のパートナーシップやクラウドサービス提供者にどのように適用されるかについても、重要な解釈が示される可能性がある。

規制・実務への影響 (Regulatory and Practical Impact)

AIガバナンス:
本件の結果は、AI開発企業のガバナンス体制に大きな影響を与える。訓練データの取得、使用、管理に関する内部統制の強化、法的コンプライアンス体制の整備、そして透明性の向上が求められることになる。特に、データソースの記録保持、著作権クリアランスプロセスの文書化、および第三者の権利への配慮を組み込んだ開発プロトコルの確立が必要となる。

コンプライアンス:
企業は以下の対応策を検討する必要がある:
– 訓練データの出所と権利状態の包括的な調査・記録システムの構築
– オプトアウト機構の実装と著作権者との協議プロセスの確立
– フェアユース評価のための内部ガイドラインの策定
– 生成AIの出力に関する著作権リスク評価手順の導入

業界への影響:
AI開発の実務において、「クリーンルーム」アプローチの採用、公開ドメインデータの優先使用、ライセンシング契約の標準化などの変化が予想される。また、AI訓練用データのマーケットプレイスの発展や、著作権者とAI開発者の間の新たな収益分配モデルの創出も期待される。

リスク管理:
類似リスクを回避するため、企業は以下の考慮事項に注意を払う必要がある:
– 訓練データの法的監査の実施
– 保険カバレッジの見直しと拡充
– 契約における補償条項の強化
– 技術的措置による著作権侵害の防止システムの導入

比較法的観点 (Comparative Law Perspective)

日本法との比較:
日本の著作権法第30条の4(2018年改正)は、情報解析のための著作物利用について一定の例外を設けており、AI開発により寛容な枠組みを提供している。これに対し、米国ではフェアユースの一般原則に依存しており、個別事案ごとの判断が必要となる。日本法の「非享受目的利用」の概念は、米国のフェアユース分析における「変容的使用」とは異なるアプローチを取っており、より予測可能性の高い法的環境を提供している。

他国判例との関係:
EUでは、デジタル単一市場著作権指令(2019/790)によりテキスト・データマイニングの例外規定が導入されているが、商業目的での使用には制限がある。英国では、AI訓練のための著作権例外の導入が検討されたが、2023年に撤回された。これらの国際的動向は、グローバルなAI開発における規制の断片化を示しており、本件の判決がこの議論に与える影響は大きい。

グローバルな影響:
多国籍AI企業にとって、各国の著作権制度の違いは、開発戦略と法的リスク管理において重要な考慮要素となる。本件の結果は、国際的な規制調和の議論を促進し、AI訓練データに関する国際的な基準策定の必要性を高める可能性がある。また、データローカライゼーションや越境データ移転の問題とも関連し、グローバルなAIガバナンスの枠組み構築に影響を与えることが予想される。

重要なポイント (Key Takeaways)

実務家への示唆:
– AI開発プロジェクトの初期段階から法務部門を関与させ、訓練データの権利クリアランスを確保する体制の構築が不可欠
– フェアユースの主張に依存することのリスクを認識し、可能な限りライセンシングや公開ドメインデータの使用を優先すべき
– 技術文書と法的分析を統合した記録管理システムの確立により、将来の訴訟リスクに備える必要がある
– パートナーシップ契約において、AI訓練データに関する表明保証と補償条項を詳細に規定することが重要

今後の展望:
本件は2025年6月のクラス認証審理を経て、その後本案審理に進むことが予想される。判決の内容次第では、控訴審での審理も見込まれ、最終的な法的決着には数年を要する可能性がある。この間、立法による解決の動きも並行して進む可能性があり、AI著作権に関する特別法の制定も検討される可能性がある。業界では、自主規制やベストプラクティスの策定が加速し、著作権者とAI開発者の間の協調的な解決策の模索も進むと予想される。

注意すべき事項:
– 訓練データの出所と使用権限の完全な把握なしにAIモデルを開発することは、重大な法的リスクを伴う
– 生成AIのアウトプットが既存著作物と類似する可能性を技術的に評価し、必要に応じて制限を実装する必要がある
– 国際的な事業展開においては、各国の著作権法制の違いを考慮した多層的なコンプライアンス戦略が必要
– AI開発のオープンソース化やモデル共有においても、訓練データの権利問題は承継される可能性があることに留意すべき

このレポートに関する注意事項 (Warning/Notes)

このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。


Comments

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です