Sancton v. OpenAI Inc.
Case Metadata
Basic Information
1. Case Name: Sancton et al. v. OpenAI Inc. et al., No. 1:23-cv-10211 (S.D.N.Y. 2023)
2. Court: United States District Court for the Southern District of New York
3. Filing Date: November 21, 2023
4. Judgment Date: Not yet decided (case ongoing)
5. Case Number: 1:23-cv-10211-LJL
6. Current Status: Pending – Consolidated with MDL No. 3180 (In re OpenAI ChatGPT Litigation)
Parties
7. Plaintiff(s):
   – Julian Sancton (Lead plaintiff, nonfiction author and journalist)
   – Stacy Schiff (Pulitzer Prize-winning biographer)
   – Class of nonfiction authors whose copyrighted works were allegedly used without permission
8. Defendant(s):
   – OpenAI Inc. (AI research and deployment company, creator of ChatGPT)
   – OpenAI GP LLC (General partner entity)
   – OpenAI LLC (Operating entity)
   – OpenAI Global LLC (Subsidiary entity)
   – Microsoft Corporation (Technology company, major investor and partner of OpenAI)
9. Key Law Firms:
   – For Plaintiffs: Cowan, DeBaets, Abrahams & Sheppard LLP
   – For Defendants: To be determined (typical representation by major technology law firms)
10. Expert Witnesses: Not yet disclosed (discovery phase ongoing)
Legal Framework
11. Case Type: Copyright infringement class action – unauthorized use of copyrighted literary works for AI training
12. Primary Legal Claims:
    – Direct copyright infringement under 17 U.S.C. § 501
    – Contributory copyright infringement
    – Violations of Digital Millennium Copyright Act (DMCA) § 1202
13. Secondary Claims:
    – Vicarious copyright infringement
    – Removal of copyright management information
    – Unjust enrichment (under state law)
14. Monetary Relief:
    – Actual damages and profits under 17 U.S.C. § 504(b)
    – Statutory damages up to $150,000 per infringed work
    – Injunctive relief to prevent further use of copyrighted materials
    – Class-wide relief for all affected authors
Technical Elements
15. AI/Technology Involved:
    – ChatGPT (GPT-3.5 and GPT-4 models)
    – Large Language Model training infrastructure
    – Text corpus processing and tokenization systems
    – Microsoft Azure cloud computing platform
16. Industry Sectors:
    – Publishing and literary works
    – Artificial intelligence development
    – Cloud computing services
    – Digital content creation
17. Data Types:
    – Copyrighted nonfiction books and literary works
    – Training datasets including Books1 and Books2 corpora
    – Author attribution and copyright management information
    – Textual content from published works
Database Navigation
18. Keywords/Tags: AI training data, copyright infringement, ChatGPT, OpenAI, Microsoft, class action, fair use, nonfiction authors, DMCA, literary works, generative AI
19. Related Cases:
    – Authors Guild v. OpenAI Inc., No. 1:23-cv-08292 (S.D.N.Y. 2023)
    – Tremblay v. OpenAI Inc., No. 3:23-cv-03223 (N.D. Cal. 2023)
    – Silverman v. OpenAI Inc., No. 3:23-cv-03416 (N.D. Cal. 2023)
    – Kadrey v. Meta Platforms Inc., No. 3:23-cv-03417 (N.D. Cal. 2023)
    – In re OpenAI ChatGPT Litigation, MDL No. 3180 (N.D. Cal. 2024)
詳細分析 (Detailed Analysis)
事件の概要 (Case Overview)
背景と争点 (Background and Issues)
事実関係: 本訴訟は、2023年11月21日にノンフィクション作家のジュリアン・サンクトン氏とステイシー・シフ氏が原告となり、OpenAI社とMicrosoft社を相手取って提起された集団訴訟である。原告らは、被告らが著作権で保護されたノンフィクション作品を無断で使用し、ChatGPTの大規模言語モデルの訓練に利用したと主張している。この訴訟は、AI開発における著作物の利用をめぐる一連の訴訟の中でも、Microsoft社を共同被告として名指しした最初のケースとして注目を集めている。
原告らによれば、OpenAI社は「Books1」および「Books2」と呼ばれるデータセットを作成し、これらには違法にコピーされた数十万冊の書籍が含まれていたとされる。これらのデータセットは、インターネット上の海賊版書籍サイトから取得された可能性が高いと主張されている。
中心的争点:
– AIモデルの訓練における著作権保護作品の使用が「フェアユース」に該当するか否か
– 大規模言語モデルの訓練データとしての書籍の複製が著作権侵害を構成するか
– Microsoft社がOpenAI社の著作権侵害行為に対して寄与侵害責任を負うか
– AIによる著作物の「学習」が変形的利用(transformative use)として認められるか
– 著作権管理情報の除去がDMCA違反を構成するか
原告の主張:
原告らは、被告らが商業的利益を得る目的で、許諾なく原告らの著作物を複製し、派生物を作成したと主張している。具体的には:
– OpenAI社が原告らの書籍全文を無断でコピーし、モデル訓練に使用した
– ChatGPTが原告らの著作物の内容や文体を模倣して出力を生成している
– 被告らが著作権管理情報を意図的に除去または改変した
– Microsoft社がOpenAI社のインフラを提供し、侵害行為を実質的に支援した
被告の主張:
被告らは以下の抗弁を行うことが予想される(類似訴訟での主張に基づく):
– AI訓練は研究目的の変形的フェアユースに該当する
– モデルは原著作物を保存せず、統計的パターンのみを学習している
– 公益に資する技術革新を促進する利用である
– 原告らの市場を害していない、むしろ新たな創造的表現を可能にしている
AI/技術要素:
ChatGPTは、Transformer アーキテクチャに基づく大規模言語モデルであり、数千億のパラメータを持つ。訓練プロセスでは、テキストデータをトークン化し、次の単語を予測するタスクを通じて言語パターンを学習する。Microsoft Azure のクラウドインフラストラクチャが計算リソースを提供し、数千のGPUを使用した並列処理により訓練が行われた。
手続きの経過 (Procedural History)
重要な手続き上の決定:
– 2024年初頭、本件は北カリフォルニア地区連邦地方裁判所の広域係属訴訟(MDL)第3180号「In re OpenAI ChatGPT Litigation」に統合された
– 類似訴訟において、カリフォルニア北部地区のAraceli Martinez-Olguin判事は、直接的著作権侵害の請求は維持しつつ、DMCA違反や代位責任などの付随的請求を棄却する傾向を示している
– 訴答段階での却下申立てにおいて、フェアユース抗弁は事実審理を要する問題として早期判断を避ける傾向がある
証拠開示:
現在、証拠開示手続きが進行中であり、以下の重要な情報の開示が求められている:
– OpenAIの訓練データセットの完全なリスト
– Books1およびBooks2データセットの入手元
– Microsoft社とOpenAI社間の技術協力契約の詳細
– モデル訓練時のデータ処理手法とフィルタリング基準
専門家証言:
専門家証言の詳細はまだ公開されていないが、以下の分野の専門家証言が予想される:
– 自然言語処理と機械学習の技術専門家
– 著作権法と知的財産の法律専門家
– 出版業界の市場影響に関する経済専門家
– コンピュータフォレンジックの専門家
判決の概要 (Judgment Summary)
裁判所の判断 (Court’s Decision)
本件はまだ係属中であり、最終判決は下されていない。しかし、関連する類似訴訟での中間判決や手続き上の決定から、以下の傾向が観察される:
類似案件での判断傾向:
– 直接的著作権侵害の請求については、フェアユース抗弁の成否が中心的争点として維持される
– DMCA第1202条違反の請求は、著作権管理情報の「除去」の立証が困難として棄却される傾向
– 代位責任については、直接的な金銭的利益と監督権限の立証が要求される
– 州法に基づく不正競争や不当利得の請求は、連邦著作権法による専占(preemption)により棄却される可能性が高い
予想される争点:
– フェアユースの四要素テスト(利用の目的と性質、著作物の性質、利用された部分の量と実質性、市場への影響)の適用
– AI訓練が「変形的利用」に該当するかの判断
– Microsoft社の寄与侵害責任の範囲
法的意義 (Legal Significance)
先例価値 (Precedential Value)
将来への影響:
本訴訟の結果は、AI開発における著作物利用の法的枠組みを決定づける可能性がある。特に:
– 生成AIの訓練データとしての著作物利用に関する明確な基準の確立
– テクノロジー企業の著作権コンプライアンス義務の明確化
– AIプロバイダーとインフラ提供者の責任分担の明確化
– クリエイターの権利とAI技術革新のバランスに関する指針
法理論の発展:
– デジタル時代における「フェアユース」概念の拡張または制限
– 機械学習における「複製」の法的定義の明確化
– AIによる「創作」と「学習」の法的区別の確立
– 技術的中立性原則のAI分野への適用
解釈の明確化:
– 著作権法第107条(フェアユース)のAI訓練への適用基準
– DMCA第1202条の「著作権管理情報」のAIコンテキストでの解釈
– 寄与侵害理論のクラウドサービスプロバイダーへの適用
規制・実務への影響 (Regulatory and Practical Impact)
AIガバナンス:
企業は以下のガバナンス体制の構築が必要となる:
– 訓練データの出所と権利関係の記録管理システム
– 著作権リスク評価プロセスの導入
– データ取得時のデューデリジェンス手続き
– 権利者への補償メカニズムの検討
コンプライアンス:
AI開発企業が取るべき対応策:
– ライセンス取得または公正使用データセットの利用
– オプトアウト機構の実装
– 透明性レポートの作成と公開
– 権利者との協力関係の構築
– 技術的保護措置の実装(著作物の検出と除外)
業界への影響:
– AI開発コストの増加(ライセンス料支払いによる)
– オープンソースAIモデル開発への影響
– 新たなビジネスモデルの出現(データライセンシング市場)
– 国際競争力への影響(規制の厳格さによる開発拠点の移動)
リスク管理:
– 訴訟リスク保険の必要性
– データプロバイダーとの契約における補償条項
– 定期的な法的監査の実施
– インシデント対応計画の策定
比較法的観点 (Comparative Law Perspective)
日本法との比較:
日本の著作権法における比較検討点:
– 日本著作権法第30条の4(著作物に表現された思想又は感情の享受を目的としない利用)の適用可能性
– 情報解析目的での著作物利用に関する制限規定(第47条の7)
– AIと著作権に関する文化庁の検討会での議論状況
– 日本では「柔軟な権利制限規定」により、一定のAI学習利用が認められる可能性
他国判例との関係:
– EU:AI Act におけるデータガバナンス要件との整合性
– 英国:著作権法改正議論におけるAI例外規定の検討
– カナダ:フェアディーリング規定のAI訓練への適用
– 中国:AI開発促進と著作権保護のバランス政策
グローバルな影響:
– 国際的なAI開発拠点の立地選択への影響
– データローカライゼーション要件との相互作用
– 国際的な著作権協調の必要性の高まり
– テクノロジー企業のグローバル戦略への影響
重要なポイント (Key Takeaways)
実務家への示唆:
1. AI開発企業の法務部門:
   – 訓練データの権利処理プロセスの見直しが急務
   – 技術文書と法的文書の整合性確保が重要
   – 予防的コンプライアンス体制の構築が必要
2. コンテンツ権利者の代理人:
   – 集団訴訟参加の検討時期
   – ライセンス交渉戦略の再考
   – 技術的保護措置の実装検討
3. 投資家・金融機関:
   – AI企業の法的リスク評価基準の更新
   – デューデリジェンスプロセスへの著作権監査の組み込み
今後の展望:
– 2024年後半から2025年にかけて、MDLでの統一的な判断が期待される
– 議会による立法的解決の可能性(AI著作権免除法案など)
– 業界自主規制やベストプラクティスの確立
– 国際的な規制調和の動き
注意すべき事項:
– 訴訟の結果によらず、AI訓練データの透明性要求は高まる傾向
– 技術的回避策(合成データ、公開ドメインデータの利用)の検討が重要
– 権利者団体との対話と協力関係構築が長期的な解決策
– 規制動向の継続的モニタリングが不可欠
このレポートに関する注意事項 (Warning/Notes)
– このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。

コメントを残す