The New York Times Company v. Microsoft Corporation and OpenAI Inc.
Case Metadata
Basic Information
1. Case Name: The New York Times Company v. Microsoft Corporation and OpenAI Inc., No. 1:23-cv-11195 (S.D.N.Y. 2023)
2. Court: United States District Court for the Southern District of New York (Federal District Court, Manhattan Division)
3. Filing Date: December 27, 2023
4. Judgment Date: Not yet determined (case ongoing as of January 2025)
5. Case Number: 1:23-cv-11195-SHS
6. Current Status: Pending – Motion to dismiss partially granted, discovery ongoing, trial date not yet set
Parties
7. Plaintiff(s): The New York Times Company (publicly traded media corporation, publisher of The New York Times newspaper and digital content)
8. Defendant(s):
– Microsoft Corporation (multinational technology corporation, cloud computing and software services provider)
– OpenAI Inc. and affiliated entities (artificial intelligence research laboratory and deployment company)
9. Key Law Firms:
– For Plaintiff: Susman Godfrey LLP (lead counsel)
– For Defendants: Kobre & Kim LLP (OpenAI); Wilmer Cutler Pickering Hale and Dorr LLP (Microsoft)
10. Expert Witnesses: Technical experts on AI training methodologies, copyright valuation experts, journalism industry experts (names under protective order)
Legal Framework
11. Case Type: AI copyright infringement, algorithmic content reproduction, unauthorized use of training data
12. Primary Legal Claims:
– Direct copyright infringement under 17 U.S.C. § 106
– Vicarious copyright infringement
– Contributory copyright infringement
– Digital Millennium Copyright Act (DMCA) violations (17 U.S.C. § 1202)
13. Secondary Claims:
– Unfair competition
– Trademark dilution
– Misappropriation of hot news doctrine
– Unjust enrichment
14. Monetary Relief: Actual damages and statutory damages potentially in billions of dollars; injunctive relief sought
Technical Elements
15. AI/Technology Involved:
– GPT-3.5 and GPT-4 large language models
– ChatGPT conversational AI interface
– Microsoft Copilot integration
– Bing Chat implementation
– Web crawling and data scraping technologies
16. Industry Sectors: Media and journalism, artificial intelligence, cloud computing services, information technology
17. Data Types: Copyrighted news articles, investigative reports, opinion pieces, archived content, metadata, subscriber-only content
Database Navigation
18. Keywords/Tags: AI training data, copyright infringement, fair use defense, large language models, generative AI, news content, web scraping, transformative use, statutory damages, DMCA
19. Related Cases:
– Authors Guild v. OpenAI Inc., No. 1:23-cv-08292 (S.D.N.Y. 2023)
– Silverman v. OpenAI Inc., No. 3:23-cv-03416 (N.D. Cal. 2023)
– Getty Images v. Stability AI Inc., No. 1:23-cv-00135 (D. Del. 2023)
– Doe v. GitHub Inc., No. 4:22-cv-06823 (N.D. Cal. 2022)
詳細分析 (Detailed Analysis)
事件の概要 (Case Overview)
背景と争点 (Background and Issues)
事実関係: 本件は、米国の代表的な報道機関であるニューヨーク・タイムズ社が、OpenAI社およびMicrosoft社を相手取り、同社の報道コンテンツが無断でAIモデルの訓練に使用されたとして提起した著作権侵害訴訟である。原告は、被告らが数百万に及ぶ同社の記事を許可なくコピーし、GPTモデルの訓練データとして使用したと主張している。さらに、これらのAIシステムが原告の記事をほぼそのまま再現する能力を持ち、原告のビジネスモデルに直接的な脅威を与えているとしている。
中心的争点:
– AIモデルの訓練における著作物の使用が著作権侵害を構成するか
– フェアユースの抗弁が大規模言語モデルの訓練に適用されるか
– AIが生成する出力が原著作物の派生物に該当するか
– 技術的保護措置の回避に関するDMCA違反の成否
– 損害賠償の算定方法と適切な救済措置
原告の主張: ニューヨーク・タイムズ社は、被告らが組織的かつ大規模に同社のコンテンツを複製し、商業的利益を得るためのAI製品開発に使用したと主張。特に、ChatGPTやBing Chatが同社の記事を逐語的に再現する事例を証拠として提出し、これが市場における代替品として機能することで購読料収入や広告収入に深刻な影響を与えていると論じている。また、被告らが技術的保護措置を回避してペイウォール内のコンテンツにアクセスしたとして、DMCA違反も主張している。
被告の主張: OpenAI社とMicrosoft社は、AIモデルの訓練が変形的使用(transformative use)に該当し、フェアユースとして保護されると主張。大規模言語モデルは元の著作物とは異なる目的と性質を持つ新しい技術であり、社会的利益をもたらすイノベーションであると論じている。また、原告が提示した逐語的再現の例は、特殊なプロンプトエンジニアリングによる例外的な事象であり、通常の使用では発生しないと反論している。
AI/技術要素: 本件の中核となる技術は、トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)である。GPT-3.5およびGPT-4は、インターネット上の膨大なテキストデータを使用して訓練され、自然言語理解と生成の能力を獲得している。訓練プロセスでは、ウェブクローリングにより収集されたデータがトークン化され、ニューラルネットワークのパラメータ調整に使用される。原告は、このプロセスで同社の著作物が無断で複製・保存され、モデルの重みに「記憶」されていると主張している。
手続きの経過 (Procedural History)
重要な手続き上の決定:
– 2024年2月:被告の訴答期限延長申立てを認容
– 2024年4月:被告による一部却下申立て(Motion to Dismiss)提出
– 2024年8月:裁判所が却下申立てを一部認容、一部棄却
– 2024年10月:証拠開示手続き(ディスカバリー)開始
– 2024年11月:保護命令(Protective Order)発令、機密情報の取扱いを規定
証拠開示: 原告は、AIモデルの訓練データセット、訓練ログ、内部コミュニケーションの開示を要求。被告は営業秘密と技術的機密性を理由に制限的開示を主張。裁判所は、専門家による限定的アクセスを含む段階的開示アプローチを採用。特に注目されるのは、モデルの「記憶」を検証するための技術的検査手法に関する議論である。
専門家証言: 両当事者は、AI技術、著作権評価、メディア産業の専門家を指名。原告側の技術専門家は、LLMが訓練データを「暗記」し、特定の条件下で再現する能力について証言。被告側の専門家は、統計的学習と創造的生成の違いを強調し、モデルが単なるデータベースではないことを説明している。
判決の概要 (Judgment Summary)
裁判所の判断 (Court’s Decision)
主要な判決内容: 2024年8月の中間判決において、裁判所は被告の一部却下申立てに対して以下の判断を示した:
1. 直接的著作権侵害の主張については、原告が十分な事実を提示したとして却下申立てを棄却
2. DMCA違反の主張についても、技術的保護措置の回避に関する具体的な疑いがあるとして審理継続を決定
3. ホットニュース盗用の主張については、連邦著作権法による専占(preemption)を理由に却下を認容
4. 商標関連の主張の一部について、不十分な事実主張として却下を認容
勝敗の結果: 現時点では本案判決は出されていないが、中間判決では原告の主要な主張が維持され、訴訟は継続している。
命令された救済措置: 未定(本案判決待ち)
重要な法的判断: 裁判所は、AIモデルの訓練における著作物使用がフェアユースに該当するかという問題について、事実審理が必要であると判断。これは、AI時代における著作権法の適用に関する重要な先例となる可能性がある。
法的推論の分析 (Analysis of Legal Reasoning)
適用された法理:
裁判所は、フェアユース判断の4要素テスト(17 U.S.C. § 107)の適用において、以下の点を重視している:
1. 使用の目的と性質(商業的か非営利教育目的か)
2. 著作物の性質
3. 使用された部分の量と実質性
4. 潜在的市場への影響
特に、AIによる使用が「変形的」(transformative)であるかどうかが争点の中心となっている。Campbell v. Acuff-Rose Music判決やGoogle v. Oracle判決が重要な先例として引用されている。
事実認定: 裁判所は、原告が提出したChatGPTによる記事の逐語的再現の証拠を重視し、これが単なる「アイデア」ではなく「表現」の複製である可能性を認めた。また、被告のビジネスモデルが原告の市場と競合する可能性についても、さらなる事実審理が必要と判断している。
技術的理解: 裁判所は、大規模言語モデルの技術的複雑性を認識しつつ、著作権法の基本原則が新技術にも適用されることを強調。AIの「ブラックボックス」的性質が、侵害の立証において新たな課題を生じさせていることも認識している。
法的意義 (Legal Significance)
先例価値 (Precedential Value)
将来への影響: 本件は、AI時代における著作権法の適用に関する画期的な判例となる可能性が高い。特に以下の点で重要な先例となることが予想される:
1. AIモデルの訓練データ使用に関する法的枠組みの確立
2. フェアユース抗弁の新たな解釈基準
3. AI生成コンテンツの著作権上の地位
4. 技術的保護措置とAIクローリングの関係
法理論の発展: 本件は、デジタル時代の著作権法理論に新たな展開をもたらしている。特に、「変形的使用」の概念をAI文脈でどのように解釈するか、大規模な複製が「公正」と認められる条件は何か、という根本的な問題を提起している。
解釈の明確化: 裁判所の最終判決により、以下の点が明確化される可能性がある:
– ウェブスクレイピングの合法性の境界
– AIモデルの「学習」と著作権侵害の境界線
– 商業的AI開発におけるライセンスの必要性
規制・実務への影響 (Regulatory and Practical Impact)
AIガバナンス: 本件の結果は、AI開発企業のデータガバナンス実務に大きな影響を与える。特に:
– 訓練データの収集・管理プロセスの見直し
– ライセンス契約の必要性の再評価
– オプトアウト機構の実装
– データプロバンス(来歴)の記録管理
コンプライアンス: 企業は以下の対応を検討する必要がある:
1. 訓練データの著作権クリアランス手続きの確立
2. コンテンツ所有者との事前交渉・ライセンシング
3. 技術的保護措置の尊重とrobots.txtの遵守
4. AI出力の著作権侵害リスクの監視体制
業界への影響:
– AI開発コストの増大可能性
– オープンソースAIプロジェクトへの影響
– メディア企業とAI企業の新たな協力モデルの模索
– データマーケットプレースの発展
リスク管理:
– 予防的ライセンシング戦略の採用
– インデムニティ条項の見直し
– 保険カバレッジの再評価
– 内部監査・コンプライアンス体制の強化
比較法的観点 (Comparative Law Perspective)
日本法との比較:
日本の著作権法(著作権法第30条の4)は、2018年改正により「情報解析」目的での著作物利用について権利制限規定を設けている。これは、日本がAI開発に配慮した先進的な立法を行ったことを示すが、以下の相違点がある:
1. 日本法は非享受目的利用を広く許容
2. 米国のフェアユースは個別判断を要求
3. 日本法でも営利目的の場合の解釈は未確定
4. 生成AIの出力に関する規定は日本法も不明確
他国判例との関係:
– EU:DSM指令によるテキスト・データマイニング例外(オプトアウト可能)
– 英国:AI訓練のための著作権例外規定の導入議論(2023年に一時撤回)
– カナダ:フェアディーリング規定の適用可能性
グローバルな影響: 本件の判決は、国際的なAI開発競争と規制調和に影響を与える。特に:
– 多国籍AI企業のデータ収集戦略
– 国際的なライセンシング枠組みの必要性
– 規制アービトラージのリスク
– 技術標準と法的基準の調和
重要なポイント (Key Takeaways)
実務家への示唆:
1. AI開発企業向け: 訓練データの出所を明確に記録し、可能な限りライセンスを取得する予防的アプローチを採用すべき
2. コンテンツ所有者向け: 技術的保護措置の実装とオプトアウト機構の明示により、権利を積極的に保護する必要がある
3. 法務担当者向け: AI関連契約において、データ使用権、知的財産権の帰属、インデムニティ条項を詳細に規定することが重要
今後の展望:
– 2025年中の事実審理により、技術的詳細が明らかになる予定
– 和解の可能性も残されているが、両当事者の立場の隔たりは大きい
– 連邦議会でのAI規制立法の動きも判決に影響を与える可能性
– 最高裁判所まで争われる可能性が高く、最終的な解決には数年を要する見込み
注意すべき事項:
1. 本件は現在進行中の訴訟であり、新たな展開により状況が変化する可能性がある
2. 類似の訴訟が複数並行しており、それらの判決も総合的に考慮する必要がある
3. 技術の急速な発展により、法的判断の前提が変化する可能性がある
4. 国際的な規制動向との整合性も考慮すべき重要な要素である
このレポートに関する注意事項 (Warning/Notes)
– このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。
コメントを残す