The Intercept Media, Inc. v. OpenAI, Inc.

The Intercept Media, Inc. v. OpenAI, Inc.

Case Metadata

Basic Information

1. Case Name: The Intercept Media, Inc. v. OpenAI, Inc. et al
2. Court: United States District Court for the Southern District of New York (S.D.N.Y.)
3. Filing Date: February 28, 2024
4. Judgment Date: November 22, 2024 (partial ruling on motions to dismiss)
5. Case Number: 1:24-cv-01515
6. Current Status: Active litigation – proceeding to discovery on DMCA §1202(b)(1) claim

Parties

7. Plaintiff(s): The Intercept Media, Inc. (independent nonprofit news organization focused on investigative journalism)
8. Defendant(s):
– OpenAI, Inc. (AI research and deployment company)
– OpenAI, LLC (subsidiary)
– Microsoft Corporation (technology conglomerate, strategic partner and investor)
– OAI Corporation, LLC (OpenAI entity)
– OpenAI GP, LLC (OpenAI entity)
– OpenAI Global LLC (OpenAI entity)
– OpenAI Holdings, LLC (OpenAI entity)
– OpenAI OpCo LLC (OpenAI entity)

9. Key Law Firms:
For Plaintiff: Loevy + Loevy (Lead: Matt Topic)
For OpenAI: Latham & Watkins LLP, Morrison & Foerster LLP, Keker, Van Nest & Peters LLP
For Microsoft: Orrick, Herrington & Sutcliffe LLP (Lead: Annette Hurst)

10. Expert Witnesses: Data scientists from The Intercept (technical analysis of training datasets) – names not publicly disclosed in available documents

Legal Framework

11. Case Type: Digital rights management and copyright management information violation in AI training context
12. Primary Legal Claims: DMCA Section 1202(b)(1) – Intentional removal of Copyright Management Information (CMI) with knowledge it would facilitate infringement
13. Secondary Claims: DMCA Section 1202(b)(3) – Distribution of works without CMI (dismissed)
14. Monetary Relief: Statutory damages of $2,500 to $25,000 per violation; total damages potentially in millions given thousands of articles involved

Technical Elements

15. AI/Technology Involved: ChatGPT (large language model), GPT-3.5, GPT-4; training algorithms “Dragnet” and “Newspaper” for web scraping and data processing
16. Industry Sectors: Media and journalism, artificial intelligence, technology services
17. Data Types: News articles, journalistic content, copyright management information (author names, publication titles, copyright notices)

Database Navigation

18. Keywords/Tags: DMCA Section 1202, CMI removal, AI training data, web scraping, ChatGPT, generative AI, copyright management information, downstream infringement, journalism rights
19. Related Cases:
– Raw Story Media, Inc. v. OpenAI, Inc. (1:24-cv-01514, S.D.N.Y.)
– AlterNet Media, Inc. v. OpenAI, Inc. (companion case, S.D.N.Y.)
– Andersen v. Stability AI, Inc. (3:23-cv-00201, N.D. Cal.)
– The New York Times Company v. Microsoft Corporation et al (1:23-cv-11195, S.D.N.Y.)

詳細分析 (Detailed Analysis)

事件の概要 (Case Overview)

背景と争点 (Background and Issues)

事実関係:
本件は、独立系非営利報道機関であるThe Intercept Media社が、OpenAI社およびその関連会社、さらにMicrosoft社を相手取り、2024年2月28日にニューヨーク州南部地区連邦地方裁判所に提訴した事案である。The Intercept社は、OpenAI社がChatGPTの訓練過程において、同社の記事数千件から著作権管理情報(CMI)を意図的に除去したと主張している。

具体的には、OpenAI社が「Dragnet」および「Newspaper」と呼ばれるアルゴリズムを使用して、ニュース記事から著作権情報を削除する処理を行ったとされる。The Intercept社のデータサイエンティストによる技術分析によれば、一つの訓練データセットにはThe Interceptのドメインから6,000以上のURL、別のデータセットには2,000以上のURLが含まれていた。

中心的争点:
1. OpenAI社によるCMIの意図的な除去が、デジタルミレニアム著作権法(DMCA)第1202条(b)(1)に違反するか
2. CMI除去が「下流での著作権侵害」を誘発、可能にし、促進することをOpenAI社が認識していたか
3. ChatGPTがCMIなしにThe Intercept社のコンテンツを配布することがDMCA第1202条(b)(3)に違反するか
4. Microsoft社がこれらの違反行為に対して責任を負うか

原告の主張:
– OpenAI社は高度な技術を持つデータサイエンティストを雇用しており、DragnetとNewspaperアルゴリズムがCMIを除去することを認識していた
– ChatGPTは「さらなる聴衆のためのコンテンツ生成」ツールとして市場に提供されており、CMI除去により下流での侵害が促進される
– ChatGPTの出力がThe Intercept社の記事とほぼ同一でありながら、CMIが含まれていない
– Copyleaksのデータによれば、ChatGPTの応答の約60%に盗作されたコンテンツが含まれている

被告の主張:
– CMI除去は訓練データの処理における技術的必要性に基づくものである
– DMCA第1202条は属性表示の権利を保護するものではない
– The Intercept社は具体的な損害を立証していない
– ChatGPTの出力は変換的使用であり、著作権侵害には該当しない

AI/技術要素:
本件の核心は、大規模言語モデル(LLM)の訓練プロセスにおけるデータ処理方法にある。OpenAI社は、ウェブから収集した大量のテキストデータを使用してChatGPTを訓練したが、その過程で以下の技術的処理が行われた:

1. ウェブスクレイピング:DragnetとNewspaperアルゴリズムを使用したコンテンツの自動収集
2. データクリーニング:HTMLタグ、メタデータ、著作権表示の除去
3. トークン化:テキストを機械学習モデルが処理可能な形式に変換
4. モデル訓練:クリーニングされたデータを使用したGPTモデルの学習

手続きの経過 (Procedural History)

重要な手続き上の決定:
2024年6月21日、The Intercept社は修正訴状を提出し、追加的な証拠と詳細な技術分析を含めた。これに対し、被告らは夏期に却下申立てを提出した。

2024年11月1日、Jed S. Rakoff判事の前で口頭弁論が行われた。この審理では、CMI除去の意図性と「二重の故意」(double scienter)要件の充足が主要な争点となった。

証拠開示:
現時点では本格的な証拠開示手続きはまだ開始されていないが、The Intercept社は訓練データセットの特定とURLの分析に基づく初期的な証拠を提出している。今後の証拠開示では、OpenAI社内部のコミュニケーション、技術文書、アルゴリズムの詳細な仕様が焦点となることが予想される。

専門家証言:
The Intercept社のデータサイエンティストが、訓練データセットの技術的分析を提供した。彼らは、特定のURLがどのようにして訓練データに含まれ、CMIがどのように除去されたかを詳細に説明した。

判決の概要 (Judgment Summary)

裁判所の判断 (Court’s Decision)

主要な判決内容:
2024年11月21日、Rakoff判事は以下の判断を下した:

1. OpenAI社に対するDMCA第1202条(b)(1)請求(CMI除去): 却下申立て棄却 – 訴訟継続
2. OpenAI社に対するDMCA第1202条(b)(3)請求(配布): 却下申立て認容 – 請求却下
3. Microsoft社に対する全請求: 却下申立て認容(訴えの利益なし) – Microsoft社は訴訟から除外

勝敗の結果:
部分的勝訴となり、The Intercept社の中核的な請求であるCMI除去に関する訴えは継続することとなった。一方、配布に関する請求とMicrosoft社に対する請求は却下された。

命令された救済措置:
現段階では本案判決ではないため、具体的な救済措置は命じられていない。訴訟が継続する中で、The Intercept社は法定損害賠償(違反1件につき2,500ドルから25,000ドル)を求めている。

重要な法的判断:
Rakoff判事は、The Intercept社が原告適格を有すると認定し、「伝統的に著作権において訴訟可能とされてきた財産権に基づく損害と同種の損害」が関わっていると判示した。また、DMCA請求が「比較的新しい」権利であっても有効であると確認した。

法的推論の分析 (Analysis of Legal Reasoning)

適用された法理:
裁判所は、第2巡回区控訴裁判所の「二重の故意」要件を適用した。これは、(1)CMIの意図的な除去、および(2)その除去が侵害を誘発、可能にし、促進、または隠蔽することの認識、の両方を要求するものである。

事実認定:
裁判所は、The Intercept社が以下の事実を合理的に主張したと認定した:
– 特定の訓練データセットにThe Intercept社のURLが含まれていたこと
– DragnetとNewspaperアルゴリズムがCMIを除去する機能を持つこと
– OpenAI社がこれらのツールの機能を認識していたと推認されること

技術的理解:
Rakoff判事は、AI訓練プロセスの技術的側面について相当程度の理解を示し、ウェブスクレイピングとデータ処理の実態を考慮した上で判断を下した。特に、CMI除去が単なる技術的副産物ではなく、意図的な選択である可能性を認めた点が重要である。

法的意義 (Legal Significance)

先例価値 (Precedential Value)

将来への影響:
本判決は、AI企業に対してDMCA第1202条を武器として使用する初めての重要な事例として、今後のAI関連訴訟に大きな影響を与える可能性がある。特に、著作権登録を必要としないDMCA請求の有効性を認めたことは、多くの報道機関やコンテンツ制作者にとって新たな法的救済手段を提供する。

法理論の発展:
本件は、AI時代における著作権管理情報の保護という新たな法的課題に対して、既存の法的枠組み(DMCA)がどのように適用されるかを示す重要な先例となる。「下流での侵害」理論の確立は、AI開発における新たな注意義務の基準を設定する可能性がある。

解釈の明確化:
裁判所は、DMCA第1202条が単なる属性表示の権利を超えて、デジタル時代における著作権保護の重要なメカニズムであることを確認した。これは、技術的処理における「意図性」の解釈に新たな視点を提供する。

規制・実務への影響 (Regulatory and Practical Impact)

AIガバナンス:
本判決は、AI開発企業に対して以下のガバナンス要件を示唆している:
1. 訓練データ収集時のCMI保存プロトコルの確立
2. データ処理パイプラインにおける著作権情報の追跡システムの実装
3. 「クリーンルーム」環境での訓練データ処理の文書化
4. CMI除去に関する意思決定プロセスの透明化

コンプライアンス:
AI開発企業は以下の対応を検討する必要がある:
– 訓練データのメタデータ保存ポリシーの策定
– ウェブスクレイピングツールの改修(CMI保存機能の追加)
– 法務部門とエンジニアリング部門の連携強化
– リスク評価プロセスへのDMCAコンプライアンスの組み込み

業界への影響:
本件は、AI業界全体に以下の実務的影響を与える可能性がある:
1. 訓練データの収集・処理コストの増加
2. オープンソースのスクレイピングツールの再設計
3. データプロバイダーとのライセンス交渉の増加
4. 技術標準の策定(CMI保存に関する業界ガイドライン)

リスク管理:
類似リスクを回避するため、AI開発企業は以下を考慮すべきである:
– 訓練データの出所と権利状態の包括的な監査
– CMI除去の技術的必要性と法的リスクのバランス評価
– 代替的なデータ収集方法(ライセンス取得等)の検討
– 保険カバレッジの見直しと拡充

比較法的観点 (Comparative Law Perspective)

日本法との比較:
日本の著作権法には、米国のDMCA第1202条に直接対応する規定は存在しないが、以下の点で比較が可能である:

1. 著作権法第113条(侵害とみなす行為): 権利管理情報の改変・除去に関する規定があるが、米国のCMIより狭い範囲
2. 不正競争防止法: 技術的制限手段の回避に関する規定はあるが、CMI除去は対象外
3. AI開発における著作物利用: 日本では著作権法第30条の4により、情報解析目的での利用に一定の例外が認められている

日本のAI開発者にとって、本件は国際的なコンプライアンス基準の参考となる。特に、グローバル展開を考える企業は、米国市場向けのサービスにおいてDMCA準拠を検討する必要がある。

他国判例との関係:
EU: DSM指令(デジタル単一市場における著作権指令)第17条との関連
英国: 現在検討中のAI規制法案への影響
カナダ: フェアディーリング例外の適用範囲との比較

グローバルな影響:
多国籍AI企業は、各国の異なる法的要件に対応する必要があり、最も厳格な基準(現時点では米国DMCA)に合わせたグローバルコンプライアンス体制の構築が求められる可能性がある。

重要なポイント (Key Takeaways)

実務家への示唆:

1. 報道機関・コンテンツ制作者向け:
– 著作権登録なしでDMCA請求が可能であることを活用
– ウェブサイトにおけるCMI表示の強化と標準化
– AI企業との交渉における新たな法的カード

2. AI開発企業向け:
– 訓練データ処理パイプラインの見直しと改修
– CMI保存に関する技術的・法的評価の実施
– データライセンシング戦略の再検討

3. 法務担当者向け:
– DMCA第1202条リスクの評価フレームワークの構築
– 技術チームとの連携によるコンプライアンス体制の確立
– 予防的措置と文書化の重要性

今後の展望:
– 証拠開示段階でのOpenAI内部文書の公開により、業界慣行が明らかになる可能性
– 第2巡回区控訴裁判所への控訴により、より明確な法的基準が確立される可能性
– 議会による新たな立法や規制の検討が加速する可能性

注意すべき事項:
– DMCA第1202条請求は、従来の著作権侵害請求とは異なる要件と立証責任を有する
– 「二重の故意」要件の立証は高いハードルとなる
– 技術的必要性の抗弁と法的義務のバランスが今後の争点となる

このレポートに関する注意事項 (Warning/Notes)

このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。


Comments

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です