The Center for Investigative Reporting, Inc. v. OpenAI, Inc.

The Center for Investigative Reporting, Inc. v. OpenAI, Inc.

Case Metadata

Basic Information

1. Case Name: The Center for Investigative Reporting, Inc. v. OpenAI, Inc., et al., No. 1:24-cv-04872 (S.D.N.Y. 2024)
2. Court: United States District Court for the Southern District of New York (Federal District Court, New York Southern District)
3. Filing Date: June 27, 2024
4. Judgment Date: Not yet decided (pending litigation)
5. Case Number: 1:24-cv-04872, consolidated under MDL No. 3143
6. Current Status: Active litigation, consolidated in multidistrict litigation proceeding, currently in discovery phase

Parties

7. Plaintiff(s): The Center for Investigative Reporting, Inc. (nonprofit media organization operating Mother Jones magazine and Reveal news platform, founded in 1977 as an investigative journalism nonprofit)
8. Defendant(s):
– OpenAI, Inc. and related entities (AI research company developing large language models)
– Microsoft Corporation (technology company and major OpenAI investor/partner)
9. Key Law Firms:
– For Plaintiff: Loevy & Loevy (Matt Topic as lead counsel)
– For Defendants: Multiple firms including attorneys Joseph C. Gratz, Robert Van Nest Jr., Christopher S. Sun
10. Expert Witnesses: Not yet disclosed in public filings

Legal Framework

11. Case Type: Copyright infringement in AI training data; removal of copyright management information; unfair competition
12. Primary Legal Claims:
– Direct copyright infringement under 17 U.S.C. § 501
– Contributory copyright infringement
– DMCA violations under 17 U.S.C. § 1202(b)(1)
13. Secondary Claims: Common law unfair competition by misappropriation (dismissed)
14. Monetary Relief:
– Statutory damages of minimum $750 per infringed work (potentially up to $150,000 per work for willful infringement)
– $2,500 per DMCA violation
– Actual damages and defendants’ profits (alternative to statutory damages)

Technical Elements

15. AI/Technology Involved: GPT-2, GPT-3, early ChatGPT versions, WebText and Common Crawl training datasets
16. Industry Sectors: Media/journalism, artificial intelligence, technology services
17. Data Types: News articles, investigative journalism content, editorial content, copyright management information

Database Navigation

18. Keywords/Tags: AI copyright infringement, generative AI litigation, training data lawsuits, DMCA CMI removal, OpenAI litigation, media copyright, fair use defense, transformative use
19. Related Cases:
– The New York Times Co. v. OpenAI, Inc., No. 1:23-cv-11195 (S.D.N.Y. 2023)
– Authors Guild v. OpenAI, Inc., No. 1:23-cv-8292 (S.D.N.Y. 2023)
– Daily News LP v. Microsoft Corp., No. 1:24-cv-03285 (S.D.N.Y. 2024)

詳細分析 (Detailed Analysis)

事件の概要 (Case Overview)

背景と争点 (Background and Issues)

事実関係:
The Center for Investigative Reporting(CIR)は、1977年に設立された非営利報道機関で、「Mother Jones」誌と「Reveal」ニュースプラットフォームを運営している。2024年6月27日、CIRはOpenAIおよびMicrosoftを相手取り、自社のジャーナリスティックコンテンツが無断でAIモデルの訓練に使用されたとして訴訟を提起した。

CIRの調査により、OpenAIの訓練データセット内に17,000件以上のMother Jonesのウェブページアドレスが含まれていることが判明した。具体的には、Mother Jonesから17,434件のURL、Revealから415件のURLがOpenWebTextデータベースに含まれ、さらにGPT-2の訓練に使用されたCommon Crawlデータには、motherjones.comから26,178件のURLが含まれていた。

中心的争点:
1. AIモデルの訓練における著作権で保護されたコンテンツの使用が「フェアユース」として認められるか
2. 著作権管理情報(CMI)の組織的な除去がDMCA違反を構成するか
3. 生成AIが元の著作物と競合する出力を生成することが著作権侵害となるか
4. 訴訟の時効が適用されるか(OpenAIは3年の時効を主張)

原告の主張:
CIRは、OpenAIが以下の行為を行ったと主張している:
– 許可なく大量のジャーナリスティックコンテンツをコピー、保存、使用した
– DragnetやNewspaperなどのツールを使用して著作権管理情報を意図的に除去した
– CIRのコンテンツを使用して競合するAI製品を開発し、CIRの収益源を損なった
– ライセンス料を支払うことなく、価値あるコンテンツから利益を得た

原告は、差止命令による訓練データからのコンテンツ削除、および法定損害賠償を求めている。

被告の主張:
OpenAIおよびMicrosoftは以下の防御を展開している:
– 公開されているインターネット上のコンテンツの使用は「フェアユース」で保護される
– AIモデルの訓練は「変容的使用」(transformative use)に該当する
– 訴訟は時効により制限される(3年の制限期間)
– 技術的進歩と言論の自由の観点から、AIの訓練は社会的に有益である

AI/技術要素:
問題となっているAIシステムには以下が含まれる:
– GPT-2、GPT-3モデル(2019-2021年に開発)
– 初期バージョンのChatGPT(GPT-4以前)
– WebText、WebText2、Common Crawlから派生した訓練データセット
– Books2およびBooks3データセット(海賊版サイトから取得されたとされる)

手続きの経過 (Procedural History)

重要な手続き上の決定:

2025年4月、本件を含む複数の著作権侵害訴訟が、ニューヨーク南部地区連邦地方裁判所のSidney Stein判事の下、MDL(Multidistrict Litigation)No. 3143として統合された。この統合により、OpenAIに対する12件以上の著作権訴訟が一元的に処理されることになった。

2025年5月22日、初回のケースマネジメント会議が開催され、証拠開示手続きのスケジュールが設定された。特に注目すべきは、裁判所がOpenAIに対し、4億人以上のユーザーのChatGPT会話ログを保全するよう命じたことである。

証拠開示:
現在進行中の証拠開示において、以下の重要な争点が生じている:
– OpenAIの訓練データの完全な開示範囲
– ユーザーのプライバシー保護と証拠保全の均衡
– 技術的文書および内部コミュニケーションの提出範囲

2025年6月、Stein判事はOpenAIの異議申立てにもかかわらず、証拠保全命令を維持した。これにより、訴訟に関連する可能性のある大量のデータが保全されることになった。

専門家証言:
現時点では、技術専門家の証言内容は公開されていないが、今後の審理において、AI技術、著作権法、市場への影響に関する専門家証言が重要な役割を果たすことが予想される。

判決の概要 (Judgment Summary)

裁判所の判断 (Court’s Decision)

2025年4月のStein判事による中間判決:

Stein判事は、統合されたMDL訴訟において、各請求の存続可能性について重要な判断を下した。

主要な判決内容:

1. 著作権侵害請求の存続:
– 直接的著作権侵害の請求を存続させた
– OpenAIの時効抗弁を却下(「発見ルール」の適用により)
– 寄与的著作権侵害の請求も存続を認めた

2. DMCA請求の部分的却下:
– MicrosoftのDMCA 1202(b)(1)請求をすべて却下
– OpenAIに対するDMCA請求は部分的に存続(CIRとDaily Newsの請求は存続、NYTの請求は却下)

3. その他の請求の却下:
– 不正競争による不法流用の請求を永久却下
– CIRの「要約」(abridgment)請求を永久却下

勝敗の結果:
現時点では最終判決に至っていないが、中間判決により原告の主要な著作権侵害請求が存続したことは、原告にとって重要な勝利といえる。

命令された救済措置:
最終的な救済措置はまだ決定されていないが、原告は以下を求めている:
– 訓練データからの著作権コンテンツの削除
– 将来的な無断使用の禁止
– 法定損害賠償(侵害作品あたり最低750ドル、故意の侵害の場合は最大15万ドル)

法的推論の分析 (Analysis of Legal Reasoning)

適用された法理:

裁判所は、AI時代における著作権法の適用について、以下の法理を検討している:

1. フェアユース分析(17 U.S.C. § 107):
– 使用の目的と性質(商業的 vs 変容的)
– 著作物の性質(事実的 vs 創造的)
– 使用された部分の量と実質性
– 潜在的市場への影響

2. 変容的使用の理論:
裁判所は、AIモデルの訓練が単なる複製を超えて新しい目的や性質を持つ「変容的使用」に該当するかを慎重に検討している。

事実認定:
裁判所は、以下の重要な事実認定を行った:
– OpenAIが原告のコンテンツを大規模に複製したことは争いのない事実
– 著作権管理情報の除去が組織的に行われた可能性がある
– 原告が著作権侵害を「発見」できた時期は限定的である

技術的理解:
Stein判事は、AI技術の複雑性を認識しつつ、著作権法の基本原則を維持する姿勢を示している。特に、技術的進歩が著作権侵害を正当化するものではないという立場を明確にしている。

法的意義 (Legal Significance)

先例価値 (Precedential Value)

将来への影響:

本件は、生成AI時代における著作権法の適用に関する重要な先例となる可能性が高い。特に以下の点で影響を与えるだろう:

1. AIモデル訓練におけるフェアユース基準の確立:
本件の最終判決は、どのような条件下でAIモデルの訓練が「フェアユース」として認められるかの基準を示すことになる。

2. 著作権管理情報の保護強化:
DMCA違反の認定により、AI企業はメタデータや著作権情報の取り扱いに、より慎重になる必要が生じる。

3. ライセンシングモデルの発展:
訴訟の結果次第で、AI企業とコンテンツ創造者の間で新しいライセンシングモデルが確立される可能性がある。

法理論の発展:

本件は、以下の新しい法理論の発展に寄与している:
– 「AIフェアユース」の概念の確立
– デジタル時代における「変容的使用」の再定義
– 機械学習における著作権侵害の認定基準

解釈の明確化:

既存の著作権法がAI分野にどのように適用されるかについて、以下の明確化が期待される:
– 大規模データセットの使用に関する著作権の制限
– 技術的中間複製の法的地位
– AI生成コンテンツと原著作物の競合関係の評価

規制・実務への影響 (Regulatory and Practical Impact)

AIガバナンス:

本件は、AI開発企業に以下のガバナンス要件を示唆している:

1. データ取得プロセスの透明化:
– 訓練データの出所を明確に文書化
– 著作権状況の事前確認手続きの確立
– ライセンス取得プロセスの標準化

2. コンプライアンス体制の強化:
– 著作権管理情報の保持システムの構築
– 定期的な法的監査の実施
– 内部統制システムの整備

企業が取るべき対応策:

AI開発企業および利用企業は、以下の対策を検討すべきである:

1. リスク評価と管理:
– 既存の訓練データの著作権状況の見直し
– 潜在的な侵害リスクの特定と定量化
– 保険や補償条項の見直し

2. ライセンシング戦略:
– 主要コンテンツプロバイダーとの事前交渉
– フェアユース依存からライセンスモデルへの移行検討
– オープンソースデータの活用拡大

業界への影響:

本件は、AI業界全体に以下の具体的な影響を与えている:

1. 開発コストの増加:
– ライセンス料の支払いによるコスト上昇
– 法的コンプライアンスのための追加投資
– データキュレーションプロセスの複雑化

2. イノベーションへの影響:
– 利用可能なデータの制限による開発速度の低下可能性
– より慎重なデータ選択による品質向上の可能性
– 新しいビジネスモデルの創出機会

リスク管理:

類似リスクを回避するため、以下の考慮事項が重要となる:

1. 事前の法的デューデリジェンス:
– データソースの著作権状況の徹底的な調査
– 契約条項の詳細な検討
– 国際的な著作権法の差異への対応

2. 継続的なモニタリング:
– 法的動向の定期的な確認
– 業界標準の変化への適応
– ステークホルダーとの継続的な対話

比較法的観点 (Comparative Law Perspective)

日本法との比較:

日本のAI・データ保護法制と比較すると、以下の相違点が注目される:

1. 著作権法第30条の4(情報解析のための複製等):
日本法では、情報解析を目的とする場合、一定の条件下で著作物の利用が認められている。これは、米国のフェアユース法理よりも明確な規定となっている。しかし、商業的利用や著作権者の利益を不当に害する場合は除外される。

2. データベース権の保護:
日本では、データベースの著作物としての保護が米国よりも限定的であり、創作性の要件がより厳格に適用される傾向がある。

3. 人格権の考慮:
日本法では著作者人格権が強く保護されており、AIによるコンテンツ改変が同一性保持権の侵害となる可能性がある点で、米国法とは異なるアプローチをとっている。

他国判例との関係:

1. EU判例との比較:
欧州では、データ保護規則(GDPR)との関連で、AI訓練データの使用により厳格な制限が課される傾向がある。特に、個人データを含むコンテンツの使用について、より慎重なアプローチが求められている。

2. 英国の動向:
英国では、AI訓練のための著作権例外規定の導入が検討されたが、クリエイター団体の反対により撤回された経緯がある。これは、米国の訴訟動向が国際的に影響を与えていることを示している。

グローバルな影響:

多国籍企業への影響として、以下が挙げられる:

1. 法域間の調整:
– 異なる法域での著作権要件への対応
– データローカライゼーション要件の考慮
– 国際的なライセンシング戦略の必要性

2. コンプライアンスの複雑化:
– 各国の規制要件の把握と遵守
– グローバルな内部統制システムの構築
– 国際的な法的リスクの管理

重要なポイント (Key Takeaways)

実務家への示唆

弁護士・企業法務担当者が知るべき要点:

1. 契約実務への影響:
– AI開発・利用契約において、訓練データの著作権処理に関する詳細な条項が必要
– 表明保証条項に訓練データの適法性を含める重要性
– 補償条項の範囲を著作権侵害リスクまで拡大する必要性

2. リスク評価の視点:
– 単なるフェアユース依存ではなく、積極的なライセンス取得戦略の検討
– 著作権管理情報の取り扱いに関する社内プロセスの見直し
– 訴訟リスクの定量化と保険によるカバレッジの検討

3. 予防法務の重要性:
– データソースの事前審査体制の構築
– 定期的な法的監査の実施
– ステークホルダーとの継続的な対話の維持

今後の展望

関連する法的論点の発展予測:

1. 短期的展望(1-2年):
– 本件を含むMDL訴訟の判決により、AI訓練におけるフェアユースの基準が明確化される
– より多くのメディア企業がライセンシング交渉または訴訟を選択する可能性
– 議会による立法的解決の試みが加速する可能性

2. 中長期的展望(3-5年):
– AI特有の著作権例外規定の立法化の可能性
– 国際的な調和を目指した条約や協定の検討
– 新しいビジネスモデルと補償メカニズムの確立

3. 技術的進化との関連:
– より洗練されたデータフィルタリング技術の開発
– ブロックチェーンを活用した著作権管理システムの普及
– AI生成コンテンツの出所追跡技術の発展

注意すべき事項

類似案件における留意点:

1. 証拠保全の重要性:
– 訓練データの使用に関する証拠の早期確保
– 内部文書やコミュニケーションの適切な保存
– 技術的プロセスの詳細な文書化

2. 戦略的考慮事項:
– 訴訟とライセンシング交渉の比較衡量
– パブリックリレーションへの影響の考慮
– 長期的なビジネス関係への影響評価

3. 国際的視点の維持:
– 各国の法制度の違いを踏まえた対応
– グローバルな業界標準の動向への注目
– 国際的な協力関係の構築

本件は、AI時代における著作権法の適用に関する画期的な訴訟として、今後の業界実務に大きな影響を与えることが予想される。企業は、本件の動向を注視しつつ、予防的な法的対策を講じることが求められる。

このレポートに関する注意事項 (Warning/Notes)

このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。


Comments

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です