Basbanes v. Microsoft Corporation

Basbanes v. Microsoft Corporation

Case Metadata

Basic Information

1. Case Name: Basbanes v. Microsoft Corporation, et al., No. 1:24-cv-00084-JFK (S.D.N.Y. 2024)
2. Court: United States District Court for the Southern District of New York
3. Filing Date: January 5, 2024
4. Judgment Date: Pending (case stayed as of November 2024)
5. Case Number: 1:24-cv-00084-JFK
6. Current Status: Stayed pending class certification proceedings in consolidated Authors Guild litigation

Parties

7. Plaintiff(s):
– Nicholas A. Basbanes: Non-fiction author specializing in literary and cultural history
– Nicholas Gage (born Nikos Gatzoyiannis): Investigative journalist and author

8. Defendant(s):
– Microsoft Corporation: Technology corporation and cloud computing service provider
– OpenAI, Inc.: Artificial intelligence research organization
– OpenAI GP, LLC: General partner entity of OpenAI
– OpenAI, LLC: Limited liability company entity of OpenAI
– OpenAI OpCo LLC: Operating company entity of OpenAI
– OpenAI Global LLC: Global operations entity of OpenAI
– OAI Corporation, LLC: Corporate entity of OpenAI
– OpenAI Holdings, LLC: Holding company entity of OpenAI

9. Key Law Firms:
– For Plaintiffs: Lieff Cabraser Heimann & Bernstein, LLP
– For Defendants: Not specified in available documents

10. Expert Witnesses: Not yet disclosed (case in early stages)

Legal Framework

11. Case Type: Copyright infringement class action related to AI model training
12. Primary Legal Claims:
– Direct copyright infringement under 17 U.S.C. § 501
– Vicarious copyright infringement
– Contributory copyright infringement
– Digital Millennium Copyright Act (DMCA) violations – 17 U.S.C. § 1202
– Unfair competition under California Business & Professions Code § 17200 et seq.
– Unjust enrichment
– Negligence

13. Secondary Claims:
– Removal of copyright management information
– Unauthorized distribution of copyrighted works

14. Monetary Relief: Statutory damages of $150,000 per infringed work, actual damages, restitution, and injunctive relief

Technical Elements

15. AI/Technology Involved:
– GPT-3, GPT-3.5, GPT-4 large language models
– ChatGPT conversational AI system
– Microsoft Copilot AI assistant
– “Books2” dataset allegedly containing approximately 294,000 pirated titles

16. Industry Sectors: Publishing, technology, artificial intelligence, cloud computing

17. Data Types: Copyrighted literary works, training datasets, text corpora

Database Navigation

18. Keywords/Tags: AI copyright infringement, LLM training, Books2 dataset, generative AI litigation, fair use doctrine, class action, DMCA violations, copyright management information

19. Related Cases:
– The Authors Guild v. OpenAI, Inc., No. 1:23-cv-08292-SHS (S.D.N.Y.)
– Alter v. OpenAI, Inc., No. 1:23-cv-10211 (S.D.N.Y.)
– Tremblay v. OpenAI, Inc., No. 3:23-cv-03223 (N.D. Cal.)
– Silverman v. Meta Platforms, Inc., No. 3:23-cv-03417 (N.D. Cal.)
– Kadrey v. Meta Platforms, Inc., No. 3:23-cv-03417 (N.D. Cal.)

詳細分析 (Detailed Analysis)

事件の概要 (Case Overview)

背景と争点 (Background and Issues)

事実関係: 本件は、2024年1月5日に著名な作家2名が、Microsoft CorporationとOpenAIの複数の関連会社を相手取って提起した著作権侵害集団訴訟である。原告のNicholas A. Basbanesは文学・文化史を専門とするノンフィクション作家であり、Nicholas Gage(本名:Nikos Gatzoyiannis)は調査報道記者兼作家である。訴訟の核心は、被告らがGPT-3、GPT-3.5、GPT-4などの大規模言語モデル(LLM)の訓練に、原告らの著作物を含む大量の著作権保護されたコンテンツを無断で使用したという主張である。

中心的争点:
– AIモデルの訓練における著作物の無断使用が著作権侵害に該当するか
– 「Books2」データセット(約294,000冊の海賊版書籍を含むとされる)の使用の適法性
– フェアユース(公正利用)の抗弁がAIモデル訓練に適用されるか
– 著作権管理情報(CMI)の削除がDMCA違反に該当するか
– 商業的AI製品の開発における大規模な著作物使用の法的評価

原告の主張:
原告は、被告らが組織的かつ意図的に著作権で保護された書籍を大量に複製し、これらをAIモデルの訓練データとして使用したと主張している。特に、違法な「シャドウライブラリ」から取得した「Books2」データセットの使用を問題視しており、これには原告らの作品を含む数十万冊の書籍が含まれているとしている。原告は、このような使用がフェアユースの範囲を超えており、作品1件につき最大150,000ドルの法定損害賠償を求めている。

被告の主張:
現時点では、本件が初期段階にあり、かつAuthors Guild訴訟との統合により手続きが停止されているため、被告の詳細な主張は公開されていない。しかし、類似訴訟における一般的な抗弁として、AIモデル訓練はフェアユースに該当し、変容的使用(transformative use)であるという主張が予想される。

AI/技術要素:
本件で問題となっているのは、OpenAIが開発したGPTシリーズのLLMと、これらを基盤とするChatGPTおよびMicrosoft Copilotである。これらのモデルは、インターネット上のテキストデータや書籍を含む膨大なテキストコーパスで訓練されている。特に「Books2」データセットは、Library Genesis、Z-Library、Sci-Hub、Bibliotikなどのいわゆる「シャドウライブラリ」から取得された海賊版書籍で構成されているとされ、これが著作権侵害の核心的な問題となっている。

手続きの経過 (Procedural History)

重要な手続き上の決定:
– 2024年1月5日:訴訟提起
– 2024年2月12日:第23条(g)に基づく関連事件通知書の提出により、Authors Guild v. OpenAI事件との関連性が示される
– 2024年11月現在:本件はAuthors Guild訴訟のクラス認定手続きが完了するまで停止(stay)されている
– 統合された訴訟群は、AIモデル訓練における著作権問題を包括的に扱う重要な先例となる可能性がある

証拠開示:
現在、本件は停止中のため、実質的な証拠開示(ディスカバリー)は行われていない。しかし、統合されたAuthors Guild訴訟において、訓練データセットの内容、データ取得方法、著作権管理情報の取り扱いなどが重要な証拠開示の対象となることが予想される。

専門家証言:
現段階では専門家証言は提出されていないが、今後の手続きにおいて、AI技術専門家による訓練プロセスの説明、著作権法専門家によるフェアユース分析、経済専門家による市場への影響評価などが予想される。

判決の概要 (Judgment Summary)

裁判所の判断 (Court’s Decision)

本件は現在係属中であり、実体的な判決はまだ下されていない。しかし、関連する類似訴訟における裁判所の判断から、以下の論点が重要になると予想される:

主要な法的論点の見通し:
– フェアユース判断における4要素テスト(使用の目的と性質、著作物の性質、使用された部分の量と実質性、市場への影響)の適用
– AIモデル訓練が「変容的使用」に該当するかの判断
– 大規模な商業的使用と公正使用の境界線の画定
– DMCA違反に関する著作権管理情報の削除の立証

類似訴訟での裁判所の傾向:
他の連邦地方裁判所では、AI訓練におけるフェアユースの適用について意見が分かれている。一部の裁判所は、AIモデルが原著作物を「変容」させて新しい目的に使用していると認定する傾向がある一方、他の裁判所は商業的性質と市場への潜在的影響を重視している。

法的意義 (Legal Significance)

先例価値 (Precedential Value)

将来への影響:
本件およびAuthors Guild統合訴訟の結果は、AI産業全体に重大な影響を与える可能性がある。特に以下の点で先例的価値を持つ:

1. AIモデル訓練におけるフェアユース原則の確立
2. 大規模データセット使用に関する法的基準の設定
3. 著作権者の同意なしにAI訓練に使用できるコンテンツの範囲の明確化
4. AI企業のデータ取得・使用に関するコンプライアンス要件の確立

法理論の発展:
本件は、デジタル時代における著作権法の新たな解釈を促進し、特に以下の法理論の発展に寄与する可能性がある:
– 機械学習における「複製」の概念の再定義
– 変容的使用理論のAI文脈での適用
– データセット作成における著作権管理の新基準

解釈の明確化:
既存の著作権法がAI技術にどのように適用されるかについて、裁判所は初めて包括的な判断を示すことになる。これにより、技術革新と著作権保護のバランスに関する重要な指針が提供される。

規制・実務への影響 (Regulatory and Practical Impact)

AIガバナンス:
本訴訟の結果は、AI開発企業に以下のガバナンス要件を課す可能性がある:
– 訓練データの出所と権利関係の文書化
– 著作権コンプライアンスプログラムの実装
– データ使用に関する透明性の向上
– 権利者への補償メカニズムの確立

コンプライアンス:
企業が取るべき対応策として以下が考えられる:
– ライセンスされたデータセットの優先使用
– オプトアウトメカニズムの実装
– 著作権管理情報の保持と尊重
– リスク評価プロセスの強化

業界への影響:
AI開発・展開実務への具体的効果:
– 訓練データの取得コストの増加可能性
– オープンソースモデルの開発への影響
– 新規参入障壁の上昇
– データパートナーシップモデルの発展

リスク管理:
類似リスクを回避するための考慮事項:
– 事前の権利クリアランスの実施
– 代替データソースの開発
– 合成データの活用検討
– 保険商品の活用

比較法的観点 (Comparative Law Perspective)

日本法との比較:
日本の著作権法第30条の4(著作物に表現された思想又は感情の享受を目的としない利用)は、AI学習を明示的に許容する可能性があるが、米国のフェアユース原則とは異なるアプローチを取っている。日本では、情報解析のための複製が一定の条件下で認められているが、商業的大規模利用については議論が続いている。

他国判例との関係:
– EU:AI法案においてデータガバナンスへの注目が高まっている
– 英国:著作権法改正議論においてAI訓練の例外規定が検討されている
– カナダ:フェアディーリング原則の下でのAI訓練の位置づけが不明確

グローバルな影響:
多国籍AI企業は、各国の法制度の違いに対応する必要があり、最も厳格な基準に合わせたグローバルコンプライアンス戦略の採用が予想される。

重要なポイント (Key Takeaways)

実務家への示唆:
– AI開発における著作権リスクの事前評価が不可欠
– データライセンシング戦略の見直しが必要
– 訴訟リスクに備えた文書管理体制の構築が重要
– クライアントへの適切なリスク説明とコンプライアンス助言が求められる

今後の展望:
– 2025年中にAuthors Guild統合訴訟でのクラス認定決定が予想される
– 連邦議会でのAI規制法案の動向が訴訟に影響を与える可能性
– 和解による業界基準の確立の可能性も存在
– 最高裁判所への上訴により、全国的な先例が確立される可能性

注意すべき事項:
– 訓練データの出所と権利状態の継続的な監視
– 新たな技術的手法(合成データ、フェデレーテッドラーニング等)の法的評価
– 国際的な規制動向への対応
– ステークホルダー(著作権者、技術開発者、利用者)間の利益調整

このレポートに関する注意事項 (Warning/Notes)

このレポートはサイト運営者がAIエージェントに文献等の調査・調査結果の分析・分析結果の整理・分析結果の翻訳等を行わせたものです。人間による追加的な調査や査読は行っておらず、内容には誤りを含む場合があります。


Comments

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です