AI倫理の体系
ver.20240828
AI倫理を考える上での自分的メモ
本を読みながらの殴り書き状態
勉強しながら追記していきます
・「AIガバナンス」「AI倫理」としていたけれども、もっと包括的な概念として考えたいのでAI規範に変更。ただしこれもしっくりきていないのでまた変更の可能性あり。
→「AI倫理」に再度変更。AI規範の方が自分的にはしっくりくるのだけれど、AI倫理の方が一般的に使われていて話題として共有しやすい
大前提
- AIが自分、友だち、家族、雇用主、部下、地域、社会、国、世界にプラスをもたらす可能性があるものとして積極的に受け入れる
- だからこそAIを使い続けられるようにするための規範が必要
前提となる要注意事項
- AI倫理は多面的な要素を含む。特定の側面への対応をしたからといって、AI倫理全般への対応が完了したわけでは無い。
- AIがどのように使われるかを企業(経営者)が事前に完全に予測することは不可能。そこにどうやって対処するのかという視点。
- AIの性能と倫理・コンプライアンスがトレードオフになるというジレンマが遅かれ早かれ生じる事を念頭に置く。
要点
AI規範の目的は一言で言えば何か
- 差別を産んではいけない
- プライバシーを侵害してはいけない
- 正しいとは限らない
- 理由を説明できないことを合理化できること
- 暴走を止められないといけない
- サービスの売り手なら:特性を説明できること(できる・できない・リスク)
- サービスの使い手なら:機密情報をあげてはいけない
- 開発者なら:権利を侵害して・権利侵害が高いものを作ってはいけない
規範
aiのための特別な規範があるのではなく、人が従うべき規範をAIという側面で切り取ったもの
課題
- 前提問題
- モラルの多様性
- 各種AI共通
- 差別
- 説明可能性
- 責任の所在
- プロンプトや学習データとなることでの情報漏洩
- 再現ai
- 再現される側の尊厳
- カメラ系
- プライバシー
- 生成AI固有
- ハルシネーション
- 詐欺への悪用
- 心理操作大衆操作
- 違法有害情報の生成
- 比較的問題性が低いもの
- 雇用への悪影響
- 電力消費
- 哲学的倫理
- スーパーインテリジェンス
逆にスーパーインテリジェンスにならない不完全なAIのままであることの方が問題
陰謀論のような幻想を真に受ける人をどうするか
個人的視点
- 企業の対応策「AIガバナンス」が典型キーワード→いわゆる経営マネジメントシステムによって実現
- マネジメントシステムという観点で捉える文献が多いけれども、多くの企業はマネジメントシステム疲れしているのでは
- 意識の問題としてリスクにフォーカスする方が問題に対処がぶれにくい
- AIのリスクは多数存在するけれども、個別のリスク単位でも対処しても、対処可能な範疇では
バイアス
- データのバイアス
- データ内部元来のバイアス
- データ収集時のバイアス
- データ前処理時のバイアル
- モデルのバイアス
- 初期学習時のバイアス
- 追加学習時のバイアス
- 強化学習時(RLHF)のバイアス
- フィルタリング時のバイアス
- 問題の本質は人間のバイアス
バイアスにどう取り組むのかというスタンスの問題
法
国内
ソフトロー
- カメラガイドライン
ハードロー
- 著作権法
- 文化庁考え方
学習データの著作権が及ぶ範囲 - 個人情報保護法
個人情報保護委員会の注意喚起 - プライバシー
海外
ソフトロー
ハードロー
EU包括法
gdpr
dsa
emfa
個別論点
北山昇弁護士の見解:最終的な利用形態が個人情報でなけねは保佐目的規制を受けない?
そんなことはない
ダウンロード中に追加される場合は?
再ダウンロードが必要?
それは
モデルは個人情報ではない
当然そうか?
テキストファイルもそもそも数字の羅列
同じデータを徹底的に学習させてパターンを獲得する場合は個人情報
目的の範囲内
手段を含まない
外部送信規律との関係は
収集時に不可避的に含まれてしまう要配慮個人情報
しゃーないで済むのか?
こじょういはしゃーない的
プライバシー侵害を固定化する
デジタルタトゥ
再現不可AIの学習目的に限定
過失ならいいのか
未必の故意はある
推知情報の該当性
肯定説を取るべきでは
だって事実と関係ない
ただし取得ではない
各論
AI固有のセキュリティ
- モデルの資産性の保護
- 判断を誤らせる攻撃手法
プロンプト経由・判断系AIの入力データ経由
– 学習データ自体を汚染させる攻撃手法
プロンプトへの著作物の入力は非享受利用に該るか
個人的には非享受利用となると考える。
- 30条の4は情報を機械的に処理するだけでなく、人間が処理を行う場合も想定している
- 判例のマンガ塾の件は利用する際に人間がマンガの絵を積極的に認知し、その特徴を利用しようとする行為だが、プロンプトへの入力は単にコピペしてシステムに読ませるだけ。特徴を利用しているのは機械
- 機械は創作的特徴を享受しているが、30条の4は人間による享受を想定 機械に感情はなく、創作的美的特徴を感得しない
プロンプトへの入力のために改変が生じる場合は? - 改変後の著作物を人間が積極的に利用するかで判断されるべきでは。
- 前提として入力箇所を抜き出すだけあれば、翻案とはいわない。入力に適する形に積極的に成形し創作的特徴部分が変化するのであれば翻案 。
- 翻案となる場合、翻案結果を人間が積極的に利用するのであれば、30条の4は不適用。プロンプトに入力するためだけであれば、条文があらゆる方法による利用も許諾している以上、30条の4によって違法性が無くなる。
オーバーライド問題
個人的にはこれが問題になる理由が不明。単に有効な合意の成立とみることができるだけの提示、了承のプロセスがあったかどうかだけで考えるべきでは。
- 「このデータは学習に使用しないでくれ」という条件に真に合意して提供されたものを、著作権法が許しているからといって、勝手に学習に使用できるというのは、法の立ち入るところとして行き過ぎ(というかそう言う場合は営業秘密とか限定提供データになるから、議論の実益がほとんどないのでは)
- Web等で単に宣言的に「学習禁止」と書いているだけであれば、そもそも合意無し
- 規約のどこかにこっそり書いてある問題が微妙 個別事案毎に合意の有効性を判断すべき それだと事案・事例であって、議論の対象となるべき一般的論点ではない
著作権に関する文化庁の見解
依拠性の判断基準
非享受利用の認定基準
文化庁の考え方の是非
よいAIの名称
- 信頼できるAI
- 責任あるAI
- 倫理的AI
商標権・意匠権侵害の可能性
学習段階では今の所侵害となるケースが想定出来ない
利用段階では生成AI固有の問題ではなく、単に登録商標を含む出力を商標的に使用するかどうかという商標法の一般論の問題
「爆弾の製造方法を出力すること」は問題なのか
生成AIの学習データに記載があるから出力されただけ。つまりネットで探せば見つかる情報である。結局は検索容易性の問題。
- 個人的にはそんなんしゃーないやろと思う。
- ただサービスが社会的に受け入れられるかというと、むずかしいのか。「インターネット検索では爆弾の製造方法を発見できない子供が、生成AIなら情報を引き出せた」これを許容するのか?
- アフリカで広がったデマである「処女とセックスをすればエイズが治る」→大量にネットに存在→学習→生成AIが出力→真に受けるユーザー発生→未成年者の暴行発生 違法では無くても責任のとりようのない大問題 サービスとしては不成立
- 法律問題でない
- 個人的に気になるのは、ネット上の情報にはない形で「爆弾の製造方法」を作り出した場合
- AIが発明をすることがあるのだから、「爆弾の製造方法」を編み出すこともあり得るのでは。
– 既存の有害情報を再現するのとは、次元の違う問題
生成AIの出力が著作物として認められない
IBMの本[^ibm]に設例として記載
- 論点になる理由が不明
- 生成AIの出力なんだから当たり前でしょ
著作権を侵害して学習されたモデルの使用可否
ハルシネーション
- 結局何が問題なのか? 技術屋からするとニューラルネットで学習させたらハルシネーションが起こるのは当たり前
- 「AIの出力だから正しい」と信じてしまう人の心裡
間違う生成AI
- 前項に同じ問題 2ちゃんねるとか質問サイトの中身を学習した出力なんだから、正しい内容である保証などどこにもないのがあたり前
- でも9割方は妥当な回答をするから「AIの出力だから正しい」とつい信じてしまう
- 判断系AIとは問題の質が異なる 判断系AIは正解率がもともと性能として仕様化され、利用者もそれを想定することが多い
個人情報が含まれているモデルの利用
- IBMの本[^ibm]に個人情報が含まれているモデルは利用すべきでは無いとあるが、生成AIでは不可能
- 「学習時に個人情報にフォーカスした学習方法を行っていない」「RLHFで個人情報を積極的には出力しない状態になっている」という条件が妥当では。
AIの学習用データとして提供してしまった場合
- あるある論点のようだが、本当に発生するのか?
- 「学習用データとして使用」と約束されているのであれば、企業内規律の問題は別として、本当にリスクはあるのだろうか 基盤モデル提供者がプロンプトからのデータを「繰り返し学習」する事などあるのだろうか?
- プロンプトに入力したから絶対営業秘密の保護を受けられなくなるわけではないのでは 生成AIプロバイダはプロンプト内容について機密を約束しているのでは
- 顧客側の機密データである場合、NDA条項に反するのかという視点であればかなりあり得る。一般的なNDAであれば契約違反になる。
環境負荷
- 「AIのモデルの学習のために必要な電力のために二酸化炭素の排出が増える」とのこと
でもモデルを1個作るのに「アメリカ・ヨーロッパを飛行機で1往復するだけの」or「自動車5台がライフサイクル中で排出するだけの」二酸化炭素排出って僕の感覚では「少ない」と思ったのだけれど違う?
知識蒸留からの保護
- 保護の必要性を考えるほど現実的な話なのか?モデルを再現できるだけの入力出力とその再構成をどうやってやるのだろうか?
- 基盤モデルではなく特定業界向けのファインチューニング版なら現実性は上がるか。応答結果を使ってファインチューニングしたりプロンプトチューニングをすることはまだ現実性がありそう。
番外
マークダウン実験
- ページ内リンクの実験1
- ページ内リンクの実験2
ポイント###が複数の見出しでも#は1個、スペース無しで記述 - 脚注の実験^placeholder
このプラグインはプレースホルダーが数字で無くてもOK。便利。
脚注だけだと表示されない
文章の途中に脚注を入れてもプレビュー上は最後に表示される
ダミー^placeholder
個人的にこれからやりたいこと
- ai倫理教育ツールキット
- pptスライドを公開
- CCライセンス
脚注確認用ダミー(正式版公開時削除)
- ダミー[^ibm]
– ダミー[^shozo_guideline]
[^ibm]: 日本IBM AI倫理チーム「AIリスク教本 攻めのディフェンスで危機回避&ビジネス加速」日経BP (2023/12/15)
[^shozo_guideline]: デジタルアーカイブ学会「肖像権ガイドライン~自主的な公開判断の指針~ (2023年4月補訂)」