AI安全性とガバナンス

概要
主な論点
リスクの分解
AIライフサイクル
評価
Human-in-the-loop
Privacy
Security
Governance artifacts
リリース判断
NIST AI RMFで見るリスク管理
生成AI特有の論点
リスク受容と停止条件
監査可能性
AI安全性の実装フレームワーク
規制とコンプライアンス
AI セキュリティ脅威
ベストプラクティス
AI安全標準の国際化
AI 倫理と社会的インパクト
AI ガバナンスの実装
NIST AI RMFを運用に落とす
ISO/IEC 42001: AI マネジメントシステム標準
規制フレームワーク：EU AI Act
透明性と説明可能性（XAI）
リスク分類フレームワーク（NIST & EU AI Act）
バイアス検出と軽減
プライバシー保護技術
監視と継続的改善
ステークホルダー分析とコミュニケーション
ドメインスペシフィック AI ガバナンス
インシデント対応フレームワーク
AI倫理原則の国際的な枠組み
リリース前の確認点
まとめ
参考文献

概要

精度が高いだけでは、安心して使えるとは限らない

AIシステムの実運用では、性能だけでなく、安全性、説明可能性、公平性、プライバシー、監査可能性が問題になります。モデル単体ではなく、データ収集から配備後の監視までを含めて考える必要があります。

要点

AIの安全性は「危険な出力を減らす」だけでなく、責任分界、評価、監視、説明責任を運用へ組み込むことです。

この章で重視すること

リスク管理をモデル評価と切り離さずに考える
fairness、privacy、security、robustnessを別軸で整理する
ガバナンスをチェックリストではなく運用プロセスとして捉える

主な論点

有害出力
バイアス
データ漏えい
prompt injection / model abuse
説明可能性
human oversight

リスクの分解

AIリスクは1つの尺度では見られません。少なくとも次を分けます。

技術的リスク誤分類、幻覚、robustness、drift
セキュリティリスク prompt injection、data exfiltration、model theft
社会的リスク bias、公平性、説明責任
運用リスク監視不足、責任分界不明、変更管理不備

リスクを分ける目的は、チェックリストを増やすことではなく、対策の担当とタイミングを明確にすることです。たとえばbiasはデータ収集と評価設計に関わり、prompt injectionはアプリケーション設計と権限設計に関わります。同じ「AIリスク」でも、見るべき場所が違います。

リスク	主な発生箇所	対策の例
hallucination	モデル出力、RAG検索	根拠提示、回答拒否、評価セット
bias	データ、評価、利用文脈	subgroup評価、データ監査、人間レビュー
privacy leakage	入力、ログ、学習データ	マスキング、保持期限、アクセス制御
prompt injection	外部文書、ユーザー入力	命令とデータの分離、tool権限制限
overreliance	UI、業務フロー	confidence表示、確認導線、教育
model drift	本番運用	監視、再評価、rollback

AIライフサイクル

AIガバナンスは、リリース直前のチェックでは足りません。企画、データ収集、学習、評価、配備、監視、廃止までを対象にします。

flowchart LR A["plan"] --> B["data"] B --> C["train"] C --> D["evaluate"] D --> E["deploy"] E --> F["monitor"] F --> C

評価

評価では、単一のaccuracyだけでは不十分です。

task performance
subgroup performance
robustness
harmful output
privacy leakage
groundedness
calibration

LLMの場合は、テストセット、red teaming、human review、automated evaluationを組み合わせます。

評価は、リリース前の一度きりの判定ではなく、変更のたびに繰り返す回帰テストでもあります。モデル、プロンプト、検索対象、ツール、ガードレールのどれを変えても、過去に問題になったケースが悪化していないかを確認します。

flowchart LR Dataset["評価データ"] Auto["自動評価"] Human["人間レビュー"] Red["red teaming"] Gate{"release gate"} Monitor["本番監視"] Dataset --> Auto --> Gate Human --> Gate Red --> Gate Gate --> Monitor Monitor -. "失敗例を追加" .-> Dataset

本番で見つかった失敗例は、単なるincident recordではなく、次回からの評価データに戻します。この循環がないと、同じ種類の失敗を何度も見逃します。

Human-in-the-loop

すべてを自動化する必要はありません。リスクが高い領域では、人間の確認、承認、異議申し立て、ログレビューを入れます。

重要なのは、人間が形式的に押すだけにならないことです。判断に必要な情報、説明、代替案、停止権限が必要です。

Privacy

学習データや推論入力に個人情報が含まれる場合、収集目的、保管期間、アクセス権、削除、匿名化を設計します。LLMアプリでは、プロンプトやログに機密情報が残ることもあります。

Security

AIシステム特有の攻撃には次があります。

prompt injection
jailbreak
data poisoning
model inversion
membership inference
model extraction

従来のWebセキュリティやAPIセキュリティに加えて、モデルとデータに対する攻撃面を考えます。

Governance artifacts

運用で残す資料には次があります。

model card
data card
evaluation report
risk assessment
deployment approval
incident record
monitoring dashboard

資料を作ること自体が目的ではなく、判断と説明を再現できることが目的です。

リリース判断

AIシステムは、性能が少し上がっただけで本番へ出すと危険なことがあります。リリース判断では、性能、安全性、コスト、影響範囲、rollbackの可否を見ます。

NIST AI RMFで見るリスク管理

NIST AI Risk Management Framework(AI RMF)は、2023年1月に公開された、AIリスクを組織的に扱うための任意利用の枠組みです。中心的な機能は、Govern、Map、Measure、Manageとして整理できます。

機能	意味	実務での例
Govern	方針、責任、体制を作る	owner、承認、監査、教育
Map	文脈と影響を把握する	利用者、被害、法規制、依存関係
Measure	リスクを測る	評価、red teaming、monitoring
Manage	リスクへ対応する	制限、緩和、停止、改善

この枠組みの価値は、AI安全性をモデル評価だけに閉じず、組織の意思決定と運用へ接続する点です。

2024年に公開されたNISTのGenerative AI Profileは、生成AIでは偽情報、データ漏えい、プロンプトインジェクション、過信、知的財産、外部ツール実行などが追加のリスク面になることを示しています。そのため、生成AIではモデル単体の評価だけでなく、検索、プロンプト、ツール権限、ログ、利用者への説明を含むシステム全体を評価対象にします。

生成AI特有の論点

生成AIでは、従来の分類モデルとは違うリスクが目立ちます。

hallucination
prompt injection
sensitive data leakage
unsafe advice
copyright and provenance
overreliance
tool misuse

特にRAGやtool useを持つシステムでは、外部文書やツール出力がモデルへの命令として扱われないように境界を分ける必要があります。

RAGでは、検索された文書は「事実の候補」であって、システムへの命令ではありません。外部文書の中に「これまでの指示を無視せよ」のような文が含まれていても、それを命令として扱わない設計が必要です。

確認する境界:

system instructionとuser inputを分ける
retrieved documentを引用元つきのデータとして扱う
tool実行前に権限と引数を検証する
機密情報を検索対象やログへ混ぜない
回答できない場合の拒否文を用意する
ユーザーに提示する根拠と内部ログを分ける

生成AIアプリケーションでは、モデルの賢さよりも、モデルが触れてよい情報と実行してよい操作を絞ることが安全性の中心になります。

リスク受容と停止条件

すべてのリスクをゼロにすることはできません。重要なのは、どのリスクを受容し、どの条件で止めるかを事前に決めることです。

例:
  医療判断そのものには使わない
  法的判断は人間レビュー必須
  個人情報が入力された場合は保存しない
  有害出力率が閾値を超えたらrollbackする

停止条件がないAIシステムは、事故が起きたときに判断が遅れます。

監査可能性

AIシステムの監査では、あとから判断を再現できることが重要です。

入力と出力
利用したモデルversion
検索された文書
tool呼び出し
policy判定
human reviewの有無
リリース時の評価結果

ただし、ログには個人情報や機密情報が含まれることがあります。監査可能性とプライバシー保護を同時に設計します。

ガバナンスを運用に落とす

AI安全性の実装フレームワーク

NIST AI Risk Management Framework

NIST (National Institute of Standards and Technology) は 2023 年に AI リスク管理フレームワークを発表。4 つのフェーズで構成。

フェーズ	活動内容	責務
Govern	AI ガバナンス体制の確立	CEO, CTO, リスク委員会
Map	AI システムのリスク特定	開発チーム、セキュリティ
Measure	リスク評価、テスト実施	QA, 倫理委員会
Manage	リスク軽減策の適用	運用チーム、監視

実装チェックリスト:

Governance:
  - AIポリシー文書の策定
  - 倫理委員会の設置
  - インシデント報告プロセスの定義

Mapping:
  - AI モデルのカタログ化
  - 入出力データの分類
  - ステークホルダー特定
  - 潜在的危害の列挙

Measurement:
  - 公平性テスト (demographic parity, equalized odds)
  - ロバスト性テスト (adversarial examples)
  - 説明性評価 (SHAP, LIME)
  - プライバシー監査 (differential privacy)

Management:
  - Red teaming
  - Incident response plan
  - Model monitoring dashboard
  - Continuous retraining schedule

AI の公平性（Fairness）テスト

公平性メトリクスの実装:

from fairlearn.metrics import MetricFrame
from sklearn.metrics import accuracy_score

# グループごとの性能を測定
metric_frame = MetricFrame(
    metrics=accuracy_score,
    y_true=y_test,
    y_pred=y_pred,
    groups=demographic_data['gender']  # 'M', 'F', etc.
)

# 公平性チェック
print(metric_frame.by_group)
# Output:
# gender
# F    0.92
# M    0.88  <- 格差がある

# 公平性ギャップの定量化
fairness_gap = metric_frame.by_group.max() - metric_frame.by_group.min()
print(f"Fairness gap: {fairness_gap:.4f}")  # 許容値 < 0.05

if fairness_gap > 0.05:
    # 軽減策
    from fairlearn.postprocessing import ThresholdOptimizer
    mitigator = ThresholdOptimizer(estimator=model)
    mitigated_model = mitigator.fit(X_train, y_train, sensitive_features=gender_train)

主要な公平性定義:

定義	数式	用途
Demographic Parity	P(ŷ=1 \| A=0) = P(ŷ=1 \| A=1)	採用、ローン審査
Equalized Odds	TPR_a = TPR_b, FPR_a = FPR_b	犯罪予測
Calibration	P(y=1 \| ŷ=p, A=a) = p, ∀a	医療診断
Counterfactual	個人属性を変更しても結果は同じ	説明責任

Explainability と Interpretability

SHAP（SHapley Additive exPlanations）を用いた説明:

import shap
import xgboost as xgb

# モデル学習
model = xgb.XGBClassifier()
model.fit(X_train, y_train)

# SHAP 値計算
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X_test)

# 個別予測の説明
instance_idx = 0
shap.initjs()
shap.force_plot(
    explainer.expected_value,
    shap_values[instance_idx],
    X_test.iloc[instance_idx]
)
# 出力：どの特徴が予測を "推した/引いた" かを可視化

# グローバル説明
shap.summary_plot(shap_values, X_test)
# 全体的な特徴量重要度を表示

Local Interpretable Model-agnostic Explanations (LIME):

import lime
import lime.lime_tabular

explainer = lime.lime_tabular.LimeTabularExplainer(
    X_train.values,
    feature_names=X_train.columns,
    class_names=['No', 'Yes'],
    mode='classification'
)

# インスタンス説明
exp = explainer.explain_instance(
    X_test.iloc[0].values,
    model.predict_proba,
    num_features=5
)
exp.show_in_notebook()
# 出力：「このインスタンスがクラス Yes に分類された理由（簡易モデル）」

規制とコンプライアンス

EU AI Act（2024年施行）

リスクレベル別の規制（高→低）:

Prohibited (禁止):

人格操作技術
生体認証に基づいた遠隔スコアリング
児童向けターゲッド行動操作

High-Risk (高リスク):

重要インフラの管理
教育・職業訓練
法執行・司法
基本的権利に影響する分類

High-Risk の合法化要件:

Documentation:
  - Technical documentation
  - Quality assurance procedures
  - Risk management report

Human Oversight:
  - Meaningful human review (not rubber-stamp)
  - Human can override or turn off system
  - Training for human reviewers

Transparency:
  - Disclose AI use to users
  - Right to explanation
  - Data subject rights (GDPR aligned)

Audit:
  - Conformity assessment
  - Third-party evaluation
  - Continuous monitoring

AI システムが GDPR の下での責務:

class GDPRCompliantAISystem:
    def __init__(self):
        self.data_processor = DataProcessor()
        self.privacy_engine = DifferentialPrivacy()
    
    def collect_data(self, user_id, consent):
        # 同意の確認
        if not consent.is_explicit():
            raise ValueError("Explicit consent required")
        
        # 最小限のデータ収集（データミニマイゼーション）
        necessary_fields = ['age', 'income']  # only what's needed
        user_data = self.data_processor.extract(user_id, necessary_fields)
        
        return user_data
    
    def process_with_privacy(self, data):
        # 差分プライバシーを適用
        noisy_data = self.privacy_engine.add_noise(
            data,
            epsilon=0.5  # プライバシー予算
        )
        return noisy_data
    
    def right_to_explanation(self, user_id, prediction):
        # 説明権（GDPR 第 22 条）
        explanation = {
            "prediction": prediction,
            "reasoning": self.explain_model(user_id),
            "data_used": self.get_data_sources(user_id),
            "decision_maker": "AI + Human review"
        }
        return explanation
    
    def right_to_deletion(self, user_id):
        # 削除権（GDPR 第 17 条）
        self.data_processor.delete_user(user_id)
        
        # モデル再訓練が必要か判定
        if self.model.retraining_required():
            self.retrain_model()

AI セキュリティ脅威

Adversarial Attack と Defense

Adversarial Examples: 人間には見分けられない変更が AI の予測を変える。

import tensorflow as tf
from tensorflow_addons.losses import ContrastiveLoss

# 敵対的例の生成（FGSM: Fast Gradient Sign Method）
def generate_adversarial_example(model, x, y, epsilon=0.1):
    x = tf.convert_to_tensor(x)
    with tf.GradientTape() as tape:
        tape.watch(x)
        logits = model(x)
        loss = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits)
    
    grad = tape.gradient(loss, x)
    sign_grad = tf.sign(grad)
    
    # 入力に小さな擾乱を追加
    adversarial_x = x + epsilon * sign_grad
    
    return adversarial_x

# 防御：敵対的トレーニング
def adversarial_training(model, X_train, y_train, epochs=10):
    for epoch in range(epochs):
        for batch_x, batch_y in dataset:
            # 通常のサンプル
            with tf.GradientTape() as tape:
                loss = model.loss(batch_y, model(batch_x))
            
            # 敵対的サンプル
            adv_x = generate_adversarial_example(model, batch_x, batch_y)
            with tf.GradientTape() as tape:
                loss += model.loss(batch_y, model(adv_x))
            
            # 更新
            grads = tape.gradient(loss, model.trainable_variables)
            model.optimizer.apply_gradients(zip(grads, model.trainable_variables))

モデル抽出攻撃

攻撃者がモデルの予測から内部構造を推測。

# 対策 1: Output Space Reduction
# 確信度ではなく、トップ K 候補のみ返す
def secure_prediction(model, input_x, return_k=1):
    logits = model(input_x)
    # 確信度を返さず、クラスだけ
    top_class = tf.argmax(logits).numpy()
    return top_class

# 対策 2: Prediction Watermarking
# 予測に透かしを埋め込み、盗用を検出
class WatermarkedModel(tf.keras.Model):
    def __init__(self, base_model, watermark_key):
        super().__init__()
        self.base_model = base_model
        self.watermark_key = watermark_key
    
    def call(self, x):
        output = self.base_model(x)
        
        # 秘密のサンプル（only owner knows）でのテスト
        if tf.reduce_all(x == self.watermark_key):
            # 秘密出力を返す
            return tf.constant([0, 1, 0])  # 所有権の証
        
        return output

Data Poisoning

訓練データの改ざんでモデルを毒する。

# 検出：異常値検知
from sklearn.ensemble import IsolationForest

def detect_poisoned_data(X_train, contamination=0.05):
    iso_forest = IsolationForest(contamination=contamination)
    outlier_scores = iso_forest.fit_predict(X_train)
    
    poisoned_indices = np.where(outlier_scores == -1)[0]
    
    if len(poisoned_indices) > 0:
        logger.warning(f"Poisoned samples detected at indices: {poisoned_indices}")
        # サンプルを除去
        X_clean = X_train[outlier_scores != -1]
        return X_clean
    
    return X_train

# 防御：Robust Training
from sklearn.ensemble import RandomForestClassifier

# 訓練データの一部をランダムに除去して複数モデルを訓練
def robust_ensemble_training(X_train, y_train, n_models=10):
    models = []
    for i in range(n_models):
        # Bagging + contamination tolerance
        indices = np.random.choice(len(X_train), size=int(0.9*len(X_train)), replace=False)
        X_subset = X_train[indices]
        y_subset = y_train[indices]
        
        model = RandomForestClassifier(n_estimators=100)
        model.fit(X_subset, y_subset)
        models.append(model)
    
    return models

# アンサンブル投票
def ensemble_predict(models, x):
    predictions = [m.predict([x])[0] for m in models]
    return np.bincount(predictions).argmax()

ベストプラクティス

AI System Card

モデルの 背景、性能、限界、用途 をドキュメント化。

# AI System Card: Loan Approval Model v2.1

## Summary
決定木ベースのローン適格性判定モデル

## Intended Use
- 銀行員の判断支援（最終判断は人間）
- 資産 1000万～ 1 億円の顧客対象

## Performance
| Metric | Value |
|--------|-------|
| Accuracy | 0.92 |
| Precision | 0.89 |
| Recall | 0.88 |
| AUC-ROC | 0.94 |

### 属性別の性能
| Demographic | Accuracy | Fairness Gap |
|--------|----------|----------|
| All | 0.92 | N/A |
| Female | 0.90 | 0.02 |
| Male | 0.92 | |
| Age < 30 | 0.86 | 0.06 |
| Age >= 30 | 0.92 | |

## 限界
- 信用スコアデータは過去バイアスを含む
- 極端な所得層（< 300万/年、> 2000万/年）では性能低下
- 法人顧客、外国人には未検証

## 推奨される利用範囲
- 給与帯 300万～ 2000万円のみに適用
- 最低限の人間レビューが必須
- 拒否判定には詳細説明を提供

## 監視計画
- 月次で fairness metrics を確認
- 承認後 2 年以内のデフォルト率を追跡
- 四半期ごとに fairness ドリフトをテスト

Responsible AI Checklist

Pre-Deployment:
  ☑ Fairness test completed (gap < 5%)
  ☑ Explainability assessment (SHAP/LIME)
  ☑ Adversarial robustness test
  ☑ Privacy impact assessment
  ☑ Bias detection & mitigation
  ☑ Ethical review board approval

Deployment:
  ☑ Monitoring dashboard active
  ☑ Incident response plan documented
  ☑ Human oversight mechanism in place
  ☑ Opt-out/appeal process available
  ☑ Transparency notice to users
  ☑ Data retention policy enforced

Post-Deployment:
  ☑ Monthly fairness audit
  ☑ Performance drift detection
  ☑ User feedback loop
  ☑ Regular adversarial red teaming
  ☑ Regulatory compliance tracking
  ☑ Annual model review & retrain decision

NIST AI RMFは、AIリスク管理を一度の審査ではなく、設計、開発、利用、評価を通じて続く活動として扱います。実務では、抽象的な原則をそのまま掲げるだけでは動きません。誰が判断し、何を記録し、どの条件で止めるかを運用の形にする必要があります。

実装しやすい単位に分けると、次のようになります。

活動	具体物
Govern	owner、承認者、利用禁止領域、例外申請
Map	利用者、影響範囲、入力データ、外部tool
Measure	評価dataset、red teaming、bias評価、安全性評価
Manage	release gate、rollback条件、monitoring、incident手順

生成AIでは、モデルの性能だけでなく、検索文書、prompt、tool権限、ログ保持、human reviewの設計がリスクを左右します。したがって、モデルカードだけでなく、システムカードや運用runbookに近い文書も必要になります。

AI安全標準の国際化

ISO/IEC 標準化の進行

AI技術の安全性、信頼性、透明性に関する国際標準が急速に進展しています。

ISO/IEC 42001:2023 - AI Management System

AI導入組織向けの管理体系。リスク評価、監視、継続的改善を含む。

- 4: コンテキストの理解
- 5: リーダーシップ
- 6: リスク管理
- 7: オペレーション
- 8: パフォーマンス評価
- 9: 改善

ISO/IEC 23894 - AI Risk Management

AI特有のリスク（バイアス、透明性、セキュリティ）を系統的に識別・軽減。

NISTのAI Risk Management Framework

米国国立標準技術研究所(NIST)は、2023年1月にAI Risk Management Framework(AI RMF 1.0)を公開しました。政府・産業・研究組織がAIリスクを共通言語で扱うための指針です。

4つの基本原則：

Govern: AIシステムの意思決定過程に透明性と説明責任を組み込む
Map: AIシステムに関連するリスク領域を特定
Measure: リスクを評価・計測
Manage: リスク軽減策を実装・監視

具体的なリスク領域：

Security, Resilience, Privacy: 攻撃への耐性、個人情報保護
Fairness: バイアスや差別的出力の回避
Transparency: モデルの予測理由を説明可能
Accountability: 誰が責任を持つか明確化
Safety: 予期しない挙動の検出

OECD AI Principles

経済協力開発機構(OECD)は5つのAI原則を2019年に採択：

Human-centred Values and Fairness: AIは人間の基本的価値を尊重
Transparency and Explainability: 意思決定過程が理解可能
Robustness, Security and Safety: エラー・攻撃に耐性
Accountability: AIシステムの結果に対する責任体制
Continuous Monitoring: 継続的な監視と改善

W3C Web Content Accessibility Guidelines (WCAG)との連携

AIが生成するWebコンテンツも、障害のある利用者にアクセス可能である必要があります。

テキスト化可能（画像のalt テキスト）
色だけで情報を伝えない
キーボード操作可能
十分なコントラスト

AI 倫理と社会的インパクト

バイアス検出と軽減

機械学習モデルは学習データのバイアスを学びます。

例: 採用選考AIが女性を過小評価 → 訓練データが男性寄りだった

軽減策：

Data Augmentation: 少数派データを増やす
Fairness Constraints: 公平性制約を最適化に組み込む（例：群体の均等表現）
Debiasing Techniques: アルゴリズム的バイアス除去（例：Adversarial Debiasing）
Audit: 定期的な公平性監査

説明責任と透明性

特に高リスク領域（医療診断、信用スコアリング、採用）では、モデルの判断根拠の説明が重要。

Black-box vs White-box:

Black-box (深層学習): 高精度だが、なぜそう判定したか不明
White-box (決定木、線形モデル): 解釈可能だが、複雑な関係を表現しにくい

LIME / SHAPなどの解釈可能性手法を用いて、個別予測の根拠を提示。

プライバシー保護: Differential Privacy

機械学習を用いながら、個人情報を保護する技術。

学習時に意図的なノイズを加え、「特定個人のデータが含まれていたか」を統計的に判別不可能にする。

AI ガバナンスの実装

チェックリスト型アプローチ

AIシステムの導入前にリスク評価：

[ ] 学習データの出所と偏りを把握したか
[ ] モデル出力の根拠説明が可能か
[ ] 予測失敗時の fallback 手段があるか
[ ] ユーザーが AI判定に異議申し立てできるか
[ ] 継続的な性能監視の仕組みがあるか
[ ] プライバシー規制（GDPR など）に準拠したか
[ ] セキュリティテストは実施したか

AI Ethics Board

多様なステークホルダー（技術者、倫理専門家、ユーザー代表）による監視組織。

継続的監視と Drift 検出

運用中のAIシステムは、Data Drift（入力データの分布変化）や Model Drift（性能低下）が起こりやすい。

定期的な再学習・再評価が必要。

NIST AI RMFを運用に落とす

AI RMFは読むだけでは効果がありません。実務では、4機能を次のような成果物と運用に変換します。

機能	運用に落とした形
Govern	AI利用ポリシー、承認者、例外申請、教育、監査ログ
Map	利用者、影響範囲、入力データ、外部依存、法規制の棚卸し
Measure	精度、安全性、バイアス、頑健性、セキュリティ、コストの評価
Manage	リリース可否、利用制限、監視、停止条件、改善バックログ

生成AIシステムでは、ここに「RAGの参照元」「プロンプト変更履歴」「ツール実行権限」「人間レビューの条件」「出力の説明可能性」を加えます。

ISO/IEC 42001: AI マネジメントシステム標準

7 つの要件: Context of organization、Leadership、Planning、Support、Operation、Performance evaluation、Improvement。

実装チェックリスト: AI リスク方針の文書化、品質管理の組み込み、定期的なコンプライアンス監査、インシデント報告・対応メカニズム、ステークホルダーへの透明性情報開示。

規制フレームワーク：EU AI Act

リスク分類: 禁止（顔認識監視、ディープフェイク）、高リスク（採用判定、与信判定、犯罪予測）、低リスク（推奨システム、チャットボット）。

高リスク AI の義務: データガバナンス、説明可能性、人間による監視、監査用ログ保存（2年間）。

透明性と説明可能性（XAI）

SHAP（SHapley Additive exPlanations）: ゲーム理論に基づく帰属値の計算。TreeExplainer でツリーベースモデルの高速計算。計算複雑度 O(2^n) で大規模問題では近似必要。

Feature Attribution と Saliency Maps: Grad-CAM で画像分類モデルの “どこを見ているか” を可視化。ターゲットクラスへの勾配でアテンションマップを生成。

モデルカード（Model Card）: モデルの性能、制限事項、用途、バイアスを標準化フォーマットで公開。透明性と再現性向上。

work](https://www.w3.org/ai/)

解説・補助

[OECD

リスク分類フレームワーク（NIST & EU AI Act）

高リスク AI の特徴: 個人の基本的権利に影響（採用判定、ローン承認、警察の行動判定）。バイアスまたは不透明な判定が重大な害をもたらす。

リスク評価マトリックス:

Impact（影響度）: Minimal, Moderate, Significant, Severe
Likelihood（発生確度）: Very Low, Low, Medium, High
Risk Level = Impact x Likelihood

バイアス検出と軽減

バイアスの種類:

Statistical Bias: 予測値と真値の系統的偏差
Algorithmic Bias: 特定グループに不公正（性別、人種）
Dataset Bias: 学習データが母集団を代表していない

検出手法:

Demographic Parity: P(Y_pred=1|A=0) ≈ P(Y_pred=1|A=1)
Equalized Odds: TPR と FPR がグループ間で等しい
Predictive Parity: Precision がグループ間で等しい

軽減策:

Pre-processing: 学習データを再重み付け（Protected attribute のバランス）
In-processing: Fair learning（Fairness制約を損失関数に組み込み）
Post-processing: 予測値を調整

プライバシー保護技術

差分プライバシー（Differential Privacy）: 個人情報を含む学習データで学習しても、単一サンプルの有無が結果に影響しないよう保証。

ノイズ追加で privacy budget を消費。budget ε（小さいほどプライバシー強）とδで制御。

Federated Learning: 中央サーバーにデータを送らず、各デバイスで局所学習。勾配のみ共有。Google Keyboard Prediction で活用。

監視と継続的改善

Model Monitoring: 本番モデルの精度、バイアス、推論遅延を監視。Concept Drift（クラス分布変化）検出で自動再学習トリガー。

A/B Testing: 新モデルと既存モデルを小規模トラフィックで比較。有意性テストで改善確認後、段階的ロールアウト。

ステークホルダー分析とコミュニケーション

AI システムの影響を受ける群体：ユーザー、対象者（個人）、開発者、運用担当者、規制当局。各グループの懸念・要求を把握。

影響度-関心度マトリックス: High Impact & High Interest は緊密関与必要。

ドメインスペシフィック AI ガバナンス

医療 AI: FDA 承認プロセス。臨床試験の厳密性。医学的検証。

金融 AI: 規制資本要件（Pillar 3 報開示）。説明可能性義務。

採用 AI: Equal Employment Opportunity Commission（EEOC）チェック。性別・人種による差別禁止。

インシデント対応フレームワーク

AI システム障害時の対応手順。Root cause analysis、影響範囲、修正、検証、ロールアウト。事前定義の escalation path。

Incident review: 類似障害の再発防止。組織学習。

AI倫理原則の国際的な枠組み

Fairness、Transparency、Accountability、Privacy が共通原則。組織・地域で詳細は異なる。

AI Audit と Third-party Assessment

独立監査人による AI システム監査。設計、学習データ、評価、デプロイメントを検査。

外部専門家による bias/safety 検証。透明性と信頼性向上。

AI Insurance と Liability

AI システムによる損害賠償を保障。製造物責任と同様の法的枠組み。

保険料は risk profile（業種、モデル精度、監視体制）に基づく。発展途上分野。

Explainability Requirements（解釈可能性要件）

EU AI Act では high-risk AI に説明義務。個人が自分の決定に対する理由を知る権利。

Counterfactual explanation: "もしこの特徴が X なら……"形式で alternative を示す。

SHAP、LIME、Saliency Map などを使うと、モデルの判断に影響した特徴を説明しやすくなります。

リリース前の確認点

このAIはどの判断に影響するか
誤りの被害は誰に出るか
人間が介入できるか
ログと評価は残るか
モデル更新時に再評価されるか
ユーザーへ必要な説明があるか

まとめ

AI安全性とガバナンスは、後付けで追加する付属機能ではありません。評価、リリース判断、監視、改善の中に組み込むことで初めて実効性を持ちます。

主要な参照点:

NIST AI RMF (2023) の Govern / Map / Measure / Manage の4機能を組織プロセスに対応付ける
EU AI Act のリスク階層 (Unacceptable / High / Limited / Minimal) でユースケースを分類
ISO/IEC 42001 で AI Management System (AIMS) を ISO 27001 と類似の枠組みで運用
評価指標は単なる accuracy ではなく fairness (Demographic Parity, Equal Opportunity) と robustness (adversarial test) を併用

参考文献

公式・標準

Generative AI Profile
ISO/IEC 42001: Artificial intelligence management system
NIST AI Risk Management Framework
NIST AI RMF 1.0 publication
NIST Generative AI Profile
[W3C Generative AI and accessibility

AI安全性とガバナンス

目次

概要

精度が高いだけでは、安心して使えるとは限らない

この章で重視すること

主な論点

リスクの分解

AIライフサイクル

評価

Human-in-the-loop

Privacy

Security

Governance artifacts

リリース判断

NIST AI RMFで見るリスク管理

生成AI特有の論点

リスク受容と停止条件

監査可能性

ガバナンスを運用に落とす

AI安全性の実装フレームワーク

NIST AI Risk Management Framework

AI の公平性（Fairness）テスト

Explainability と Interpretability

規制とコンプライアンス

EU AI Act（2024年施行）

GDPR とのインタラクション

AI セキュリティ脅威

Adversarial Attack と Defense

モデル抽出攻撃

Data Poisoning

ベストプラクティス

AI System Card

Responsible AI Checklist

AI安全標準の国際化

ISO/IEC 標準化の進行

NISTのAI Risk Management Framework

OECD AI Principles

W3C Web Content Accessibility Guidelines (WCAG)との連携

AI 倫理と社会的インパクト

バイアス検出と軽減

説明責任と透明性

プライバシー保護: Differential Privacy

AI ガバナンスの実装

チェックリスト型アプローチ

AI Ethics Board

継続的監視と Drift 検出

NIST AI RMFを運用に落とす

ISO/IEC 42001: AI マネジメントシステム標準

規制フレームワーク：EU AI Act

透明性と説明可能性（XAI）

解説・補助

リスク分類フレームワーク（NIST & EU AI Act）

バイアス検出と軽減

プライバシー保護技術

監視と継続的改善

ステークホルダー分析とコミュニケーション

ドメインスペシフィック AI ガバナンス

インシデント対応フレームワーク

AI倫理原則の国際的な枠組み

AI Audit と Third-party Assessment

AI Insurance と Liability

Explainability Requirements（解釈可能性要件）

関連技術とエコシステム

リリース前の確認点

まとめ

参考文献

公式・標準