A Survey of Methods For Explaining Bloack Box Modelsを読んだ

スポンサード リンク

機械学習モデルの解釈可能性に関する,サーベイ論文として重要な [1802.01933] A Survey Of Methods For Explaining Black Box Models - https://arxiv.org/abs/1802.01933 を読んだのでメモ。

Abstract

  • 多くの意思決定システムはブラックボックスであり,ユーザにとって内部ロジックは不明
  • 解釈可能性を向上させる研究は,下記の3つに応じて多数ある
    • 問題の定義
    • ブラックボックスのアルゴリズム
    • 望まれる「説明」の定義
  • 本サーベイ論文では上記の3つに応じてた研究をまとめる

1 Indtroduction

  • 分類・回帰にかかわらず,学習データを作った人間のバイアスがモデルに反映され,誤った推論・意思決定をする可能性がある
  • GDPR(EU一般データ保護規則)では,自動化された意思決定システムにおいて,ロジックについて説明を受ける権利が規定されている [1]
    • 与信審査,雇用,保険契約などにおいて,偏見や差別のない構成で透明性のある処理を実現するため
  • 自動運転や医療の個人最適化など,信頼性が求められるタスクでも,データの偏りによる誤推論のリスクがある
  • 故にブラックボックスモデルを解釈する研究が求められている

    • モデルを説明するものと,推論結果を説明するもの
  • 残りの節では下記を議論する

    • 3: 解釈性とは何か
    • 4: カテゴライズするための問題定義
    • 5-9: 先行研究の紹介
    • 10: まとめ

[1] EU一般データ保護規則 (GDPR) とデータサイエンス – Cloudera Japan Official Blog - https://blog.cloudera.co.jp/eu%E4%B8%80%E8%88%AC%E3%83%87%E3%83%BC%E3%82%BF%E4%BF%9D%E8%AD%B7%E8%A6%8F%E5%89%87-gdpr-%E3%81%A8%E3%83%87%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%82%B9-39d03f775f59

2 Needs for Interpretable Models

  • 実際に解釈可能性が必要になるケースを紹介する
    • 社会的に問題
      • 採用面接の対象者選定: 女性や人種的マイノリティが排除
      • 犯罪の常習性: 黒人が倍に
      • Webテキストからの感情分析: 黒人系の名前が出現すると否定的な感情に分類するモデル
      • Amazon.comの無料お急ぎ便クーポン: 人種的マイノリティが除外
    • 学習データの偏り
      • 友軍と敵軍戦車の画像分類: 敵軍は曇り,友軍は晴れの日の写真が多いいため,低汎化性能
      • 狼とハスキー犬の画像分類: 背景の雪を根拠に狼と分類していた
    • 攻撃
      • ホワイトノイズに見える画像を,DNNにトマトと分類させた研究
      • 人間にはわからないが,DNNのテキスト分類結果を騙す摂動を加えた研究
  • これらは学習データの偏りを反映したもの

3 Interpretable, Explainable and Comprehensible Models

  • 解釈可能なモデルとは何か示す

3.1 Dimensions of Interpretability

  • 解釈性を分類する指標には,次の3つがある
    • 大域的・局所的 (Global/Local) 解釈性
      • 大域的: すべての入力データについてモデルの振る舞いを解釈
      • 局所的: 特定の入力データ(推論結果)についてモデルの振る舞いを解釈
    • 計算時間
      • ユーザが解釈を閲覧して,直ちに決断する(災害対応など)か,時間的余裕があるか
    • ユーザの専門性
      • モデルが解くタスクに,ユーザが知識を持っているか
      • Domain expertsならば複雑・詳細なモデルの説明を好む。素人ならばシンプルなモデルの説明が良い

3.2 Desiderata of an Interpretable Model

  • 解釈可能なモデルに対する3つの要求

    • 解釈性(Interpretability)
      • モデルや推論結果を人間が理解できるか
      • 指標はモデルサイズ(モデルの複雑性)
      • 理解可能性(Comprehensibility)とも
    • 精度
      • 新しいデータを解釈可能なモデルが正しく分類できるか
      • 指標は,テストデータに対するaccuracyやF1スコアなど
    • 忠実性
      • 説明対象のブラックボックスモデルの再現性。
      • 指標は,ブラックボックスモデルをオラクルとしたaccuracyやF1スコアで定義
  • 倫理的観点からは,下記も大事な指標

    • 公平性
      • 特定グループへの意識的・無意識的な差別
    • プライバシー
      • モデルから個人情報の流出
  • 人間に信用されるモデルとしてはusabilityも大事
    • 固定的なモデルよりも,クエリによって振る舞いの変わる柔軟場モデルのほうが,情報量が多いので人間は有用とみなす

3.3 Recognized Interpretable Models

  • 決定木,decision rule,線形モデルは解釈可能とみなされている
    • 決定木はif-then形式で記述可能
      • if condition1 ∧ condition2 ∧ condition3 then outcome.
    • decision ruleは一般化された,classification ruleからなるもの
      • 決定木の形式にこだわらないif-then
      • m-fo-n rule: n個のルールのうち,m個が満たされたら真
      • list of rule:
      • falling rule lists:
      • decision sets:

3.4 Explanations and Interpretable Models Complexity

  • モデルサイズ
    • 決定木: ノード数
    • 線形モデル; 変数の数

3.5 Interpretable Data for Interpretable Models

  • Table形式のデータであれば人間も解釈しやすい
    • ベクトル形式のデータにそのまま対応しているので機械学習と親和性高い
  • その他には画像とテキスト
  • 時系列データなどの例は無い

4 Open The Black Box Problems

  • 解釈可能なモデルを作るアプローチは2つ

    • ブラックボックスモデルをリバースエンジニアリングする
    • 最初から解釈可能なモデルをデザインする
  • リバースエンジニアリングでは,ブラックボックスモデルの学習に使ったデータ・セットは利用不可能な事が多い

  • 4つの問題を定義

    • black box model explanation problem
      • 大域的に解釈可能なモデルで近似する
    • black box outcome explanation problem
      • 推論結果とともにその理由を示す。局所的な解釈性させあれば良い
    • black box inspection problem.
      • ブラックボックスモデルの感度分析
    • transparent box design problem
      • ブラックボックスモデルとは無関係に,最初から解釈可能なモデルを作る

5 Problem And Explanator Based Classification

Comments !

social