・1章 はじめに
次元の呪い
 d次元単位超立方体の頂点までの距離は√dなので、
 次元数が大きくなると空間の大きさが飛躍的に大きくなる。

・2章 識別規則と学習法の概要
学習/テストデータの作り方
 ホールドアウト法
  データを学習データとテストデータに分割
 クロスバリデーション法
  データをm個のグループに分割し、そのうちの1つをテストデータにする。これを繰り返す。
 ブートストラップ法
  復元抽出でバイアスを推測する
  bias = ε(N*, N*) - ε(N*, N)
  ε = ε(N, N) - mean(bias)
バイアス・分散トレードオフ
 分散が大きい=overfitting

・3章 ベイズの識別規則
ベイズの定理
 P(Ci|x) = p(x|Ci) / p(x) * P(Ci)
 事後確率 = クラス条件付き確率 / 周辺確率 * 事前確率 = 修正項 * 事前確率
ROC曲線
 横軸が偽陽性率、縦軸が真陽性率。
 偽陽性率:本来は偽のものを真と推定してしまう確率。
 真陽性率:真のもののうち真と推定できた確率。
 事前確率や損失を基に等損失直線とROC曲線の接点(最適動作点)を求めることができる。
その他性能評価値
 precision(適合率):真と推定したもののうち、実際に真である確率。
 recall(再現率):真陽性率。これを高くするしようとすると、false positiveが増える。
 F値:precisionとrecallの調和平均。

・4章 確率モデルと識別関数
共分散行列:各次元の組み合わせについての共分散を要素とする行列
無相関化
 共分散行列を対角化するような線形変換を施す。
 このような線形変換は共分散行列の固有ベクトルを並べたベクトルである。
マハラノビス距離:分布の広がり方を考慮に入れた距離
正規分布の識別関数
 クラス条件付き確率が正規分布だと仮定し、ベイズの定理より、事後確率を求める。
 識別境界として、事後確率が等しくなる点の軌跡を算出すると二次曲面となる。
 ただし、2クラスの共分散行列が等しい場合、線形識別関数となる。

・5章 k最近傍法
ボロノイ境界:2つのデータを結んだ直線の中心を通り、直交する超平面
kNN法:最近傍のtemplateをk個取得し、もっとも多く所属するクラスに識別する

・6章 線形識別関数
最大識別関数法:K個の線形識別関数を用意し、関数値が最大のクラスを識別クラスにする
正規方程式
 データの識別関数値と教師データの差の二乗和(t-Xw)'(t-Xw)=t't-2t'Xw+w'X'Xwを考える
 これをwで微分すると-2X't+2XTXw=0となり、w=(X'X)^-1X'tとなる。
フィッシャーの基準(線形判別分析)
 クラス内変動が小さく、クラス間変動が大きくなるようなパラメータwを求める
 w∝Sw^-1(μ1-μ2) ただし、Sw=S1+S2。Sk^2=Σ(yi-mk)^2。mk=w'μk
判別分析法
 クラス間分散/クラス内分散を最大化する。大津の方法は判別分析法の応用。
ロジスティック回帰
 線形識別関数の一種で目的変数が2値のときの認識法
 ベイズの定理における事後確率はもともとシグモイド関数の性質を持っている。
 シグモイド関数のaの部分を近似するようなwx+w0のwを求める。
 目的変数が2値なので、その確率はベルヌーイ試行で表せる。
 多クラスの場合はシグモイド関数ではなく、ソフトマックス関数を用いる。