第5章(2)

復習:ベイズ決定則

次のような判別関数が使えた
g_i(x)=\frac{p(x|w_i)p(w_i)}{p(x)}
g_i(x)=p(x|w_i)p(w_i)
g_i(x)=\log p(x|w_i)+\log p(w_i)

学習パターンによる判別関数の生成

最尤法による推定

各コインの含有確率(p(ω))はわかっているが、各コインの表が出る確率(θ)はわからない。というケースを考える。
最尤法は、「最もおこるであろうことが起こったとする」考え方。
P_n(x;\theta)=_nC_x\theta^x(1-\theta)^{n-x}
例)10回投げて7回表が出たら、P_{10}(x=7;\theta)=_{10}C_7\theta^7(1-\theta)^3
これをθの関数と考えて、最も起こったであろうこと=θが最大のときのθを求めると


P_n(x;\theta)=_nC_x\theta^x(1-\theta)^{n-x}

\log P_n(x;\theta)=\log _nC_x + x\log \theta + (n-x) \log (1-\theta)

\frac{d}{d\theta}\log P_n(x;\theta)=\frac{x}{\theta}-\frac{n-x}{1-\theta}=0

\hat{\theta}=\frac{x}{n}

xとP10(x;θ)の関係は下のようになる。

1次元の正規分布について(演習とか)

X={x1,x2,x3,...,xn}のn個の学習パターンがあるとする。
P_n(x;\theta)=\frac{1}{\sqrt{2\pi}\sigma} \exp \left[ -\frac{1}{2}\frac{(x-m)^2}{\sigma^2} \right]であり
P(X,\theta) = \prod_{k=1}^n p(x_k;\theta)を最大にするθ(m,σ^2)を求めることになる

多次元について

テキストP.50式(4.8)以降参照


[3]
Σ1=Σ2=Σ0=σ^2I(単位行列)のとき

全てのクラスの事前確率が等しい。最小距離識別になってしまう。
g_i(x)=-\frac{\begin{Vmatrix} \mathbf{x}-\mathbf{m}_i \end{Vmatrix}^2}{2\sigma^2}+\log p(\omega_i)
定数を取り除けば
g_i(x)=-\begin{Vmatrix} \mathbf{x}-\mathbf{m}_i \end{Vmatrix}^2