今日も異常検知をやっていくわよ!
前回はホテリング理論(1次元編)をやったので,今回は多次元ホテリング理論をやっていきたいところだが,
その前段階として多次元正規分布との和解を果たしていくことにする.
次元の正規分布は以下のように書ける.
記号がたくさん出てきて生きづらくなってしまったので,下の1次元正規分布と見比べることで理解あるオタクくんになっていこう.
まず,係数と和解をしていこう.
係数はホテリング理論の異常値の計算では無視する部分なので,正直あまり気にする必要はない.
の部分は次元なので乗しているという理解で許してはもらえないだろうか.この辺の理解は統計検定2級取る時に本気出すので.
また,分散は多次元正規分布では共分散行列の行列式に置き換えられている.
次元が多くなったので,次元間の相関関係も考慮すべきになったからである.
次に,の中身である.
は1次元でも多次元でも共通なので助かるわね.
次はの部分だ.
は共分散行列の逆行列だ.気持ちとしては共分散行列で割っているのと同じ感じ.
つまり1次元正規分布のの中の分母のと対応する.
ならばはと対応しているかと思うだろうが,その通りである.
具体例を挙げて考えてみよう.
人の人間の身長体重などのデータを考える.
はの行列(ベクトル)であり,は番目の人の体重を表している.
といった具合である.平均は各次元のそれぞれの平均のベクトルだ.
例えばは人の体重の平均を取ることで求められる.
次はだが,これはそれぞれの平均との差を取っているだけである.
は転置だ.
この操作によって行列となる.最後にだが,行列と行列の内積なのでサイズはとなる.
さて,ここまでつらつら書いてきたが,完全に理解出来ただろうか?
私も書いていて理解出来そうで理解出来なくて気絶しそうになっているが,とにかくこういうことなのだ.
さて,今までを「分散で割っているお気持ち」とぼかして書いてきたが,ここと和解しよう.
上のの計算結果をそれぞれの分散で割ってみよう.
はぇ~と感心してしまう.こう書けることは頭の良い人が考えたので,下賤の民たる私はこの結果をありがたく使わせてもらうのみである.
さて,元の数式に大分近づいてきたわね.
ここで,行列は対角成分がそれぞれの分散から成る行列で,それ以外の部分がの行列である.
それ以外の部分がじゃない場合が共分散行列であり,の対角成分以外の成分が共分散である.
例えばは体重と身長の共分散だ.
さて,対角成分のみに非ゼロの値が入っている行列であればその逆行列を求めるのは簡単であった.各成分を乗するだけだ.
対角以外にも成分が入っているの逆行列は簡単には解けないが,共分散成分が入っている点を頭に入れておけば良いだろう.
さて,上で求めたに共分散を計算に付け加えると,以下のようになる.
このように共分散の項を付け加えた数式を改めて行列形式で書くと,となるという話である.
行列形式と書き下した数式を行ったり来たりして逆に混乱させてしまったかもしれないが,行列形式はなどの数式をスッキリ書きたい場合に便利である.