ホテリングのT^2法メモ

今年に入ってからずっと強化学習の勉強をやっていたのだが，会社より異常検知を完全に理解しろという命令が来たのでやっていくことにする．

まずはホテリングの $T^2$ 法と和解を行う．

ホテリングの $T^2$ 法は古典的な異常検知手法である．
データ ${\mathcal D}=(x_1, x_2, \ldots, x_N)$ が正規分布に従っていると仮定して，データ $x^{'}$ の異常度 $a (x^{'})$ を以下のように定義する．

$\displaystyle a ( x^{'} ) = \frac{(x-\hat{\mu})^2}{\hat{\sigma} ^ 2}$

ここで $\hat{\mu}$ 及び $\hat{\sigma} ^ 2$ はそれぞれ標本平均と標本分散である．
異常度は平均値からの距離（の二乗）を表していることが分かる．
平均値から離れるほど異常度が大きくなっていくということだ．

分散で割っているのはバラつきの大小を考慮するのが目的だろう．

ポンチ絵を描くと下みたいな感じ．
f:id:Yuri-Processing-Club:20220122202304p:plain
データは正規分布に従っているので， $\mu$ を中心にした左右対称の山のような形だ．
$\mu$ 付近にデータが多く現れ， $\mu$ と離れるほどその出現頻度は低くなる．

$\mu$ からの距離は $|x-\mu|$ で表される．
距離を二乗している理由は，異常度は正規分布 ${\mathcal N}(\mu, \sigma^2)$ の自然対数を取って式変形をしているためである．

$\displaystyle {\mathcal N}(\mu, \sigma^2) = \frac{1}{\sqrt{2 \pi \hat{\sigma}^2}}\exp{ \Biggl( - \frac{(x-\hat{\mu})^2}{2\hat{\sigma} ^ 2} \Biggr) }$

これの自然対数を取って，不要な項や係数を削除することで異常度を定義している．

また，二乗することは外れている値をより重視することでもある．
$\mu=3$ ， $x=1$ ならば， $|x-\mu|=2$ 及び $(x-\mu)^2=4$ である．
$\mu=3$ ， $x=10$ ならば， $|x-\mu|=7$ 及び $(x-\mu)^2=49$ である．
距離が2倍になれば，異常度は4倍になるということである．

さて，異常度の分布はどのようになるだろう．
データは，平均 $\mu$ 付近に多く分布している．
$\mu$ に近いデータはその異常度は $0$ に近い値となる．
そして，異常度が大きいデータほど出現頻度が低くなる．

ポンチ絵を描くと下のようになる．
f:id:Yuri-Processing-Club:20220122204757p:plain

さて，異常度 $a$ の分布は自由度 $1$ ，スケール因子 $1$ のカイ二乗分布に従うそうなのだ．
カイ二乗分布はガンマ関数が出てきたりして非常に複雑な式で表されるが，その辺を理解する必要はあまり無くて，結果のみを利用する．

さて，異常検知を行うにあたって，「異常度がいくら以上になったら異常である」と言いたいので，この閾値 $a_{\rm th}$ を決定したい．
閾値の決め方については，異常度の出現確率を基準にする．
$\alpha$ の確率（例えば $\alpha=0.01$ や $\alpha=0.03$ など）でしか出ない異常度が出てしまったら，異常と判断しよう．
$a_{\rm th}$ 以上となる確率 $\alpha$ は自由度 $1$ ，スケール因子 $1$ のカイ二乗分布の確率密度関数 $\chi^2(a | 1, 1)$ から，

$\displaystyle \alpha = \int_{a_{\rm th}}^{\infty} \chi^2(a | 1, 1)da$

で求められる．ポンチ絵は以下だ．

f:id:Yuri-Processing-Club:20220122210610p:plain
これの水色の斜線部の面積が確率 $\alpha$ である．
しかしながら今回求めたいのは確率が例えば $\alpha=0.01$ の時の $a_{\rm th}$ であり，上記の積分を逆側に解くような感じである．