機械学習を使った異常検知の仕組みと方法一覧

機械の故障を検知・推測するために「機械学習」を活用することで異常検知をする事例も増えてきました。そこで異常検知によく使われる仕組みや手法、機械学習の学習モデルを紹介します。

異常検知とは

異常検知は、データセット中の他のデータと一致していない観測結果、期待されるパターンなどについてデータマイニングを利用して識別することを指します。異常検知でいう異常とは、通常の動作として明確に定義された概念に準拠しないデータパターンのことです。また、異常検知の種類のひとつに外れ値検知があります。外れ値検知は、正常時の状態から外れた点を見つけ出すため、機械学習を使った異常検知に使われることも多いものです。

異常検知の仕組みや手法一覧

異常検知は、目的に合わせて手法を選択する必要があります。代表的な手法は、外れ値検知・異常部位検出・変化点検知の3つです。ここではそれぞれの手法について詳細にみていきます。

外れ値検知

検出単位がデータ点の検知方法となり、普段では考えられないようなデータ点を検知する場合に用いられる手法です。例えば、株価指数などに外れ値検索を適用することで、急激な株価指数の値上がり、下落を自動的に検知し、アラートを発生させることができます。

異常部位検出

検出単位が部分時系列の検知方法で、明らかな異常が起きている部分時系列を検出する際に用いられる手法です。例えば、心拍数のデータから異常部位（急激な心拍数の変動部分）のみを抜きだしたいときなどに異常部位検出が使用されます。

変化点検知

検出単位は、時系列データのパターンが急激に変化する箇所を検知するために使用される手法です。例えば、ある特定のワードなどは、検索数の推移などはを調べてみると、ある時期を境に異常に多くなることがあります。この場合のある時期を検知できる手法が変化点検知です。

機械学習の学習モデル

異常検知のモデルを考える場合に、これから紹介する5つの機械学習モデルについて、それぞれの特徴や違いを知る必要があります。理由としては、異常検知のシステムを作成する際に、どのモデルを機械学習に使用するかの選択肢が幅広いため、作成したい異常検知のシステムにあったモデルを選択しなければならないためです。では、それぞれの機械学習のモデルについてみていきましょう。

教師あり学習

教師あり学習は、学習処理と判定処理の2つのプロセスに分かれるのが特徴です。学習プロセスに関しては、大量の学習データにラベル（正常・不良の判定）を付けたうえでAIに学習させます。学習は一回で済むわけではなく、人間のように何度もトレーニングを繰り返しながら認識精度を高めていきます。そして、正常・異常の判定が目標とする精度に到達した段階で訓練終了です。

判定プロセスでは、訓練が終わった学習済モデル（分類機）を異常検知システムに採用し、検査対象を読み取り、正常・不良を判定します。そのため、教師あり学習モデルには、ラベルを付けて事前訓練を行う学習プロセスがあるといえるでしょう。

教師なし学習

教師なし学習も事前に学習を行う点は、教師あり学習と同様です。教師あり学習との違いは、ラベルを付けずにひたすら大量のデータを読み込むことにあります。最終的に、大量のデータを読み込むことで、AIが自律的にものを認識するようになるのが特徴です。

半教師あり学習

半教師あり学習は全てのデータではなく、少量のデータにラベルを付けることでラベルなしデータを生かすための学習モデルです。混合ガウスモデル、ブーストラップ法などのアルゴリズムが存在し、基本的にはラベル付きデータのみでは疎かになる部分に関して、ラベルなしデータが補足するという考えとなります。正常なデータのみを学習する方法が用いられることが、異常検知では多くあり、これを半教師学習と呼ぶこともあります。

強化学習

AIが報酬を獲得するため、自発的に学んで賢くなるのが強化学習の特徴です。例えば、試行錯誤の末に最大化した利益を獲得するなどの方法は強化学習にあてはまります。異常検知ではあまり用いられる機会が少ないものの、株取引などでは特に活躍しているアルゴリズムとなります。

生成モデル

生成モデルはデータをもとにオブジェクトをつくることが特徴です。そのため、新規性や外れ値の検出でき、データをサンプリングすることができます。異常検知においては、正常データだけを学習するケースにおいて重要な役割を果たしています。

機械学習を使った代表的な異常検知方法

機械学習による異常検知の手法としては、ホルテリング理論、k近傍法、単純ベイズ法の3つが代表的です。それぞれの手法の特徴について紹介していきます。

ホテリング理論

ホテリング理論は、統計モデルに基づく手法です。異常検知において、人の主観に左右されずに異常データを見つけるため、統計的モデルを使用することで客観的な評価を可能にしています。そのため、ホテリング理論は異常値を検出する場合の、最も基礎的な方法として知られています。

k近傍法

k近傍法は機械学習のアルゴリズムの1つで、最も簡単な機械学習のアルゴリズムです。異常検知を行うデータが多数のクラスターからなる場合、ホテリング理論では異常値を取り除けません。そのため、確率分布を明確に仮定せず、各店から最も近いデータへの距離を計算し、異常値を検知する最近傍法がよく使われています。この点を最も近い点の代わりに2、3番目に近い点までの距離を用いることも可能です。これらをまとめてk近傍法と呼びます。時系列データの外れ値を検知に対して、k近傍法を適用することができます。

単純ベイズ法

単純ベイズ法は、ベイズの定理をもとにしたアルゴリズムです。ベイズの定理は機械学習のタスクで、データセットが与えられたとき、それをもとにしたいくつかの推定がある場合にどの推定が最もらしいか判断するときに使用します。このベイズの定理をもとにしている、単純ベイズ法では、データが与えられた場合、全ての推定の確率を計算しながら、最も確率の高いものを推定結果として出力するのが特徴です。単純ベイズ法では、データから抽出される特徴を表す特徴量は独立しており、互いに相関はないと仮定してます。そのため、各特徴量が独立して推定結果に影響することを表しているといえるでしょう。