機械学習では基本的にデータを標準化します。
ここでは、なぜデータを標準化しなければいけないのかについて解説します。
そもそも標準化とは
そもそも標準化とは何なのかですが、ざっくりいうと平均からの離れ具合を単位に関係なく理解できるようにする処理です。
例えば、体重を測ったとします。
体重の平均が60kgだったとします。
この時、80㎏の人が平均からどのくらい離れているか知りたい場合に、その差が20㎏だと言われても、データのばらけ具合によって20㎏が大した事ないのか、ちょっとやばいのか分かりにくいです。
そこで、データのばらけ具合を表わす標準偏差を使って、20㎏の離れ具合を分かりやすくするのです。
これが標準化です。式としてみると次のような感じです。
N:標準化、S:標準偏差、x:測定値、M:平均値
式から標準化を解釈すると、標準偏差を目盛りにして平均との差を測っているように解釈できます。
因みに身近な標準化を用いる例を挙げると偏差値です。
偏差値がそのテストでの難易度に関係なく自分の位置を把握できるのは標準化のおかげです。
なぜ機械学習で使うのか
では、なぜ機械学習で標準化を使うのかというと、機械学習で用いるアルゴリズムが様々な単位を考慮していないからのようです。
例えば、体重60kgと身長170cmのように、単位がkgかcmでは数値の桁が違います。
ここで、単位を考慮していないアルゴリズムを用いれば、身長と体重のように、そもそも単位によって桁が違うレベルの場合もあるわけですから当然学習に問題が起こります。
そこで、標準化を行うことによってデータの単位を関係無くし、学習をしやすくするのです。
まとめ
- ・標準化とは単位に関係なくデータを解釈できるようにする処理
- ・機械学習のアルゴリズムはデータの単位を考慮しない
- ・データを標準化によって単位に関係なくする
コメント