どうも、ちょげです。
ディープランニングでは、SGD(確率勾配降下法)という重みパラメータの更新方法があります。
SGDは一般的なパラメータの更新方法なのですが欠点があります。
ゴールを目指しているとは限らない

その欠点は、必ずしも最適な重みパラメータを目指しているとは限らないという点です。
どういうことかというと、SGDでは「勾配」を元に「損失関数」の最小値を目指して、パラメータを更新する方向(プラスかマイナスか)を決めます。
この勾配とは、ある地点から見た最も値が小さくなる方向です。
SGDの勾配は、損失関数の最小値の方向を示します。
しかし、重要なのは勾配は「ある地点から見た最小値」を示すという点です。
例えば、波のような上がったり下がったりする関数があったとします。
すると、勾配は次のような矢印になります。

手書きで汚いのは申し訳ないのですが、まずこのグラフの最小値はDです。
しかし、AとCの間ではBが最小値のように見えるので、本来の最小値Dとは異なる点Bを指してしまいます。
AとCの間からこのグラフを使った学習をした場合には、間違った点Bを学習のゴールにしてしまうので、本当に最適なパラメータにすることが出来ないのです。
まとめ
今回はSGDの欠点について解説しました。
SGDの欠点は勾配が上手く働かない場合があるという点です。
読んでいただきありがとうございました。
少しでも参考になれば嬉しいです。
参考
Bitly
コメント