どうも~ちょげです。
ディープラーニングでは、データを訓練用とテスト用に分割するのを知っていますか。
データをわざわざ分割するのって、手間が増えるだけじゃないの?と思う方もいると思います。
しかし、データを分割するのにはちゃんとした訳があります。
今回は、その理由について解説します。
汎化能力
分割する理由は、AIに汎化能力を持たせるためです。
汎化能力とは、簡単に言うと学習に使われなかったような多様なデータに対応できる能力です。
例えば、よく手書き文字の話が用いられるのですが、手書きの文字には人それぞれのクセがあります。
ある特定のクセばかりのデータを学習させてしまうと、そのクセの文字とは全く異なる文字が来たときに対応できなくなってしまう可能性があるのです。
ディープラーニングで用いたデータに、手書き文字のクセのような何かしらの偏りがあったりすると、学習に支障が出てしまうのです。
そこで、ディープラーニングでは、訓練データで学習をして、テストデータでニューラルネットワークに「偏った学習していない?」とテストするのです。
訓練とテストに分割することによって、様々なデータに対応する汎化能力が身につくのです。
まとめ
訓練データとテストデータに分割する理由について解説しました。
分割するのは、簡単にまとめると「学習の偏りをなくすため」です。
少しでも参考になれば嬉しいです。
参考になった本
ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装 | 斎藤 康毅 |本 | 通販 | Amazon
Amazonで斎藤 康毅のゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装。アマゾンならポイント還元本が多数。斎藤 康毅作品ほか、お急ぎ便対象商品は当日お届けも可能。またゼロから作るDeep Lea...
コメント