[ディープラーニング]訓練データとテストデータに分割する理由

AI

ディープラーニングでは、データを訓練用とテスト用に分割するのを知っていますか。

データをわざわざ分割するのって、手間が増えるだけじゃないの？と思う方もいると思います。

しかし、データを分割するのにはちゃんとした訳があります。

今回は、その理由について解説します。

2021.02.28

どうも～ちょげです。

ディープラーニングでは、データを訓練用とテスト用に分割するのを知っていますか。

データをわざわざ分割するのって、手間が増えるだけじゃないの？と思う方もいると思います。

しかし、データを分割するのにはちゃんとした訳があります。

今回は、その理由について解説します。

スポンサーリンク

目次

汎化能力
まとめ
参考になった本

汎化能力

分割する理由は、AIに汎化能力を持たせるためです。

汎化能力とは、簡単に言うと学習に使われなかったような多様なデータに対応できる能力です。

例えば、よく手書き文字の話が用いられるのですが、手書きの文字には人それぞれのクセがあります。

ある特定のクセばかりのデータを学習させてしまうと、そのクセの文字とは全く異なる文字が来たときに対応できなくなってしまう可能性があるのです。

ディープラーニングで用いたデータに、手書き文字のクセのような何かしらの偏りがあったりすると、学習に支障が出てしまうのです。

そこで、ディープラーニングでは、訓練データで学習をして、テストデータでニューラルネットワークに「偏った学習していない？」とテストするのです。

訓練とテストに分割することによって、様々なデータに対応する汎化能力が身につくのです。

まとめ

訓練データとテストデータに分割する理由について解説しました。

分割するのは、簡単にまとめると「学習の偏りをなくすため」です。

少しでも参考になれば嬉しいです。

参考になった本

タイトルとURLをコピーしました