AIや機械学習のモデルを動かしていると、突然エラーが出たり、計算結果が「NaN(Not a Number)」や「inf(無限大)」になったりすることがあります。
これらの多くは、オーバーフローやアンダーフローという数値計算の問題が原因なんです。
簡単に言うと:
- オーバーフロー:数が大きすぎて、コンピュータが扱えなくなる
- アンダーフロー:数が小さすぎて、0として扱われてしまう
例えるなら、計算機のディスプレイが「99999999」までしか表示できないのに、それより大きな数を計算しようとする状態です。
AIの学習では、数値計算を何千回、何万回と繰り返します。その過程で数値が極端に大きくなったり小さくなったりすると、正常に動作しなくなってしまうんですね。
この記事では、オーバーフローとアンダーフローの基礎から、AIでよく起こる場面、そして対策方法まで、初心者の方にも分かりやすく解説していきます。
コンピュータの数値表現の基礎

まず、コンピュータがどうやって数を扱っているか理解しましょう。
整数と浮動小数点数
コンピュータで数を表現する方法は、主に2種類あります。
整数型(Integer):
- 小数点がない数
- 例:1, 100, -50
- 表現できる範囲が決まっている
浮動小数点数型(Floating Point):
- 小数点がある数
- 例:3.14, 0.001, -123.456
- AIや機械学習で主に使われる
AIの計算では、ほとんどの場合浮動小数点数を使います。
浮動小数点数の仕組み
浮動小数点数は、次のような形式で数を表現します。
科学的記数法:
数値 = 符号 × 仮数 × 10^指数
例:
- 123.45 = 1.2345 × 10^2
- 0.00012 = 1.2 × 10^-4
コンピュータでは、2進数で表現されます(10進数の代わりに2進数を使う)。
浮動小数点数の種類
プログラミングでよく使われる浮動小数点数には、いくつかの精度があります。
32ビット(単精度、float32):
- 表現できる範囲:約±3.4 × 10^38
- 有効桁数:約7桁
- メモリ使用量:4バイト
64ビット(倍精度、float64):
- 表現できる範囲:約±1.8 × 10^308
- 有効桁数:約15桁
- メモリ使用量:8バイト
16ビット(半精度、float16):
- 表現できる範囲:約±6.5 × 10^4
- 有効桁数:約3桁
- メモリ使用量:2バイト
AIの学習では、通常32ビットまたは64ビットが使われます。
オーバーフローとは?大きすぎる数の問題
オーバーフローの基本
オーバーフロー(Overflow)とは、計算結果が表現できる範囲を超えてしまう現象です。
例:
32ビット浮動小数点数で表現できる最大値は約3.4 × 10^38です。
もし計算結果が10^100になったら?
→ 表現できないので、「inf(無限大)」として扱われます。
オーバーフローが起きる原因
1. 大きな数同士の掛け算
10^20 × 10^20 = 10^40
両方とも表現できても、結果が範囲を超えることがあります。
2. 指数関数
e^100 = 約2.7 × 10^43
指数関数は、入力がちょっと大きいだけで、結果が爆発的に大きくなります。
3. 繰り返し計算での累積
小さな増加でも、何千回も繰り返すと、最終的に巨大な数になることがあります。
オーバーフローの症状
「inf」が出る:
計算結果が無限大を示す「inf」になります。
import numpy as np
x = np.float32(1e38)
y = x * 10
print(y) # inf
NaN(Not a Number)が出る:
inf を使った計算は、NaNになることがあります。
result = np.inf - np.inf
print(result) # nan
学習が止まる:
AIの学習中にオーバーフローが起きると、パラメータが更新できなくなり、学習が止まります。
アンダーフローとは?小さすぎる数の問題
アンダーフローの基本
アンダーフロー(Underflow)とは、計算結果が小さすぎて、0として扱われてしまう現象です。
例:
32ビット浮動小数点数で表現できる最小の正の数は約1.4 × 10^-45です。
もし計算結果が10^-50になったら?
→ 小さすぎて表現できないので、0になります。
アンダーフローが起きる原因
1. 小さな数同士の掛け算
10^-20 × 10^-20 = 10^-40
どちらも表現できても、結果が小さすぎることがあります。
2. 指数関数の逆数
e^-100 = 約3.7 × 10^-44
負の指数は、結果を極端に小さくします。
3. 確率の掛け算
AIでは、小さな確率をたくさん掛け合わせることがあります。
0.1 × 0.1 × 0.1 × ... (100回)= 10^-100
これは表現できないほど小さい数です。
アンダーフローの症状
0になってしまう:
本来は小さな値なのに、0として扱われます。
x = np.float32(1e-40)
y = x * 1e-10
print(y) # 0.0
情報の損失:
0になってしまうと、元の値が復元できません。
勾配消失:
ニューラルネットワークの学習で、勾配(調整量)が0になり、学習が進まなくなります。
AIにおけるオーバーフロー・アンダーフローの影響

機械学習では、特定の場面でこれらの問題が起きやすいです。
1. ニューラルネットワークの学習
勾配爆発(Gradient Explosion):
誤差逆伝播で計算される勾配が、層を遡るごとに大きくなりすぎる現象です。
何が起こるか:
- パラメータが急激に変化
- 学習が不安定になる
- 最終的にオーバーフローでNaNになる
勾配消失(Gradient Vanishing):
勾配が層を遡るごとに小さくなりすぎる現象です。
何が起こるか:
- アンダーフローで勾配が0になる
- パラメータが更新されない
- 学習が進まない
2. ソフトマックス関数
多クラス分類で使われるソフトマックス関数は、オーバーフローが起きやすい代表例です。
数式:
softmax(x_i) = e^x_i / Σ e^x_j
問題:
入力値が大きいと、e^x が巨大になり、オーバーフローします。
例:
e^100 = 約2.7 × 10^43 → オーバーフロー
3. シグモイド関数とtanh関数
シグモイド関数:
σ(x) = 1 / (1 + e^-x)
問題:
- x が非常に大きい負の値だと、e^-x がオーバーフロー
- x が非常に大きい正の値だと、計算が不安定
tanh関数:
tanh(x) = (e^x - e^-x) / (e^x + e^-x)
同様に、極端な値で不安定になります。
4. 対数尤度の計算
確率モデルでは、対数尤度を計算することがあります。
確率の掛け算:
P(データ) = p1 × p2 × p3 × ... × pN
確率は0〜1の値なので、掛け算すると急速に小さくなります。
アンダーフローの例:
0.1^100 = 10^-100 → 0になる
5. 損失関数の計算
交差エントロピー損失:
Loss = -Σ y_i log(p_i)
問題:
- p_i が0に近いと、log(0)で無限大になる
- p_i が1に近すぎると、数値的に不安定
オーバーフロー・アンダーフローの対策
実際にどう対処するか、具体的な方法を見ていきましょう。
対策1:対数変換
確率の掛け算を対数の足し算に変換します。
元の計算:
P = p1 × p2 × p3
アンダーフローのリスクあり。
対数変換後:
log(P) = log(p1) + log(p2) + log(p3)
足し算なので、アンダーフローしにくくなります。
実例:
確率が10^-100でも、log(10^-100) = -100 × log(10) = -230 程度。
これなら問題なく計算できます。
対策2:数値安定化技術
ソフトマックスの安定化:
最大値を引いてから計算する方法です。
元の計算:
softmax(x_i) = e^x_i / Σ e^x_j
安定化版:
max_x = max(x)
softmax(x_i) = e^(x_i - max_x) / Σ e^(x_j - max_x)
効果:
入力から最大値を引くことで、指数の値を小さく抑えられます。
例:
元の入力:[100, 200, 300]
→ e^300 でオーバーフロー
安定化後:[100-300, 200-300, 300-300] = [-200, -100, 0]
→ e^0 = 1 で問題なし
log-sum-expトリック:
対数空間でソフトマックスを計算する方法です。
log(Σ e^x_i) = max_x + log(Σ e^(x_i - max_x))
対策3:正規化とクリッピング
勾配クリッピング:
勾配が大きくなりすぎないように制限します。
方法:
- 勾配のノルム(大きさ)を計算
- 閾値を超えたら、スケールダウンする
疑似コード:
if gradient_norm > threshold:
gradient = gradient * (threshold / gradient_norm)
効果:
勾配爆発を防ぎ、学習を安定化させます。
バッチ正規化(Batch Normalization):
各層の出力を正規化し、適度な範囲に保ちます。
効果:
- 数値が極端にならない
- 学習が安定する
- 勾配消失・爆発を軽減
対策4:適切な初期化
重みの初期値が不適切だと、最初から問題が起きやすくなります。
良い初期化手法:
- Xavierの初期化:シグモイド、tanh向け
- Heの初期化:ReLU向け
これらは、層を通過しても数値が適度な範囲に保たれるように設計されています。
対策5:活性化関数の選択
ReLU(Rectified Linear Unit):
ReLU(x) = max(0, x)
利点:
- 指数関数を使わない
- 計算が安定
- 勾配消失が起きにくい
現代のニューラルネットワークで主流の活性化関数です。
GELU、Swishなどの改良版:
ReLUの利点を保ちつつ、性能を向上させたバリエーションもあります。
対策6:より高い精度の使用
float32からfloat64へ:
より広い範囲を表現できるため、オーバーフロー・アンダーフローが起きにくくなります。
トレードオフ:
- メモリ使用量が2倍
- 計算速度が遅くなる
通常はfloat32で十分ですが、問題が起きる場合の選択肢です。
対策7:学習率の調整
学習率が大きすぎると、パラメータが急激に変化し、数値が不安定になります。
対策:
- 学習率を小さくする
- 学習率スケジューリング(徐々に減らす)
- 適応的学習率(Adam、RMSPropなど)
実際のコード例と対策

具体的なコード例で理解を深めましょう。
例1:ソフトマックスの数値安定化
問題のあるコード:
import numpy as np
def softmax_unstable(x):
exp_x = np.exp(x)
return exp_x / np.sum(exp_x)
# 大きな値でテスト
x = np.array([1000, 2000, 3000])
print(softmax_unstable(x))
# 出力: [nan nan nan] ← オーバーフロー
安定化されたコード:
def softmax_stable(x):
max_x = np.max(x)
exp_x = np.exp(x - max_x)
return exp_x / np.sum(exp_x)
x = np.array([1000, 2000, 3000])
print(softmax_stable(x))
# 出力: [0. 0. 1.] ← 正常に動作
例2:対数確率の計算
問題のあるコード:
# 小さな確率をたくさん掛ける
probs = [0.1] * 100
total_prob = 1.0
for p in probs:
total_prob *= p
print(total_prob)
# 出力: 0.0 ← アンダーフロー
対数空間での計算:
import math
log_probs = [math.log(0.1)] * 100
total_log_prob = sum(log_probs)
print(total_log_prob)
# 出力: -230.25... ← 正常に計算できる
# 必要なら元に戻す(注意:非常に小さい値)
# total_prob = math.exp(total_log_prob)
例3:勾配クリッピング
PyTorchでの実装例:
import torch
import torch.nn as nn
# モデルとオプティマイザ
model = nn.Sequential(...)
optimizer = torch.optim.Adam(model.parameters())
# 学習ループ
for data, target in train_loader:
optimizer.zero_grad()
output = model(data)
loss = loss_function(output, target)
loss.backward()
# 勾配クリッピング
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
optimizer.step()
例4:数値型の選択
TensorFlowでの精度指定:
import tensorflow as tf
# デフォルトはfloat32
x = tf.constant([1.0, 2.0, 3.0])
# float64に変更
x_64 = tf.cast(x, tf.float64)
# モデル全体でfloat64を使う
tf.keras.backend.set_floatx('float64')
トラブルシューティング:エラーが出たら
実際にエラーに遭遇したときの対処法です。
エラー1:「RuntimeWarning: overflow encountered」
原因:
オーバーフローが発生しています。
確認:
- どこで起きているか特定
- 入力データの範囲を確認
- 計算過程で値が爆発していないか
対策:
- 入力データを正規化
- 数値安定化技術を使う
- 学習率を下げる
エラー2:「RuntimeWarning: invalid value encountered」
原因:
NaN(非数)が発生しています。
確認:
# NaNをチェック
import numpy as np
if np.isnan(x).any():
print("NaN detected!")
対策:
- オーバーフロー・アンダーフローの対策を実施
- 0除算がないか確認
- log(0)などの無効な計算がないか確認
エラー3:「loss is nan」(損失がNaN)
原因:
学習中に損失関数がNaNになっています。
対策:
- 学習率を1/10に下げる
- 勾配クリッピングを追加
- バッチ正規化を入れる
- 重みの初期化を見直す
- データの正規化を確認
エラー4:勾配が0になる(勾配消失)
症状:
- 学習が全く進まない
- パラメータが更新されない
確認:
# 勾配を監視
for name, param in model.named_parameters():
if param.grad is not None:
print(f"{name}: {param.grad.abs().mean()}")
対策:
- ReLU系の活性化関数を使う
- 残差接続(ResNet)を導入
- バッチ正規化を追加
- 学習率を上げる
デバッグのベストプラクティス
問題を早期発見・解決するための方法です。
1. 数値の監視
学習中に値をチェック:
# NumPyの場合
def check_numeric(x, name="value"):
if np.isnan(x).any():
print(f"NaN detected in {name}")
if np.isinf(x).any():
print(f"Inf detected in {name}")
print(f"{name} range: [{x.min()}, {x.max()}]")
# 重要な箇所で呼び出す
check_numeric(gradients, "gradients")
check_numeric(loss, "loss")
2. アサーションの追加
異常値を早期検出:
import torch
def forward(self, x):
x = self.layer1(x)
assert not torch.isnan(x).any(), "NaN in layer1 output"
assert not torch.isinf(x).any(), "Inf in layer1 output"
x = self.layer2(x)
return x
3. 段階的なデバッグ
問題を絞り込む:
- 小さなデータで試す:数個のサンプルで動作確認
- シンプルなモデルで試す:1層だけで動くか確認
- 学習率を極端に小さくする:数値的な問題か確認
- float64で試す:精度の問題か確認
4. ログの活用
詳細なログを記録:
import logging
logging.basicConfig(level=logging.DEBUG)
logger = logging.getLogger(__name__)
# 学習ループ内
logger.debug(f"Epoch {epoch}, Loss: {loss.item()}")
logger.debug(f"Gradient norm: {grad_norm}")
よくある疑問:オーバーフロー・アンダーフローについて
Q1:なぜAIではオーバーフロー・アンダーフローが起きやすいの?
A:大量の計算を繰り返すためです
理由:
- 数千〜数万回の繰り返し計算
- 層を重ねるごとに値が変化
- 非線形関数(指数関数など)の使用
- 小さな確率の掛け算
通常のプログラムより、極端な値になるリスクが高いんです。
Q2:オーバーフローとアンダーフロー、どちらが深刻?
A:状況によりますが、両方とも深刻です
オーバーフロー:
- すぐにエラーが出るので気づきやすい
- inf や NaN で計算が止まる
アンダーフロー:
- 静かに0になるので気づきにくい
- 学習がゆっくり悪化することも
どちらも適切な対策が必要です。
Q3:float32とfloat64、どちらを使うべき?
A:通常はfloat32で十分です
float32が推奨される理由:
- GPU計算が速い
- メモリ使用量が少ない
- 多くの場合、精度は十分
float64を使うべき場合:
- 数値的に非常に不安定な問題
- 科学計算で高精度が必要
- float32で問題が解決しない
Q4:学習中にNaNが出たらどうすれば良い?
A:段階的に原因を特定しましょう
ステップ1:
学習率を1/10に下げて試す
ステップ2:
勾配クリッピングを追加
ステップ3:
データの正規化を確認
ステップ4:
モデルの初期化を見直す
ステップ5:
バッチサイズを変更してみる
Q5:事前に対策しておくべきことは?
A:以下の対策を標準的に組み込みましょう
推奨される標準対策:
- 適切な初期化(Xavier、Heなど)
- バッチ正規化の導入
- 勾配クリッピングの設定
- 適切な学習率(Adamなどの適応的手法)
- データの正規化(平均0、分散1など)
これらを最初から実装しておくと、問題が起きにくくなります。
まとめ:数値の安定性はAIの基本
オーバーフロー・アンダーフローは、AIの数値計算における重要な問題です。
この記事のポイント:
✅ オーバーフロー
数が大きすぎて表現できず、infやNaNになる現象
✅ アンダーフロー
数が小さすぎて0として扱われてしまう現象
✅ AIでの影響
勾配爆発・消失、学習の停止、NaNエラーなどを引き起こす
✅ 主な発生場面
ソフトマックス、シグモイド、確率計算、勾配計算
✅ 対策の基本
対数変換、数値安定化、正規化、クリッピング
✅ 具体的な対策
安定化ソフトマックス、勾配クリッピング、バッチ正規化、ReLU使用
✅ デバッグ方法
数値監視、アサーション、段階的なテスト
✅ 予防策
適切な初期化、データ正規化、学習率調整
AIや機械学習を学ぶ上で、これらの数値的な問題を理解することは非常に重要です。
最初は難しく感じるかもしれませんが、基本的な対策(バッチ正規化、勾配クリッピング、適切な初期化)を押さえておけば、多くの問題を避けられます。
エラーに遭遇したときは、慌てずに段階的に原因を特定し、適切な対策を取りましょう。
数値の安定性を意識することで、より堅牢で信頼性の高いAIモデルを作れるようになりますよ!

コメント