機械学習の最適化手法を調べていると、Adagrad(アダグラッド)という名前を目にすることがあります。
「Adamは知ってるけど、Adagradって何?」
「名前が似てるけど、どう違うの?」
実は、Adagradは学習率を自動的に調整してくれる画期的な最適化手法なんです。
2011年に登場したこのアルゴリズムは、後のAdamやRMSpropなどの手法に大きな影響を与え、現代の機械学習の基礎を築きました。
今回は、Adagradの基本的な仕組みから、メリット・デメリット、実際の使い方、そして後継の最適化手法との比較まで、分かりやすく解説していきますね。
Adagradとは?基本を理解しよう

Adaptive Gradient Algorithm(適応的勾配アルゴリズム)
Adagradは「Adaptive Gradient Algorithm」の略で、日本語では適応的勾配アルゴリズムと呼ばれます。
2011年にGoogle/スタンフォード大学の研究者によって発表された手法です。
名前の意味:
- Adaptive(適応的):状況に応じて変化する
- Gradient(勾配):機械学習の学習に使う傾きの情報
- つまり、「勾配に応じて適応的に調整する」アルゴリズム
画期的だった点
それまでの最適化手法(SGDやモメンタム)では、全てのパラメータに同じ学習率を使っていました。
従来の問題:
- パラメータAは更新が必要なのに、学習率が小さくて進まない
- パラメータBは十分更新されたのに、学習率が大きくて振動する
- 手動で学習率を調整するのが大変
Adagradの革新:
- 各パラメータごとに異なる学習率を自動設定
- よく更新されるパラメータ → 学習率を下げる
- あまり更新されないパラメータ → 学習率を上げる
- 手動調整が不要になる
この「パラメータごとの適応」という考え方が、機械学習の世界に大きな変革をもたらしました。
Adagradの仕組み
基本的なアイデア
Adagradの核となるアイデアは、「過去の勾配を記録して、学習率を調整する」ことです。
具体的には:
- 過去の勾配を二乗して累積
- 各パラメータについて、これまでの勾配の二乗和を記録
- よく更新されたパラメータほど、累積値が大きくなる
- 累積値で学習率を割る
- 累積値が大きい → 学習率が小さくなる
- 累積値が小さい → 学習率が大きくなる
- 自動的にバランスが取れる
- 更新が激しいパラメータは落ち着く
- 更新が少ないパラメータは活発になる
数式で理解する(基礎レベル)
数式が苦手な方も、雰囲気だけつかんでください。
普通のSGD(確率的勾配降下法):
パラメータ = パラメータ - 学習率 × 勾配
全パラメータに同じ学習率を使います。
Adagrad:
累積勾配 = 累積勾配 + 勾配²
調整後の学習率 = 学習率 ÷ √(累積勾配 + ε)
パラメータ = パラメータ - 調整後の学習率 × 勾配
ポイント:
- 累積勾配が大きい → 調整後の学習率が小さい
- 累積勾配が小さい → 調整後の学習率が大きい
- ε(イプシロン)は、0で割らないための小さな値(通常1e-8)
視覚的なイメージ
山を下る例え:
普通のSGD:
- 全ての方向に同じ歩幅で進む
- 急な方向でも緩やかな方向でも同じ
Adagrad:
- 急な方向(よく更新される)→ 小さな歩幅で慎重に
- 緩やかな方向(あまり更新されない)→ 大きな歩幅で積極的に
- 地形に応じて自動調整
結果として、より効率的に最適解に到達できます。
Adagradのメリット
学習率の手動調整が不要
最大のメリットは、学習率のチューニングが楽になることです。
従来のSGD:
- 学習率を0.1、0.01、0.001…と試す必要がある
- 問題ごとに最適な値が異なる
- 時間がかかる
Adagrad:
- 初期学習率を適当に設定するだけ(0.01など)
- あとは自動で調整される
- 試行錯誤の時間を短縮
スパースデータに強い
スパースデータとは、ほとんどの値が0で、一部だけ値がある(疎な)データのことです。
例:単語の出現頻度
- 「the」「a」→ 頻繁に出現
- 「quantum」「cryptography」→ まれに出現
Adagradの利点:
- 頻出する単語(特徴)→ 学習率が自動的に下がる
- 稀な単語(特徴)→ 学習率が自動的に上がる
- 珍しいけど重要な情報を見逃さない
このため、自然言語処理(NLP)で特に有効です。
パラメータごとに異なる更新速度
モデルのパラメータは、更新の必要性が異なります。
例:ニューラルネットワーク
- 入力層に近い重み:頻繁に更新が必要
- 出力層に近い重み:時々更新すればOK
Adagradは、この違いを自動的に認識して調整してくれます。
理論的な保証がある
Adagradには、数学的に収束が保証されている利点があります。
- 凸最適化問題で最適解への収束が証明されている
- 理論的に信頼できる手法
Adagradのデメリット
学習率が単調減少する(最大の欠点)
Adagradには致命的な問題があります。
累積勾配は増え続ける:
- 学習が進むにつれて、累積勾配の値は増加し続ける
- 分母が大きくなるため、学習率はどんどん小さくなる
- 最終的に学習率がほぼ0になり、学習が止まる
例え:
- 最初は元気に歩いているが、徐々に疲れて歩幅が小さくなる
- 最後はほとんど動けなくなって、目的地に着けない
実際の問題:
- 深層学習のような長期的な学習で顕著
- エポック数を増やしても改善しない
- 最適解に到達する前に学習が止まることがある
深層学習には不向き
理由:
- 深層学習は長時間の学習が必要
- 学習率が早期に小さくなりすぎる
- 十分に学習できない
そのため、現代の深層学習では、Adagradの改良版であるRMSpropやAdamが使われます。
メモリ使用量が増える
理由:
- 各パラメータごとに累積勾配を保存
- パラメータ数が多いと、メモリも2倍必要
例:
- パラメータ数100万個のモデル
- 通常:100万個分のメモリ
- Adagrad:200万個分のメモリ(パラメータ + 累積勾配)
大規模モデルでは、メモリが問題になることがあります。
実装例とコード
Pythonでの基本実装
Adagradのアルゴリズムを素朴に実装してみましょう。
import numpy as np
class AdagradOptimizer:
def __init__(self, learning_rate=0.01, epsilon=1e-8):
self.learning_rate = learning_rate
self.epsilon = epsilon # 0除算を防ぐ
self.accumulated_grad = None
def update(self, params, grads):
# 初回のみ、累積勾配を初期化
if self.accumulated_grad is None:
self.accumulated_grad = np.zeros_like(params)
# 勾配の二乗を累積
self.accumulated_grad += grads ** 2
# パラメータを更新
params -= self.learning_rate * grads / (np.sqrt(self.accumulated_grad) + self.epsilon)
return params
# 使用例
optimizer = AdagradOptimizer(learning_rate=0.01)
for epoch in range(100):
# 勾配を計算(ここでは仮の関数)
gradients = calculate_gradients(model, data)
# パラメータを更新
model.params = optimizer.update(model.params, gradients)
累積勾配を保持し続けることで、適応的な学習率を実現しています。
TensorFlowでの実装
実際のディープラーニングフレームワークでは、簡単に使えます。
TensorFlow / Kerasの場合:
from tensorflow.keras.optimizers import Adagrad
# Adagradオプティマイザーの作成
optimizer = Adagrad(
learning_rate=0.01,
initial_accumulator_value=0.1, # 累積勾配の初期値
epsilon=1e-7 # 0除算を防ぐ小さな値
)
# モデルのコンパイル
model.compile(
optimizer=optimizer,
loss='sparse_categorical_crossentropy',
metrics=['accuracy']
)
# 学習
history = model.fit(
X_train, y_train,
epochs=50,
batch_size=32,
validation_data=(X_val, y_val)
)
PyTorchでの実装
PyTorchでも標準で提供されています。
import torch.optim as optim
# Adagradオプティマイザー
optimizer = optim.Adagrad(
model.parameters(),
lr=0.01,
lr_decay=0, # 学習率減衰(通常は0)
weight_decay=0, # L2正則化
eps=1e-10 # 0除算を防ぐ
)
# 学習ループ
for epoch in range(50):
for batch_idx, (data, target) in enumerate(train_loader):
optimizer.zero_grad() # 勾配をリセット
output = model(data)
loss = criterion(output, target)
loss.backward() # 勾配を計算
optimizer.step() # パラメータを更新
他の最適化手法との比較
SGD(確率的勾配降下法)
特徴:
- 最もシンプルな手法
- 全パラメータに同じ学習率
- 手動で学習率を調整する必要がある
Adagradとの違い:
- SGD:固定学習率
- Adagrad:適応的学習率
使い分け:
- SGD:シンプルな問題、細かい制御が必要な場合
- Adagrad:スパースデータ、学習率の調整が面倒な場合
RMSprop(Root Mean Square Propagation)
特徴:
- Adagradの改良版
- 累積勾配に減衰を導入
- 学習率が0にならない
Adagradとの違い:
Adagrad:累積勾配 = 全ての過去の勾配²の和
RMSprop:累積勾配 = 指数移動平均(古い勾配の影響を減らす)
改善点:
- 学習率が単調減少しない
- 深層学習に適している
- 長期的な学習でも有効
コード例(TensorFlow):
from tensorflow.keras.optimizers import RMSprop
optimizer = RMSprop(learning_rate=0.001, rho=0.9)
Adam(Adaptive Moment Estimation)
特徴:
- Adagradとモメンタムを組み合わせた手法
- 現代の深層学習で最も人気
- 学習率の適応 + 勾配の勢い
Adagradとの違い:
- Adam:累積勾配の減衰 + モメンタム
- Adagrad:累積勾配のみ
利点:
- Adagradの欠点(学習率の単調減少)を解決
- より広範な問題に対応
- ハイパーパラメータの調整が楽
コード例(TensorFlow):
from tensorflow.keras.optimizers import Adam
optimizer = Adam(learning_rate=0.001, beta_1=0.9, beta_2=0.999)
Adadelta
特徴:
- Adagradの改良版
- 学習率パラメータすら不要
- 累積勾配に窓を設ける
Adagradとの違い:
- Adadelta:固定サイズの窓で累積(古い勾配を忘れる)
- Adagrad:全ての勾配を累積
使い分け:
- 学習率を設定したくない場合はAdadelta
- ただし、Adamの方が一般的に性能が良い
最適化手法の選び方
スパースデータの学習:
→ Adagrad が適している
深層学習全般:
→ Adam が無難(迷ったらこれ)
長期的な学習:
→ RMSprop または Adam
研究・競技:
→ 複数の手法を試して比較
現状のトレンド:
- Adagrad:特定用途(NLP、推薦システムなど)
- Adam:最も広く使われる(デフォルト選択)
- SGD + Momentum:画像認識の一部で(細かい調整が可能)
実用例と適用場面

自然言語処理(NLP)
Adagradが最も効果を発揮する分野です。
単語の埋め込み(Word Embedding):
import tensorflow as tf
from tensorflow.keras.layers import Embedding, LSTM, Dense
from tensorflow.keras.optimizers import Adagrad
# モデル構築
model = tf.keras.Sequential([
Embedding(vocab_size, embedding_dim),
LSTM(128),
Dense(num_classes, activation='softmax')
])
# Adagradでコンパイル
optimizer = Adagrad(learning_rate=0.01)
model.compile(optimizer=optimizer, loss='categorical_crossentropy', metrics=['accuracy'])
# 学習
model.fit(X_train, y_train, epochs=10, batch_size=32)
効果:
- 頻出単語と稀な単語を適切にバランス
- 稀な重要語を見逃さない
推薦システム
協調フィルタリング:
- ユーザーとアイテムの埋め込みベクトルを学習
- スパースなインタラクションデータに対応
- Adagradが効果的
例:映画の推薦
import numpy as np
class MatrixFactorization:
def __init__(self, n_users, n_items, n_factors=20):
self.user_embeddings = np.random.randn(n_users, n_factors) * 0.01
self.item_embeddings = np.random.randn(n_items, n_factors) * 0.01
# Adagradの累積勾配
self.user_accum = np.zeros_like(self.user_embeddings)
self.item_accum = np.zeros_like(self.item_embeddings)
def update_adagrad(self, user_id, item_id, rating, lr=0.01, epsilon=1e-8):
# 予測
pred = np.dot(self.user_embeddings[user_id], self.item_embeddings[item_id])
error = rating - pred
# 勾配計算
user_grad = -2 * error * self.item_embeddings[item_id]
item_grad = -2 * error * self.user_embeddings[user_id]
# Adagradで更新
self.user_accum[user_id] += user_grad ** 2
self.item_accum[item_id] += item_grad ** 2
self.user_embeddings[user_id] -= lr * user_grad / (np.sqrt(self.user_accum[user_id]) + epsilon)
self.item_embeddings[item_id] -= lr * item_grad / (np.sqrt(self.item_accum[item_id]) + epsilon)
オンライン学習
リアルタイムでデータが追加される場合:
- Adagradは過去の情報を累積する
- 新しいデータにも適応できる
- ただし、長期的には学習率が小さくなりすぎる問題
使用例:
- クリック率予測(広告)
- スパム検出
- 株価予測(短期)
ハイパーパラメータの設定
学習率(Learning Rate)
推奨値:
- 0.01(デフォルト、まずはこれを試す)
- 0.1(大胆に学習したい場合)
- 0.001(慎重に学習したい場合)
特徴:
- Adagradは自動調整するため、SGDほど慎重でなくてOK
- それでも、初期値は重要
調整のコツ:
- 学習が不安定 → 学習率を下げる
- 学習が遅い → 学習率を上げる
- 10倍ずつ変えて試す
イプシロン(Epsilon)
役割:
- 0除算を防ぐための小さな値
- 通常は変更不要
デフォルト値:
- TensorFlow:1e-7
- PyTorch:1e-10
調整が必要な場合:
- 学習が不安定 → イプシロンを大きくする(1e-6など)
初期累積値(Initial Accumulator Value)
役割:
- 累積勾配の初期値
- 学習の初期段階の挙動に影響
推奨値:
- 0.1(TensorFlowのデフォルト)
- 0.0(PyTorchのデフォルト)
大きい値の効果:
- 初期の学習率が小さくなる
- 学習が慎重になる
小さい値の効果:
- 初期の学習率が大きくなる
- 学習が積極的になる
Adagradの限界と改良版
学習率減衰の問題
問題の詳細:
時刻t=1: 学習率 = 0.01 / √1 = 0.01
時刻t=10: 学習率 = 0.01 / √10 ≈ 0.0032
時刻t=100:学習率 = 0.01 / √100 = 0.001
時刻t=1000:学習率 = 0.01 / √1000 ≈ 0.0003
学習が進むにつれ、学習率は減少し続けます。
RMSpropによる解決
RMSpropの改善:
# Adagrad
accumulated_grad += grad ** 2
# RMSprop
accumulated_grad = decay_rate * accumulated_grad + (1 - decay_rate) * grad ** 2
効果:
- 古い勾配の影響を減らす(指数移動平均)
- 学習率が0にならない
- 長期的な学習が可能
Adamによる統合
Adamの特徴:
- RMSprop(適応的学習率)+ Momentum(勢い)
- 両方の利点を組み合わせ
- 現代のデフォルト選択
使い分けの現状:
- Adagrad:スパースデータ、NLP、推薦システム
- RMSprop:リカレントニューラルネットワーク
- Adam:ほぼ全ての深層学習タスク
よくある質問と回答
Q1:AdagradとAdamの違いは?
A:Adamは、Adagradの改良版にモメンタムを加えたものです。
主な違い:
- Adagrad:累積勾配が増え続ける → 学習率が0に近づく
- Adam:累積勾配を減衰させる → 学習率が0にならない
どちらを使うべきか:
- スパースデータ → Adagrad
- 深層学習全般 → Adam
Q2:学習率が0に近づいて学習が止まりました
A:これはAdagradの仕様です。
対処法:
- エポック数を減らす(早期に止める)
- RMSpropやAdamに切り替える
- 学習率を大きくする(根本的な解決にはならない)
推奨:
長期的な学習が必要なら、最初からAdamを使いましょう。
Q3:いつAdagradを使うべきですか?
A:以下の場合にAdagradが適しています。
推奨場面:
- スパースなデータ(単語の頻度、ユーザーの行動など)
- 自然言語処理(特にWord2Vec、GloVe)
- 推薦システム
- 短期〜中期の学習(数十エポック程度)
避けるべき場面:
- 深層ニューラルネットワークの長期学習
- 画像認識の大規模学習
- 100エポック以上の学習
Q4:なぜ累積勾配を二乗するのですか?
A:二乗することで、以下の効果があります。
理由:
- 符号を消す:正負に関係なく、大きな勾配を検出
- 大きな勾配を強調:振動を抑える効果
- 数学的な性質:平方根との組み合わせで計算が安定
これにより、効果的な学習率調整が可能になります。
まとめ:Adagradは適応的最適化の先駆け
Adagradは、学習率を自動調整する適応的最適化の先駆けとなった重要な手法です。
この記事のポイント:
- Adagradは各パラメータごとに学習率を自動調整する最適化手法
- 過去の勾配を累積し、それに応じて学習率を減らす
- スパースデータ(NLP、推薦システム)で特に効果的
- 学習率の手動調整が不要で、実験が楽になる
- 致命的な欠点:学習率が単調減少し、最終的に0に近づく
- 深層学習の長期学習には不向き
- RMSpropとAdamはAdagradの問題を解決した改良版
- 現代では、Adamが最も広く使われている
- ただし、スパースデータではAdagradが今でも有効
- 学習率は0.01から始めるのが無難
Adagrad自体は、現代の深層学習では主流ではなくなりましたが、その「適応的な学習率」というアイデアは、AdamやRMSpropに受け継がれています。
機械学習の歴史を理解し、各手法の特性を知ることで、問題に応じた最適な選択ができるようになりますよ。
実践的なアドバイス:
- 迷ったらAdamを使う(万能)
- スパースデータならAdagradを試す
- 長期学習ならRMSpropまたはAdam
Adagradの仕組みを理解することで、最適化アルゴリズム全体の理解が深まります。
あなたのプロジェクトに最適な最適化手法を見つけて、効率的な機械学習を実現してくださいね!


コメント