機械学習やディープラーニングを学んでいると、「tanh(タンエイチ、ハイパボリックタンジェント)」という関数に出会うことがあります。
これは活性化関数と呼ばれる重要な数学関数の1つで、ニューラルネットワークの性能を左右する要素なんです。特に自然言語処理や時系列データの解析で活躍しています。
この記事では、tanhの基本的な意味から数学的な特徴、機械学習での使い方、さらに他の活性化関数との比較まで、初心者の方にも分かりやすく解説していきます。難しそうに見えても、実は理解しやすい関数なので、一緒に学んでいきましょう!
tanh(ハイパボリックタンジェント)とは?基本の定義

tanh(ハイパボリックタンジェント)は、双曲線関数(ハイパボリック関数)の1つです。
「tanh」は「hyperbolic tangent」の略で、日本語では「双曲線正接」と呼ばれます。
簡単に言うと
入力された数値を-1から1の範囲に変換する関数です。
イメージ:
- 大きな正の数を入れると → 1に近い値が出る
- 大きな負の数を入れると → -1に近い値が出る
- 0を入れると → 0が出る
まるで極端な値を「ちょうど良い範囲」に収めてくれる調整器のようなものなんですね。
双曲線関数とは?普通の三角関数との違い
tanhを理解するには、双曲線関数について少し知っておくと良いでしょう。
三角関数との関係
数学には三角関数(sin、cos、tan)という有名な関数がありますよね。
双曲線関数は、これらと似た性質を持ちながら、双曲線という図形に関連する関数なんです。
主な双曲線関数:
- sinh(シンエイチ):ハイパボリックサイン(双曲線正弦)
- cosh(コシュエイチ):ハイパボリックコサイン(双曲線余弦)
- tanh(タンエイチ):ハイパボリックタンジェント(双曲線正接)
名前の由来
「ハイパボリック(hyperbolic)」は「双曲線の」という意味です。
三角関数が円の性質から生まれたのに対し、双曲線関数は双曲線の性質から定義されています。
ただし機械学習で使う際は、この幾何学的な意味よりも、関数の性質そのものが重要になります。
tanhの数式:どう計算されるのか
tanhは以下の数式で定義されます。
基本的な定義式
tanh(x) = (e^x – e^(-x)) / (e^x + e^(-x))
ここで:
- e:自然対数の底(約2.71828…)
- x:入力値
- e^x:eのx乗
より分かりやすい形
sinh(シンエイチ)とcosh(コシュエイチ)を使うと、こうも書けます:
tanh(x) = sinh(x) / cosh(x)
ここで:
- sinh(x) = (e^x – e^(-x)) / 2
- cosh(x) = (e^x + e^(-x)) / 2
別の表現方法
指数関数を使った別の書き方もあります:
tanh(x) = (e^(2x) – 1) / (e^(2x) + 1)
どの式も同じ関数を表していますが、計算方法や用途によって使い分けられます。
tanhのグラフ:S字型の美しい曲線
tanhのグラフを見ると、その特徴がよく分かります。
グラフの特徴
形状:
- S字型(シグモイド型)の滑らかな曲線
- 原点(0, 0)を通る
- 左右対称(奇関数)
値の範囲:
- 出力は常に-1から1の間
- xが大きくなると1に近づく(漸近)
- xが小さくなると-1に近づく(漸近)
重要なポイント
x = 0の時:
- tanh(0) = 0
x = 1の時:
- tanh(1) ≈ 0.76
x = 2の時:
- tanh(2) ≈ 0.96
x = 3の時:
- tanh(3) ≈ 0.995(ほぼ1)
x = -3の時:
- tanh(-3) ≈ -0.995(ほぼ-1)
このように、xの絶対値が大きくなるほど、出力は±1に急速に近づきます。
微分の特徴
tanhの微分(傾き)も重要です:
d/dx tanh(x) = 1 – tanh²(x)
または:
d/dx tanh(x) = sech²(x)
微分の特徴:
- x = 0付近で最大値1を取る
- xが大きくなると0に近づく
- 常に正の値(単調増加関数)
この性質が、機械学習での学習効率に影響するんです。
機械学習での活用:活性化関数としてのtanh
tanhが最も活躍するのが、ニューラルネットワークの活性化関数としての役割です。
活性化関数とは?
活性化関数(Activation Function)は、ニューラルネットワークの各ニューロン(神経細胞を模した計算単位)で、入力を非線形に変換する関数です。
なぜ必要なのか:
- 線形計算だけでは複雑なパターンを学習できない
- 非線形性を導入することで表現力が大幅に向上
- 層を重ねる意味が生まれる
tanhを使う理由
主な利点:
1. 出力が-1から1の範囲
- 正負両方の値を扱える
- 平均が0に近くなる
2. 原点対称
- 負の入力に対しても適切に反応
- データの偏りを防ぐ
3. 滑らかな曲線
- 微分可能で勾配計算ができる
- バックプロパゲーション(誤差逆伝播)で学習可能
実際の使用場面
適している場面:
RNN(リカレントニューラルネットワーク):
- 時系列データの処理
- 過去の情報を保持しながら計算
LSTM(Long Short-Term Memory):
- tanhが複数の箇所で使用される
- 情報の流れを制御
隠れ層での使用:
- 中間層の活性化関数として
- 特に小規模なネットワーク
sigmoidとの比較:似ているけど違う2つの関数

tanhとよく比較されるのがsigmoid関数です。
sigmoid関数とは
sigmoid関数の定義:
σ(x) = 1 / (1 + e^(-x))
出力範囲:
- 0から1の間
tanhとsigmoidの関係
実は、この2つの関数には数学的な関係があります:
tanh(x) = 2σ(2x) – 1
つまり、sigmoidを変形するとtanhになるんです!
主な違い
出力範囲:
- sigmoid:0~1
- tanh:-1~1
中心点:
- sigmoid:0.5
- tanh:0(原点対称)
使用場面:
- sigmoid:出力層(二値分類)、ゲート機構
- tanh:隠れ層、RNN/LSTM
どちらが優れている?
tanhの利点:
- 出力の平均が0に近い
- 学習が速い傾向
- 勾配消失問題が若干軽減される
sigmoidの利点:
- 確率として解釈しやすい(0~1の範囲)
- 出力層での二値分類に最適
現代のニューラルネットワークでは、隠れ層ではtanhの方が好まれる傾向があります。
tanhのメリット:なぜ使われるのか
tanhが活性化関数として選ばれる理由を詳しく見ていきましょう。
1. ゼロ中心の出力
重要性:
- 出力の平均が0付近になる
- 次の層への入力が偏らない
具体的な効果:
- 学習の収束が速くなる
- 重みの更新が効率的
- ジグザグな学習経路を避けられる
2. 強い非線形性
非線形性の意味:
- 複雑なパターンを表現できる
- 層を重ねることの意義が生まれる
tanhの非線形性:
- S字型の曲線
- 入力に応じて柔軟に変化
- 極端な値を抑制
3. 微分が計算しやすい
微分の式:
d/dx tanh(x) = 1 – tanh²(x)
利点:
- tanhの値から直接微分を計算できる
- 計算効率が良い
- バックプロパゲーションでの処理が高速
4. 範囲が制限されている
値の範囲:
- 常に-1から1の間
- 無限大や極端な値にならない
効果:
- 数値的に安定
- オーバーフローを防ぐ
- 勾配の爆発を抑制
5. RNN/LSTMとの相性が良い
時系列データ処理:
- 過去の情報を適度に保持
- 正負の情報を扱える
- メモリセルでの情報制御に適している
tanhのデメリット:勾配消失問題
優れた特性を持つtanhですが、欠点もあります。
勾配消失問題(Vanishing Gradient Problem)
最大の問題が勾配消失問題です。
問題の内容:
- xの絶対値が大きい領域で微分(勾配)が非常に小さくなる
- 深い層になるほど勾配が小さくなる
- 学習が進まなくなる
具体的な数値:
- x = 3の時、微分値は約0.01
- x = 5の時、微分値は約0.0001
- x = 10の時、微分値はほぼ0
なぜ問題なのか
バックプロパゲーションへの影響:
ニューラルネットワークの学習では、出力層から入力層に向かって誤差を伝播させます。
勾配消失の連鎖:
- 各層で小さな勾配が掛け合わされる
- 層が深くなるほど勾配が指数関数的に小さくなる
- 初期層の重みがほとんど更新されない
- 学習が停滞する
例:
- 10層のネットワークで各層の勾配が0.1
- 入力層での勾配は0.1^10 = 0.0000000001
これでは学習が進みません。
飽和の問題
飽和(Saturation)とは:
- 入力が大きい/小さい時、出力が1/-1に張り付く状態
- この領域では微分がほぼ0
影響:
- ニューロンが「死ぬ」(学習しなくなる)
- 一度飽和すると抜け出しにくい
計算コストの問題
指数関数の計算:
- tanhの計算にはe^xが必要
- 指数関数は計算コストが高い
- 大規模ネットワークでは処理時間に影響
他の活性化関数との比較
tanhは多くの活性化関数の1つです。他の関数と比較してみましょう。
ReLU(Rectified Linear Unit)
定義:
ReLU(x) = max(0, x)
特徴:
- x > 0の時、そのまま出力
- x ≤ 0の時、0を出力
メリット:
- 計算が非常に簡単
- 勾配消失問題が少ない
- 学習が速い
デメリット:
- 負の値の情報が失われる
- Dying ReLU問題(ニューロンが死ぬ)
tanhとの比較:
- ReLUの方が計算効率が良い
- tanhの方が滑らかな出力
- 現代ではReLUの方が主流
Leaky ReLU
定義:
Leaky ReLU(x) = max(0.01x, x)
特徴:
- 負の値でも小さな勾配を保つ
- Dying ReLU問題を軽減
tanhとの比較:
- 計算効率はLeaky ReLUが上
- tanhは滑らかで連続的
ELU(Exponential Linear Unit)
定義:
ELU(x) = x(x > 0の時)
ELU(x) = α(e^x – 1)(x ≤ 0の時)
特徴:
- 負の値でも滑らかな曲線
- 平均出力が0に近い
tanhとの比較:
- 両方とも負の値を扱える
- ELUは片側が線形で計算効率が良い
Swish(SiLU)
定義:
Swish(x) = x × sigmoid(x)
特徴:
- Googleが開発した新しい関数
- 滑らかで非単調
tanhとの比較:
- より複雑な非線形性
- 一部のタスクで高性能
- 計算コストは高め
使い分けの目安
ReLU系を選ぶべき場合:
- 深いネットワーク
- 画像認識
- 計算速度重視
tanhを選ぶべき場合:
- RNN/LSTM
- 浅いネットワーク
- 負の値の情報が重要
sigmoidを選ぶべき場合:
- 出力層(二値分類)
- ゲート機構
tanhの実装:実際のコードで見る
実際にtanhを使う方法を見てみましょう。
Pythonでの実装
NumPyを使った基本的な実装:
import numpy as np
# tanhを計算する関数
def tanh(x):
return np.tanh(x)
# 例
x = np.array([-2, -1, 0, 1, 2])
y = tanh(x)
print(y)
# 出力: [-0.96402758 -0.76159416 0. 0.76159416 0.96402758]
数式から直接計算:
def tanh_manual(x):
return (np.exp(x) - np.exp(-x)) / (np.exp(x) + np.exp(-x))
機械学習フレームワークでの使用
TensorFlow/Keras:
from tensorflow.keras.layers import Dense, Activation
# 活性化関数としてtanhを指定
model.add(Dense(64, activation='tanh'))
# または
model.add(Dense(64))
model.add(Activation('tanh'))
PyTorch:
import torch.nn as nn
# レイヤー定義
self.fc1 = nn.Linear(input_size, hidden_size)
self.tanh = nn.Tanh()
# 順伝播
x = self.tanh(self.fc1(x))
微分の実装
tanhの微分を計算:
def tanh_derivative(x):
t = np.tanh(x)
return 1 - t**2
# または既にtanhを計算済みの場合
def tanh_derivative_from_output(tanh_output):
return 1 - tanh_output**2
実際の応用例:tanhが活躍する場面
tanhは実際にどのような場面で使われているのでしょうか?
1. LSTM(Long Short-Term Memory)
LSTMの構造:
- tanhが複数の箇所で使用される
- セルステートの更新
- 出力ゲートでの情報制御
具体的な役割:
- 新しい情報の候補を作成(-1~1の範囲)
- メモリセルの値を制御
- 最終出力を調整
なぜtanh?
- 正負の値を扱える
- メモリセルの値を適切な範囲に保つ
- sigmoid(ゲート機構)との組み合わせが効果的
2. 自然言語処理(NLP)
使用例:
- 文章生成モデル
- 機械翻訳
- 感情分析
tanhの役割:
- 単語の意味表現(エンベディング)の変換
- 文脈情報の処理
- 系列データの時間的依存関係の学習
3. 時系列予測
応用分野:
- 株価予測
- 気象予報
- センサーデータの解析
tanhの利点:
- 過去のトレンド(正負)を保持
- 急激な変化を滑らかに処理
- 予測値を適切な範囲に制限
4. オートエンコーダー
使用場面:
- 次元削減
- 異常検知
- ノイズ除去
tanhの効果:
- 特徴量の圧縮表現
- 正規化された潜在空間の生成
tanhの最適化技術:より効果的に使う方法
tanhの欠点を補い、効果的に使う技術があります。
1. 適切な重みの初期化
問題:
- 初期の重みが大きいと、すぐに飽和する
- 学習が始まらない
解決策:Xavier初期化(Glorot初期化):
- tanhなどの対称な活性化関数に適した初期化
- 各層の入出力のバランスを考慮
- 勾配の流れを改善
具体的な方法:
- 重みを平均0、分散2/(入力数+出力数)で初期化
- 層間で適切な分散を維持
2. バッチ正規化(Batch Normalization)
効果:
- 各層の入力を正規化
- 飽和を防ぐ
- 学習の安定化
仕組み:
- ミニバッチごとに平均と分散を計算
- データを正規化
- tanhの効果的な範囲で動作
3. 学習率の調整
適応的学習率:
- Adam、RMSpropなどのオプティマイザー
- 勾配に応じて学習率を調整
- 小さな勾配でも学習が進む
4. 層の数の制限
実践的な対策:
- tanhを使う場合は深すぎないネットワークに
- 5~10層程度が目安
- より深い場合はReLU系を検討
5. 残差接続(Residual Connection)
ResNetの技術:
- 層をスキップする接続を追加
- 勾配が直接流れる経路を確保
- tanhでも深いネットワークが可能に
まとめ:tanhは今でも重要な活性化関数
tanhは古典的ながら、現代でも重要な役割を果たす活性化関数です。
この記事のポイント:
- tanhは-1から1の範囲に値を変換する双曲線関数
- S字型の滑らかな曲線で原点対称
- 活性化関数としてニューラルネットワークで使用
- sigmoidより学習効率が良い(ゼロ中心の出力)
- RNN/LSTMで特に重要な役割
- 勾配消失問題という欠点がある
- 現代ではReLUの方が主流だが、用途によって使い分ける
- 適切な初期化やバッチ正規化で性能向上が可能
tanhは万能ではありませんが、適切な場面で使えば優れた性能を発揮します。
深層学習の初期から使われてきた歴史ある関数であり、LSTM などの重要なアーキテクチャの基盤となっています。
新しい活性化関数も次々と開発されていますが、tanhの基本的な考え方は今後も機械学習の重要な要素であり続けるでしょう。
機械学習を学ぶ方は、tanhの特性を理解することで、より適切なモデル設計ができるようになります。ぜひこの知識を活用してください!

コメント