tanh（ハイパボリックタンジェント）とは？機械学習で使われる重要な関数を徹底解説

機械学習やディープラーニングを学んでいると、「tanh（タンエイチ、ハイパボリックタンジェント）」という関数に出会うことがあります。

これは活性化関数と呼ばれる重要な数学関数の1つで、ニューラルネットワークの性能を左右する要素なんです。特に自然言語処理や時系列データの解析で活躍しています。

この記事では、tanhの基本的な意味から数学的な特徴、機械学習での使い方、さらに他の活性化関数との比較まで、初心者の方にも分かりやすく解説していきます。難しそうに見えても、実は理解しやすい関数なので、一緒に学んでいきましょう！

tanh（ハイパボリックタンジェント）とは？基本の定義
1. 簡単に言うと
双曲線関数とは？普通の三角関数との違い
1. 三角関数との関係
2. 名前の由来
tanhの数式：どう計算されるのか
tanhのグラフ：S字型の美しい曲線
機械学習での活用：活性化関数としてのtanh
sigmoidとの比較：似ているけど違う2つの関数
tanhのメリット：なぜ使われるのか
tanhのデメリット：勾配消失問題
他の活性化関数との比較
tanhの実装：実際のコードで見る
実際の応用例：tanhが活躍する場面
tanhの最適化技術：より効果的に使う方法
まとめ：tanhは今でも重要な活性化関数

tanh（ハイパボリックタンジェント）とは？基本の定義

tanh（ハイパボリックタンジェント）は、双曲線関数（ハイパボリック関数）の1つです。

「tanh」は「hyperbolic tangent」の略で、日本語では「双曲線正接」と呼ばれます。

簡単に言うと

入力された数値を-1から1の範囲に変換する関数です。

イメージ：

大きな正の数を入れると → 1に近い値が出る
大きな負の数を入れると → -1に近い値が出る
0を入れると → 0が出る

まるで極端な値を「ちょうど良い範囲」に収めてくれる調整器のようなものなんですね。

双曲線関数とは？普通の三角関数との違い

tanhを理解するには、双曲線関数について少し知っておくと良いでしょう。

三角関数との関係

数学には三角関数（sin、cos、tan）という有名な関数がありますよね。

双曲線関数は、これらと似た性質を持ちながら、双曲線という図形に関連する関数なんです。

主な双曲線関数：

sinh（シンエイチ）：ハイパボリックサイン（双曲線正弦）
cosh（コシュエイチ）：ハイパボリックコサイン（双曲線余弦）
tanh（タンエイチ）：ハイパボリックタンジェント（双曲線正接）

名前の由来

「ハイパボリック（hyperbolic）」は「双曲線の」という意味です。

三角関数が円の性質から生まれたのに対し、双曲線関数は双曲線の性質から定義されています。

ただし機械学習で使う際は、この幾何学的な意味よりも、関数の性質そのものが重要になります。

tanhの数式：どう計算されるのか

tanhは以下の数式で定義されます。

基本的な定義式

tanh(x) = (e^x – e^(-x)) / (e^x + e^(-x))

ここで：

e：自然対数の底（約2.71828…）
x：入力値
e^x：eのx乗

より分かりやすい形

sinh（シンエイチ）とcosh（コシュエイチ）を使うと、こうも書けます：

tanh(x) = sinh(x) / cosh(x)

ここで：

sinh(x) = (e^x – e^(-x)) / 2
cosh(x) = (e^x + e^(-x)) / 2

別の表現方法

指数関数を使った別の書き方もあります：

tanh(x) = (e^(2x) – 1) / (e^(2x) + 1)

どの式も同じ関数を表していますが、計算方法や用途によって使い分けられます。

tanhのグラフ：S字型の美しい曲線

tanhのグラフを見ると、その特徴がよく分かります。

グラフの特徴

形状：

S字型（シグモイド型）の滑らかな曲線
原点（0, 0）を通る
左右対称（奇関数）

値の範囲：

出力は常に-1から1の間
xが大きくなると1に近づく（漸近）
xが小さくなると-1に近づく（漸近）

重要なポイント

x = 0の時：

tanh(0) = 0

x = 1の時：

tanh(1) ≈ 0.76

x = 2の時：

tanh(2) ≈ 0.96

x = 3の時：

tanh(3) ≈ 0.995（ほぼ1）

x = -3の時：

tanh(-3) ≈ -0.995（ほぼ-1）

このように、xの絶対値が大きくなるほど、出力は±1に急速に近づきます。

微分の特徴

tanhの微分（傾き）も重要です：

d/dx tanh(x) = 1 – tanh²(x)

または：

d/dx tanh(x) = sech²(x)

微分の特徴：

x = 0付近で最大値1を取る
xが大きくなると0に近づく
常に正の値（単調増加関数）

この性質が、機械学習での学習効率に影響するんです。

機械学習での活用：活性化関数としてのtanh

tanhが最も活躍するのが、ニューラルネットワークの活性化関数としての役割です。

活性化関数とは？

活性化関数（Activation Function）は、ニューラルネットワークの各ニューロン（神経細胞を模した計算単位）で、入力を非線形に変換する関数です。

なぜ必要なのか：

線形計算だけでは複雑なパターンを学習できない
非線形性を導入することで表現力が大幅に向上
層を重ねる意味が生まれる

tanhを使う理由

主な利点：

1. 出力が-1から1の範囲

正負両方の値を扱える
平均が0に近くなる

2. 原点対称

負の入力に対しても適切に反応
データの偏りを防ぐ

3. 滑らかな曲線

微分可能で勾配計算ができる
バックプロパゲーション（誤差逆伝播）で学習可能

実際の使用場面

適している場面：

RNN（リカレントニューラルネットワーク）：

時系列データの処理
過去の情報を保持しながら計算

LSTM（Long Short-Term Memory）：

tanhが複数の箇所で使用される
情報の流れを制御

隠れ層での使用：

中間層の活性化関数として
特に小規模なネットワーク

sigmoidとの比較：似ているけど違う2つの関数

tanhとよく比較されるのがsigmoid関数です。

sigmoid関数とは

sigmoid関数の定義：

σ(x) = 1 / (1 + e^(-x))

出力範囲：

0から1の間

tanhとsigmoidの関係

実は、この2つの関数には数学的な関係があります：

tanh(x) = 2σ(2x) – 1

つまり、sigmoidを変形するとtanhになるんです！

主な違い

出力範囲：

sigmoid：0～1
tanh：-1～1

中心点：

sigmoid：0.5
tanh：0（原点対称）

使用場面：

sigmoid：出力層（二値分類）、ゲート機構
tanh：隠れ層、RNN/LSTM

どちらが優れている？

tanhの利点：

出力の平均が0に近い
学習が速い傾向
勾配消失問題が若干軽減される

sigmoidの利点：

確率として解釈しやすい（0～1の範囲）
出力層での二値分類に最適

現代のニューラルネットワークでは、隠れ層ではtanhの方が好まれる傾向があります。

tanhのメリット：なぜ使われるのか

tanhが活性化関数として選ばれる理由を詳しく見ていきましょう。

1. ゼロ中心の出力

重要性：

出力の平均が0付近になる
次の層への入力が偏らない

具体的な効果：

学習の収束が速くなる
重みの更新が効率的
ジグザグな学習経路を避けられる

2. 強い非線形性

非線形性の意味：

複雑なパターンを表現できる
層を重ねることの意義が生まれる

tanhの非線形性：

S字型の曲線
入力に応じて柔軟に変化
極端な値を抑制

3. 微分が計算しやすい

微分の式：

d/dx tanh(x) = 1 – tanh²(x)

利点：

tanhの値から直接微分を計算できる
計算効率が良い
バックプロパゲーションでの処理が高速

4. 範囲が制限されている

値の範囲：

常に-1から1の間
無限大や極端な値にならない

効果：

数値的に安定
オーバーフローを防ぐ
勾配の爆発を抑制

5. RNN/LSTMとの相性が良い

時系列データ処理：

過去の情報を適度に保持
正負の情報を扱える
メモリセルでの情報制御に適している

tanhのデメリット：勾配消失問題

優れた特性を持つtanhですが、欠点もあります。

勾配消失問題（Vanishing Gradient Problem）

最大の問題が勾配消失問題です。

問題の内容：

xの絶対値が大きい領域で微分（勾配）が非常に小さくなる
深い層になるほど勾配が小さくなる
学習が進まなくなる

具体的な数値：

x = 3の時、微分値は約0.01
x = 5の時、微分値は約0.0001
x = 10の時、微分値はほぼ0

なぜ問題なのか

バックプロパゲーションへの影響：

ニューラルネットワークの学習では、出力層から入力層に向かって誤差を伝播させます。

勾配消失の連鎖：

各層で小さな勾配が掛け合わされる
層が深くなるほど勾配が指数関数的に小さくなる
初期層の重みがほとんど更新されない
学習が停滞する

例：

10層のネットワークで各層の勾配が0.1
入力層での勾配は0.1^10 = 0.0000000001

これでは学習が進みません。

飽和の問題

飽和（Saturation）とは：

入力が大きい/小さい時、出力が1/-1に張り付く状態
この領域では微分がほぼ0

影響：

ニューロンが「死ぬ」（学習しなくなる）
一度飽和すると抜け出しにくい

計算コストの問題

指数関数の計算：

tanhの計算にはe^xが必要
指数関数は計算コストが高い
大規模ネットワークでは処理時間に影響

他の活性化関数との比較

tanhは多くの活性化関数の1つです。他の関数と比較してみましょう。

ReLU（Rectified Linear Unit）

定義：

ReLU(x) = max(0, x)

特徴：

x > 0の時、そのまま出力
x ≤ 0の時、0を出力

メリット：

計算が非常に簡単
勾配消失問題が少ない
学習が速い

デメリット：

負の値の情報が失われる
Dying ReLU問題（ニューロンが死ぬ）

tanhとの比較：

ReLUの方が計算効率が良い
tanhの方が滑らかな出力
現代ではReLUの方が主流

Leaky ReLU

定義：

Leaky ReLU(x) = max(0.01x, x)

特徴：

負の値でも小さな勾配を保つ
Dying ReLU問題を軽減

tanhとの比較：

計算効率はLeaky ReLUが上
tanhは滑らかで連続的

ELU（Exponential Linear Unit）

定義：

ELU(x) = x（x > 0の時）
ELU(x) = α(e^x – 1)（x ≤ 0の時）

特徴：

負の値でも滑らかな曲線
平均出力が0に近い

tanhとの比較：

両方とも負の値を扱える
ELUは片側が線形で計算効率が良い

Swish（SiLU）

定義：

Swish(x) = x × sigmoid(x)

特徴：

Googleが開発した新しい関数
滑らかで非単調

tanhとの比較：

より複雑な非線形性
一部のタスクで高性能
計算コストは高め

使い分けの目安

ReLU系を選ぶべき場合：

深いネットワーク
画像認識
計算速度重視

tanhを選ぶべき場合：

RNN/LSTM
浅いネットワーク
負の値の情報が重要

sigmoidを選ぶべき場合：

出力層（二値分類）
ゲート機構

tanhの実装：実際のコードで見る

実際にtanhを使う方法を見てみましょう。

Pythonでの実装

NumPyを使った基本的な実装：

import numpy as np

# tanhを計算する関数
def tanh(x):
    return np.tanh(x)

# 例
x = np.array([-2, -1, 0, 1, 2])
y = tanh(x)
print(y)
# 出力: [-0.96402758 -0.76159416  0.  0.76159416  0.96402758]

数式から直接計算：

def tanh_manual(x):
    return (np.exp(x) - np.exp(-x)) / (np.exp(x) + np.exp(-x))

機械学習フレームワークでの使用

TensorFlow/Keras：

from tensorflow.keras.layers import Dense, Activation

# 活性化関数としてtanhを指定
model.add(Dense(64, activation='tanh'))

# または
model.add(Dense(64))
model.add(Activation('tanh'))

PyTorch：

import torch.nn as nn

# レイヤー定義
self.fc1 = nn.Linear(input_size, hidden_size)
self.tanh = nn.Tanh()

# 順伝播
x = self.tanh(self.fc1(x))

微分の実装

tanhの微分を計算：

def tanh_derivative(x):
    t = np.tanh(x)
    return 1 - t**2

# または既にtanhを計算済みの場合
def tanh_derivative_from_output(tanh_output):
    return 1 - tanh_output**2

実際の応用例：tanhが活躍する場面

tanhは実際にどのような場面で使われているのでしょうか？

1. LSTM（Long Short-Term Memory）

LSTMの構造：

tanhが複数の箇所で使用される
セルステートの更新
出力ゲートでの情報制御

具体的な役割：

新しい情報の候補を作成（-1～1の範囲）
メモリセルの値を制御
最終出力を調整

なぜtanh？

正負の値を扱える
メモリセルの値を適切な範囲に保つ
sigmoid（ゲート機構）との組み合わせが効果的

2. 自然言語処理（NLP）

使用例：

文章生成モデル
機械翻訳
感情分析

tanhの役割：

単語の意味表現（エンベディング）の変換
文脈情報の処理
系列データの時間的依存関係の学習

3. 時系列予測

応用分野：

株価予測
気象予報
センサーデータの解析

tanhの利点：

過去のトレンド（正負）を保持
急激な変化を滑らかに処理
予測値を適切な範囲に制限

4. オートエンコーダー

使用場面：

次元削減
異常検知
ノイズ除去

tanhの効果：

特徴量の圧縮表現
正規化された潜在空間の生成

tanhの最適化技術：より効果的に使う方法

tanhの欠点を補い、効果的に使う技術があります。

1. 適切な重みの初期化

問題：

初期の重みが大きいと、すぐに飽和する
学習が始まらない

解決策：Xavier初期化（Glorot初期化）：

tanhなどの対称な活性化関数に適した初期化
各層の入出力のバランスを考慮
勾配の流れを改善

具体的な方法：

重みを平均0、分散2/(入力数+出力数)で初期化
層間で適切な分散を維持

2. バッチ正規化（Batch Normalization）

効果：

各層の入力を正規化
飽和を防ぐ
学習の安定化

仕組み：

ミニバッチごとに平均と分散を計算
データを正規化
tanhの効果的な範囲で動作

3. 学習率の調整

適応的学習率：

Adam、RMSpropなどのオプティマイザー
勾配に応じて学習率を調整
小さな勾配でも学習が進む

4. 層の数の制限

実践的な対策：

tanhを使う場合は深すぎないネットワークに
5～10層程度が目安
より深い場合はReLU系を検討

5. 残差接続（Residual Connection）

ResNetの技術：

層をスキップする接続を追加
勾配が直接流れる経路を確保
tanhでも深いネットワークが可能に

まとめ：tanhは今でも重要な活性化関数

tanhは古典的ながら、現代でも重要な役割を果たす活性化関数です。

この記事のポイント：

tanhは-1から1の範囲に値を変換する双曲線関数
S字型の滑らかな曲線で原点対称
活性化関数としてニューラルネットワークで使用
sigmoidより学習効率が良い（ゼロ中心の出力）
RNN/LSTMで特に重要な役割
勾配消失問題という欠点がある
現代ではReLUの方が主流だが、用途によって使い分ける
適切な初期化やバッチ正規化で性能向上が可能

tanhは万能ではありませんが、適切な場面で使えば優れた性能を発揮します。

深層学習の初期から使われてきた歴史ある関数であり、LSTM などの重要なアーキテクチャの基盤となっています。

新しい活性化関数も次々と開発されていますが、tanhの基本的な考え方は今後も機械学習の重要な要素であり続けるでしょう。

機械学習を学ぶ方は、tanhの特性を理解することで、より適切なモデル設計ができるようになります。ぜひこの知識を活用してください！

tanh（ハイパボリックタンジェント）とは？基本の定義

簡単に言うと

双曲線関数とは？普通の三角関数との違い

三角関数との関係

名前の由来

tanhの数式：どう計算されるのか

基本的な定義式

より分かりやすい形

別の表現方法

tanhのグラフ：S字型の美しい曲線

グラフの特徴

重要なポイント

微分の特徴

機械学習での活用：活性化関数としてのtanh

活性化関数とは？

tanhを使う理由

実際の使用場面

sigmoidとの比較：似ているけど違う2つの関数

sigmoid関数とは

tanhとsigmoidの関係

主な違い

どちらが優れている？

tanhのメリット：なぜ使われるのか

1. ゼロ中心の出力

2. 強い非線形性

3. 微分が計算しやすい

4. 範囲が制限されている

5. RNN/LSTMとの相性が良い

tanhのデメリット：勾配消失問題

勾配消失問題（Vanishing Gradient Problem）

なぜ問題なのか

飽和の問題

計算コストの問題

他の活性化関数との比較

ReLU（Rectified Linear Unit）

Leaky ReLU

ELU（Exponential Linear Unit）

Swish（SiLU）

使い分けの目安

tanhの実装：実際のコードで見る

Pythonでの実装

機械学習フレームワークでの使用

微分の実装

実際の応用例：tanhが活躍する場面

1. LSTM（Long Short-Term Memory）

2. 自然言語処理（NLP）

3. 時系列予測

4. オートエンコーダー

tanhの最適化技術：より効果的に使う方法

1. 適切な重みの初期化

2. バッチ正規化（Batch Normalization）

3. 学習率の調整

4. 層の数の制限

5. 残差接続（Residual Connection）

まとめ：tanhは今でも重要な活性化関数

Youtube

カテゴリー別人気記事

コメント