YouTubeやNetflixなどの動画配信サービスを毎日使っていても、その裏側でどんな技術が使われているか考えたことはありますか?
動画ファイルは圧縮しないと膨大なサイズになってしまい、インターネットで配信することも、スマホに保存することもできません。そこで活躍するのが「ハイブリッド符号化方式」です。
この技術は、MPEG、H.264、H.265など、私たちが日常的に使っている動画フォーマットのほぼすべてに採用されている、動画圧縮の基本中の基本です。
でも「ハイブリッド符号化」と聞いても、専門用語だらけで何のことかさっぱりわからないですよね。
今回は、この重要な技術について、専門知識がない方でも理解できるよう、わかりやすく解説していきます。
ハイブリッド符号化方式とは?
基本的な定義
ハイブリッド符号化方式とは、動き補償(Motion Compensation)と離散コサイン変換(DCT: Discrete Cosine Transform)という2つの技術を組み合わせた動画圧縮技術のことです。
英語では「Motion-Compensated DCT (MC-DCT)」または「Hybrid Coding」と呼ばれます。
「ハイブリッド」の意味
「ハイブリッド」という名前の通り、この方式は複数の技術を組み合わせています。
組み合わせている技術
- 動き補償(MC: Motion Compensation):フレーム間の時間的な冗長性を削減
- 離散コサイン変換(DCT):フレーム内の空間的な冗長性を削減
この2つの技術を組み合わせることで、単独で使うよりもはるかに高い圧縮率を実現できます。
どこで使われているか?
ハイブリッド符号化方式は、以下のような動画規格で使用されています。
主な動画規格
- H.261(1988年):最初の実用的な動画圧縮規格
- MPEG-1(1991年):VCD(ビデオCD)で使用
- MPEG-2(1994年):DVD、デジタル放送で使用
- MPEG-4(1999年):インターネット動画で広く使用
- H.264/AVC(2003年):Blu-ray、YouTube、Netflixで使用
- H.265/HEVC(2013年):4K動画配信で使用
- AV1(2018年):次世代の動画配信で使用
- H.266/VVC(2020年):8K動画対応の最新規格
つまり、私たちが日常的に見ている動画のほぼすべてが、この技術で圧縮されています。
なぜ動画圧縮が必要なのか?
圧縮しない動画のサイズ
まず、動画を圧縮しないとどれくらいのサイズになるか見てみましょう。
フルHD動画(1920×1080ピクセル、30fps)の場合
1フレームのサイズ:
1920 × 1080 ピクセル × 3バイト(RGB各色8ビット)= 約6MB
1秒間のサイズ(30フレーム):
6MB × 30フレーム = 180MB/秒
1分間のサイズ:
180MB × 60秒 = 10.8GB/分
具体例
- 2時間の映画:約1.3TB(テラバイト)
- 1時間のドラマ:約648GB
- 3分のミュージックビデオ:約32GB
これでは、スマホに保存することも、インターネットで配信することも現実的ではありません。
圧縮することで得られるメリット
ストレージ容量の節約
- Blu-rayディスク(50GB)に2時間の映画を収録できる
- スマホに何時間分もの動画を保存できる
インターネット配信が可能になる
- YouTubeで動画をスムーズに視聴できる
- Netflixで映画を途切れずに楽しめる
通信量の削減
- モバイル回線でも動画を視聴できる
- 通信料金を抑えられる
ハイブリッド符号化方式の2つの核心技術
技術1:動き補償(Motion Compensation)
動き補償は、時間的冗長性を削減する技術です。
時間的冗長性とは?
動画は連続した静止画(フレーム)の集まりです。例えば、1秒間に30枚の画像を連続して表示することで、動いているように見せています。
重要なポイント
連続するフレーム同士は、ほとんど同じ内容です。
例えば、カメラの前で人が話しているシーンでは:
- 背景は変わらない
- 人物の顔の位置はほぼ同じ
- 口の動きなど、わずかな部分だけが変化している
この「フレーム間で共通する情報」が時間的冗長性です。
動き補償の仕組み
動き補償では、以下の手順でフレームを圧縮します。
ステップ1:基準フレーム(Iフレーム)を保存
最初のフレームは、そのまま全体を保存します。これをIフレーム(Intra-coded frame)と呼びます。
ステップ2:差分だけを保存(Pフレーム)
次のフレームは、前のフレームとの差分だけを保存します。これをPフレーム(Predictive-coded frame)と呼びます。
具体例
- フレーム1(Iフレーム):画面全体を保存
- フレーム2(Pフレーム):「人物が右に5ピクセル移動した」という情報だけを保存
- フレーム3(Pフレーム):「口が開いた」という情報だけを保存
このように、変化した部分だけを記録することで、データ量を大幅に削減できます。
動きベクトルとは?
動き補償では、物体がどの方向にどれだけ移動したかを示す動きベクトルを使います。
例
動きベクトル:(+5, +3)
→ 右に5ピクセル、下に3ピクセル移動
この動きベクトルと、わずかな差分情報を保存するだけで、新しいフレームを再現できます。
技術2:離散コサイン変換(DCT)
DCTは、空間的冗長性を削減する技術です。
空間的冗長性とは?
1枚の画像の中にも、無駄な情報がたくさんあります。
例:青空の画像
青空の部分は、隣り合うピクセルがほぼ同じ青色です。すべてのピクセルの色情報を個別に保存するのは無駄です。
この「画像内で似ている情報」が空間的冗長性です。
DCTの仕組み
DCTは、画像を周波数成分に変換する技術です。
わかりやすい例え
音楽を考えてみましょう。音楽は、低音(ベース)から高音(ハイハット)まで、さまざまな周波数の音が混ざっています。
画像も同じように、滑らかに変化する部分(低周波)と、エッジや細かい模様(高周波)に分解できます。
DCTで何ができるか
- 画像を8×8ピクセルのブロックに分割
- 各ブロックを周波数成分に変換
- 人間の目に見えにくい高周波成分を削除
- 重要な低周波成分だけを保存
具体例
- 低周波成分:青空の滑らかなグラデーション → 重要なので保存
- 高周波成分:ノイズや細かすぎる模様 → 削除しても気づかない
量子化
DCT変換した後、量子化という処理で、さらにデータを削減します。
量子化とは
細かい数値を、より大きな単位で丸める処理です。
例
元の値:123.456
量子化後:120(10の単位で丸める)
このように、細かい違いを捨てることで、データ量を減らします。
人間の目は細かい違いをあまり認識できないので、画質の劣化はほとんど気になりません。
2つの技術の組み合わせ
ハイブリッド符号化方式では、この2つの技術を組み合わせます。
処理の流れ
- 動き補償でフレーム間の差分を計算
- その差分画像に対してDCTを適用
- 量子化でデータを削減
- エントロピー符号化(データを効率的に符号化)して最終的な圧縮データを生成
この組み合わせにより、単独で使うよりもはるかに高い圧縮率を実現しています。
ハイブリッド符号化方式の歴史
誕生と発展
1972年
Nasir Ahmedが離散コサイン変換(DCT)を提案
1974年
Ali Habibi(南カリフォルニア大学)がハイブリッド符号化の概念を提案
※ただし、この時点ではフレーム内のみ
1975年
John A. RoeseとGuner S. Robinsonがハイブリッド符号化を時間軸方向に拡張
※フレーム間予測と動き補償を組み合わせる
1981年
Wen-Hsiung Chenが実用的な動き補償DCT符号化アルゴリズムを開発
1988年
H.261が国際標準として承認される
※ハイブリッド符号化方式を使った最初の実用的な動画圧縮規格
1991年以降
MPEG-1、MPEG-2、H.264、H.265など、すべての主要な動画圧縮規格でハイブリッド符号化方式が採用される
なぜこの方式が主流になったのか?
高い圧縮効率
時間的冗長性と空間的冗長性の両方を削減できる
実装が比較的容易
ハードウェアで高速に処理できる
拡張性が高い
新しい技術を追加して性能を向上させやすい
標準化されている
国際標準規格として広く採用され、互換性が確保されている
フレームの種類(I/P/Bフレーム)
ハイブリッド符号化方式では、3種類のフレームを使い分けます。
Iフレーム(Intra-coded frame)
特徴
- 画像全体を独立して符号化
- 他のフレームを参照しない
- データサイズが大きい
役割
- 基準点として機能
- ランダムアクセス(任意の場所から再生)を可能にする
- エラーからの回復ポイント
使用頻度
通常、数秒に1回程度挿入されます。
Pフレーム(Predictive-coded frame)
特徴
- 前のフレーム(IまたはP)を参照して予測
- 差分情報のみを保存
- データサイズが小さい
役割
- 効率的な圧縮
- 順方向の時間的冗長性を削減
使用頻度
最も多く使用されるフレームタイプです。
Bフレーム(Bidirectionally predictive-coded frame)
特徴
- 前後両方のフレームを参照して予測
- 最も高い圧縮率
- データサイズが最小
役割
- 最高の圧縮効率を実現
- 双方向の時間的冗長性を削減
使用頻度
P フレームの間に配置されます。
GOP(Group of Pictures)構造
これらのフレームは、GOP(Group of Pictures)という単位で管理されます。
典型的なGOP構造の例
I B B P B B P B B P B B P B B I
- Iフレーム:ランダムアクセスポイント
- Pフレーム:前方参照
- Bフレーム:双方向参照
GOPの長さ
- 短いGOP(例:12フレーム):ランダムアクセスしやすいが、圧縮率は低い
- 長いGOP(例:30フレーム):圧縮率が高いが、ランダムアクセスしにくい
用途に応じて最適なGOP構造が選択されます。
Motion JPEGとの違い
Motion JPEG(M-JPEG)とは?
Motion JPEGは、各フレームを独立したJPEG画像として保存する方式です。
特徴
- すべてのフレームがIフレーム
- フレーム間予測を使わない
- 空間的冗長性のみを削減
ハイブリッド符号化方式との比較
| 項目 | Motion JPEG | ハイブリッド符号化 |
|---|---|---|
| フレーム間予測 | なし | あり |
| 圧縮率 | 低い | 高い |
| 画質 | フレームごとに独立 | 効率的 |
| ランダムアクセス | 容易 | やや複雑 |
| ファイルサイズ | 大きい | 小さい |
| 用途 | 業務用カメラ | 一般的な動画配信 |
具体的な圧縮率の違い
同じ画質の場合:
- Motion JPEG:基準(1倍)
- MPEG-4:Motion JPEGの約1/10
- H.264:Motion JPEGの約1/5〜1/20
- H.265:Motion JPEGの約1/10〜1/40
つまり、ハイブリッド符号化方式を使うと、Motion JPEGの10分の1から40分の1のサイズで同じ画質を実現できます。
H.264とH.265の違い
どちらもハイブリッド符号化方式を使っていますが、技術が進化しています。
H.264/AVC(2003年)
特徴
- 16×16ピクセルのマクロブロックを使用
- すべてのブロックを同じサイズで処理
- MPEG-4の約2倍の圧縮効率
用途
- Blu-ray
- YouTube(従来)
- 地上デジタル放送
H.265/HEVC(2013年)
特徴
- 可変サイズのブロック(8×8〜64×64ピクセル)を使用
- 変化の大きい部分は小さいブロック、変化の少ない部分は大きいブロックで処理
- H.264の約2倍の圧縮効率
用途
- 4K/8K動画配信
- Netflix(一部)
- 次世代放送
圧縮率の適正化
H.264の問題点
すべてのブロックを同じ細かさで処理するため、変化の少ない部分でも無駄に細かく処理していました。
H.265の改善
- 大きく変化した部分:細かいブロックで処理
- 変化の少ない部分:大きいブロックでまとめて処理
この最適化により、同じ画質でファイルサイズを半分にできます。
ハイブリッド符号化方式の利点と欠点
利点
1. 高い圧縮効率
時間的冗長性と空間的冗長性の両方を削減できるため、非常に高い圧縮率を実現できます。
2. 柔軟な品質調整
量子化パラメータを調整することで、画質とファイルサイズのバランスを自由に設定できます。
3. 広く普及している
ほぼすべての動画プレイヤーやデバイスで再生できます。
4. ハードウェアサポート
スマートフォンやパソコンのCPU/GPUがハードウェアアクセラレーションに対応しており、高速に処理できます。
欠点
1. 計算量が多い
エンコード(圧縮)に時間がかかります。特に、動き補償の処理は複雑です。
2. エラーに弱い
Pフレームやbフレームは、他のフレームを参照しているため、データの一部が壊れると、複数のフレームに影響が広がります。
3. ランダムアクセスが制限される
任意の位置から再生するには、直前のIフレームから順番に処理する必要があります。
4. 低遅延配信には不向き
リアルタイム配信やテレビ会議では、Bフレームを使うと遅延が増えるため、Iフレームとpフレームのみを使うことがあります。
実際の応用例
YouTube
使用規格:H.264、VP9、AV1
特徴
- アップロード後、複数の解像度とビットレートで自動エンコード
- 視聴環境に応じて最適な品質を配信(アダプティブストリーミング)
Netflix
使用規格:H.264、H.265、AV1
特徴
- 作品ごとに最適なエンコード設定を使用
- 4K HDR配信ではH.265を使用
Zoom/Microsoft Teams
使用規格:H.264
特徴
- 低遅延のため、Bフレームを使わない
- 画質よりも遅延の少なさを優先
防犯カメラ
使用規格:H.264、H.265
特徴
- 長時間録画のため、高圧縮率が重要
- H.265により、同じストレージ容量で2倍の時間録画できる
よくある質問
Q1:ハイブリッド符号化方式を使うと、画質は劣化しますか?
A:はい、ハイブリッド符号化方式は非可逆圧縮なので、元の画質からは劣化します。ただし、適切な設定であれば、人間の目にはほとんど分からないレベルで圧縮できます。高いビットレートで圧縮すれば、劣化を最小限に抑えられます。
Q2:エンコードとデコードの違いは何ですか?
A:エンコードは動画を圧縮する処理、デコードは圧縮された動画を元に戻して再生する処理です。エンコードは複雑な計算が必要で時間がかかりますが、デコードは比較的高速に行えます。そのため、動画編集ソフトでの書き出しには時間がかかりますが、視聴するだけなら普通のスマホでもスムーズに再生できます。
Q3:なぜBフレームを使うと圧縮率が高くなるのですか?
A:Bフレームは前後両方のフレームを参照できるため、より正確な予測ができます。例えば、人物が左から右に移動するシーンでは、前のフレームだけでなく、移動後の未来のフレームも参考にすることで、移動中のフレームをより少ないデータで表現できます。
Q4:4K動画はなぜファイルサイズが大きいのですか?
A:4K動画(3840×2160ピクセル)はフルHD(1920×1080ピクセル)の4倍の画素数があります。ハイブリッド符号化方式を使っても、細かい部分の情報が増えるため、同じ圧縮率でもファイルサイズは2〜3倍になります。ただし、H.265を使えば、H.264の半分のサイズで同じ画質を実現できます。
Q5:ハイブリッド符号化方式に代わる新しい技術はありますか?
A:現在、AI(人工知能)を使った新しい動画圧縮技術が研究されています。ディープラーニングを使って、より高度な予測や圧縮を行う方法が開発中です。ただし、計算量が非常に多いため、実用化にはまだ時間がかかると見られています。当面は、ハイブリッド符号化方式の改良版(H.266/VVCなど)が主流です。
まとめ
ハイブリッド符号化方式は、動き補償(Motion Compensation)と離散コサイン変換(DCT)を組み合わせた動画圧縮技術で、現代の動画配信を支える基盤技術です。
重要なポイント:
- 時間的冗長性と空間的冗長性の両方を削減:フレーム間の共通部分とフレーム内の無駄な情報を同時に削減
- 3種類のフレーム(I/P/B)を使い分け:用途に応じて最適な圧縮率と再生品質を実現
- ほぼすべての動画規格で採用:MPEG、H.264、H.265など、主要な規格はすべてこの方式を使用
- 高い圧縮効率:Motion JPEGの10分の1から40分の1のサイズで同じ画質を実現
技術の進化:
- H.264(2003年):Blu-ray、YouTube、地上デジタル放送で使用
- H.265(2013年):H.264の2倍の圧縮効率、4K動画配信で使用
- H.266/VVC(2020年):H.265の2倍の圧縮効率、8K動画対応
YouTubeで動画を見るとき、Netflixで映画を楽しむとき、Zoomでビデオ会議をするとき、すべてこのハイブリッド符号化方式が裏側で働いています。
この技術のおかげで、私たちは高画質な動画を、手軽に、どこでも楽しむことができるのです!

コメント