スマートフォンやIoTデバイスでAIを動かしたいとき、通常のTensorFlowでは重すぎて実用的ではありません。
そこで登場したのがTensorFlow Lite(テンソルフローライト)です。
この記事では、TensorFlow Liteの仕組みから実際の使い方まで、詳しく解説します。
TensorFlow Liteとは

TensorFlow Lite(テンソルフローライト)は、Googleが開発したモバイルデバイスや組み込みデバイス向けの機械学習フレームワークです。
通常のTensorFlowを軽量化し、スマートフォンやRaspberry Piなどのリソースが限られたデバイスで高速に推論(inference)を実行できるように設計されています。
TensorFlow Liteの読み方
日本では主に2つの読み方があります。
- 「テンソルフローライト」
- 「テンサーフローライト」
Google内部では「テンサーフロー」で統一されているようですが、日本の機械学習コミュニティでは「テンソルフロー」の方が一般的です。
開発の背景
2017年にGoogleによって発表されたTensorFlow Liteは、機械学習モデルをエッジデバイスで実行するために1から設計されました。
クラウドで学習したモデルを使って、デバイス上で素早く推論を行うことが主な目的です。
TensorFlowとの違い
TensorFlow LiteとTensorFlowは、どちらもGoogleが開発した機械学習フレームワークですが、設計目的が異なります。
設計目的の違い
TensorFlow
- 用途:モデルの学習(Training)と推論(Inference)の両方
- 環境:サーバー、デスクトップPC、クラウド
- 処理能力:高性能なハードウェアを前提
TensorFlow Lite
- 用途:推論(Inference)のみ
- 環境:モバイル、IoT、エッジデバイス
- 処理能力:限られたリソースでの動作を前提
バイナリサイズの違い
TensorFlow
- サイズ:数百MB以上
TensorFlow Lite
- 最小サイズ:約300KB未満(基本的な演算子のみ)
- すべての演算子を含む場合:約1MB(32ビットARMビルド)
TensorFlow Liteは、通常のTensorFlowの数百分の一のサイズです。
対応演算子の違い
TensorFlowは数千の演算子をサポートしていますが、TensorFlow Liteは現在125以上の演算子に制限されています。
ただし、一般的な画像分類モデル(InceptionV3、MobileNet)に必要な演算子は完全にサポートされています。
TensorFlow Liteの主な特徴
TensorFlow Liteには、エッジデバイスでの実行に最適な特徴があります。
軽量性(Lightweight)
TensorFlow Liteは元のTensorFlowライブラリより大幅に小さいサイズで設計されています。
モデルサイズの削減
- 通常のTensorFlowモデルと比較して約4分の1のサイズ
- 量子化により、さらにサイズを削減可能
処理能力が低いモバイルデバイスでも、素早く起動と初期化が可能です。
高速性(Fast)
モバイルデバイス上での高速な推論を実現します。
最適化技術
- ハードウェアアクセラレーションの活用
- モデルの最適化
- 効率的なメモリアクセス
例えば、MobileNet V2モデルの推論は、CPUで約400FPS(フレーム毎秒)の速度で実行できます。
クロスプラットフォーム(Cross-platform)
複数のプラットフォームで動作します。
対応プラットフォーム
- Android
- iOS
- Linux(Raspberry Piなど)
- Windows
- macOS
- マイクロコントローラー
一度開発すれば、さまざまなデバイスで利用できます。
簡単な統合
既存のアプリケーションに簡単に組み込めます。
サポート言語
- Java(Android)
- Swift(iOS)
- Objective-C(iOS)
- C++
- Python
各プラットフォームのネイティブAPIを使って、簡単にTensorFlow Liteを統合できます。
TensorFlow Liteのアーキテクチャ
TensorFlow Liteは、主に2つのコンポーネントで構成されています。
TensorFlow Lite Converter(コンバーター)
TensorFlowモデルをTensorFlow Lite形式に変換するツールです。
変換元のフォーマット
- SavedModel形式(.pb)
- Keras形式(.h5)
- Concrete Functions
変換先のフォーマット
- FlatBuffers形式(.tflite)
FlatBuffersは、効率的でポータブルなファイルフォーマットです。
TensorFlowのプロトコルバッファ形式と比較して、以下の利点があります。
- サイズが小さい
- 推論速度が向上(解析や解凍なしでデータに直接アクセス可能)
- メモリ使用量が少ない
TensorFlow Lite Interpreter(インタープリター)
TensorFlow Liteモデルを実行するランタイムです。
特徴
- 非常に軽量(70KB〜300KB程度)
- 必要な演算子のみをロード可能
- 部分的な演算子の実行が可能
インタープリターは、入力データを受け取り、モデルを実行して、推論結果を出力します。
モデル変換の手順
既存のTensorFlowモデルをTensorFlow Liteで使用するには、以下の手順で変換します。
基本的な変換
最もシンプルな変換方法です。
import tensorflow as tf
# SavedModelから変換
converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)
tflite_model = converter.convert()
# ファイルに保存
with open("model.tflite", "wb") as f:
f.write(tflite_model)
Kerasモデルの変換
Kerasで作成したモデルも簡単に変換できます。
import tensorflow as tf
# Kerasモデルをロード
model = tf.keras.models.load_model("model.h5")
# TensorFlow Liteに変換
converter = tf.lite.TFLiteConverter.from_keras_model(model)
tflite_model = converter.convert()
# 保存
with open("model.tflite", "wb") as f:
f.write(tflite_model)
最適化を適用した変換
モデルサイズや推論速度を改善するために、最適化を適用できます。
import tensorflow as tf
converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)
# 最適化を有効化
converter.optimizations = [tf.lite.Optimize.DEFAULT]
tflite_model = converter.convert()
with open("optimized_model.tflite", "wb") as f:
f.write(tflite_model)
量子化(Quantization)

量子化は、TensorFlow Liteの最も重要な最適化技術の一つです。
量子化とは
量子化は、モデルのパラメータ(重みや活性化出力)の精度を下げる技術です。
通常のモデル
- データ型:32ビット浮動小数点数(FP32)
- メモリ使用量:大きい
- 演算速度:遅い
量子化されたモデル
- データ型:8ビット整数(INT8)
- メモリ使用量:約4分の1
- 演算速度:高速
量子化により、精度の低下を最小限に抑えながら、モデルサイズと推論時間を大幅に削減できます。
量子化の種類
TensorFlow Liteは、複数の量子化方法をサポートしています。
1. 動的範囲量子化(Dynamic Range Quantization)
最もシンプルな量子化方法です。
特徴
- 重みを8ビット整数に変換
- 活性化は浮動小数点のまま
- モデルサイズが約4分の1に削減
- 精度の低下が最小限
変換コード
converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)
converter.optimizations = [tf.lite.Optimize.DEFAULT]
tflite_model = converter.convert()
2. Float16量子化
重みを16ビット浮動小数点数に変換します。
特徴
- モデルサイズが約2分の1に削減
- GPU高速化に適している
- 精度の低下がほとんどない
変換コード
converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)
converter.optimizations = [tf.lite.Optimize.DEFAULT]
converter.target_spec.supported_types = [tf.float16]
tflite_model = converter.convert()
3. 完全整数量子化(Full Integer Quantization)
重みと活性化の両方を8ビット整数に変換します。
特徴
- 最大のサイズ削減と速度向上
- 整数演算のみのハードウェア(マイクロコントローラー、Edge TPU)で動作
- 代表データセットが必要
変換コード
def representative_dataset():
for _ in range(100):
# サンプルデータを生成
data = np.random.rand(1, 224, 224, 3).astype(np.float32)
yield [data]
converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)
converter.optimizations = [tf.lite.Optimize.DEFAULT]
converter.representative_dataset = representative_dataset
tflite_model = converter.convert()
量子化対応学習(Quantization-Aware Training)
学習時に量子化を考慮してモデルを訓練する方法です。
メリット
- 量子化後の精度低下が最小限
- より高品質なモデルが得られる
デメリット
- 学習時に追加の処理が必要
- 学習時間が増加
通常、量子化対応学習は、学習後量子化よりも高い精度を達成します。
推論の実行
TensorFlow Liteモデルで推論を実行する基本的な流れは以下の通りです。
Pythonでの推論
import numpy as np
import tensorflow as tf
# インタープリターの作成
interpreter = tf.lite.Interpreter(model_path="model.tflite")
interpreter.allocate_tensors()
# 入力と出力の詳細を取得
input_details = interpreter.get_input_details()
output_details = interpreter.get_output_details()
# 入力データの準備
input_shape = input_details[0]['shape']
input_data = np.array(np.random.random_sample(input_shape), dtype=np.float32)
# 推論の実行
interpreter.set_tensor(input_details[0]['index'], input_data)
interpreter.invoke()
# 結果の取得
output_data = interpreter.get_tensor(output_details[0]['index'])
print(output_data)
Androidでの推論
AndroidではJava APIを使用します。
// インタープリターの作成
Interpreter tflite = new Interpreter(loadModelFile());
// 入力と出力の準備
float[][] input = new float[1][224][224][3];
float[][] output = new float[1][1000];
// 推論の実行
tflite.run(input, output);
iOSでの推論
iOSではSwift APIを使用します。
// インタープリターの作成
let interpreter = try Interpreter(modelPath: modelPath)
try interpreter.allocateTensors()
// 入力データの設定
let inputData: Data = // 入力データ
try interpreter.copy(inputData, toInputAt: 0)
// 推論の実行
try interpreter.invoke()
// 結果の取得
let outputTensor = try interpreter.output(at: 0)
対応プラットフォームと環境
TensorFlow Liteは、さまざまなプラットフォームで動作します。
モバイルデバイス
Android
- Android Studio統合
- Java/Kotlin API
- Android Neural Network API対応(Android 8.1以降)
iOS
- Xcode統合
- Swift/Objective-C API
- Core ML連携
組み込みデバイス
Linux(Raspberry Piなど)
- Python API
- C++ API
- Debian Linuxで動作
マイクロコントローラー
- TensorFlow Lite for Microcontrollersを使用
- 数キロバイトのメモリで動作
- Arduino、ESP32などに対応
デスクトップ
Windows、macOS、Linux
- Python API
- C++ API
- 開発・テスト環境として利用
ハードウェアアクセラレーション
TensorFlow Liteは、各プラットフォームのハードウェアアクセラレーションをサポートします。
GPU Delegate
GPUを使用して推論を高速化します。
対応プラットフォーム
- Android:Android Neural Network API経由
- iOS:Metal API経由
Edge TPU
GoogleのEdge TPUを使用すると、さらに高速な推論が可能です。
性能
- CPU比で数十倍〜100倍以上の高速化
- 低消費電力
NNAPI(Android Neural Network API)
Android 8.1以降で利用可能なハードウェアアクセラレーションです。
デバイスに搭載されたDSP、NPU、GPUを自動的に活用します。
TensorFlow Liteのメリット
TensorFlow Liteを使用することで、以下のようなメリットが得られます。
デバイス上で動作
プライバシー保護
- データをクラウドに送信する必要がない
- 個人情報や機密情報をデバイス内で処理
オフライン動作
- インターネット接続が不要
- ネットワークが不安定な環境でも動作
低遅延
リアルタイム処理
- ネットワーク遅延がゼロ
- ミリ秒単位の応答速度
カメラのリアルタイム物体検出など、瞬時の応答が必要なアプリケーションに最適です。
コスト削減
通信コストの削減
- データ転送量の削減
- クラウド利用料の削減
スケーラビリティ
- ユーザー数が増えてもクラウドコストが増加しない
バッテリー効率
モバイルデバイスで効率的に動作し、バッテリー消費を最小限に抑えます。
幅広い対応
豊富なプラットフォーム
- Android、iOS、Linuxなど多数のプラットフォームに対応
事前学習済みモデル
- 画像分類、物体検出、姿勢推定など、すぐに使えるモデルが提供されている
TensorFlow Liteのデメリット・制約
一方で、TensorFlow Liteにはいくつかの制約もあります。
推論のみサポート
学習は不可
- デバイス上での完全な学習はサポートされていない
- 転移学習の一部機能は利用可能
モデルの学習は、サーバーやクラウドで行う必要があります。
演算子の制約
サポートされる演算子が限定的
- すべてのTensorFlow演算子が利用できるわけではない
- 125以上の演算子をサポート
カスタム演算子を使用したモデルは、変換できない場合があります。
変換時の精度低下
量子化による影響
- 8ビット量子化により、精度が低下する可能性がある
- 多くのモデルでは影響は最小限
アプリケーションによっては、精度低下が許容できない場合があります。
モデルサイズの制約
大規模モデルには不向き
- メモリが限られたデバイスでは、大規模モデルは実行できない
モデルを軽量化する必要があります。
デバッグの難しさ
エラーメッセージが限定的
- 変換エラーや実行エラーのデバッグが難しい場合がある
活用事例
TensorFlow Liteは、さまざまな分野で活用されています。
画像認識
用途
- リアルタイム物体検出
- 画像分類
- 顔認識
事例
- スマートフォンカメラの被写体認識
- ARアプリケーション
- 監視カメラシステム
自然言語処理
用途
- テキスト分類
- 質問応答システム
- スマートリプライ
事例
- チャットアプリの自動返信候補
- メールアプリのスマート返信
- 音声アシスタント
音声認識
用途
- ウェイクワード検出
- 音声コマンド認識
- リアルタイム翻訳
事例
- スマートスピーカー
- ボイスアシスタント
- 会議録音アプリ
姿勢推定
用途
- 人体の骨格検出
- フィットネストラッキング
- ジェスチャー認識
事例
- フィットネスアプリ
- ARゲーム
- 手話認識
IoT・エッジデバイス
用途
- 異常検知
- 予測メンテナンス
- スマートホーム
事例
- 産業用センサー
- スマート照明
- セキュリティシステム
TensorFlow Liteと他のフレームワークの比較

PyTorch Mobile
PyTorch
- PyTorchモデルをモバイルで実行
- 研究開発に人気
TensorFlow Lite
- 商用向け機能が豊富
- 幅広いプラットフォームサポート
Core ML(Apple)
Core ML
- iOS/macOS専用
- Appleデバイスに最適化
TensorFlow Lite
- クロスプラットフォーム
- Android、iOS、Linuxなどに対応
ONNX Runtime
ONNX Runtime
- 複数のフレームワークをサポート
- クロスプラットフォーム
TensorFlow Lite
- TensorFlowエコシステムとの統合
- モバイル特化の最適化
TensorFlow Liteの将来
TensorFlow Liteは、継続的に進化しています。
LiteRTへの名称変更
2024年に、TensorFlow LiteはLiteRT(Lite Runtime)に改名されました。
これは、TensorFlow以外のフレームワーク(PyTorch、JAX)からの変換もサポートすることを示しています。
機能の拡張
今後のロードマップ
- デバイス上での学習サポート
- より多くの演算子のサポート
- パフォーマンスの向上
採用の拡大
現在の実績
- 10万件以上のアプリケーション
- 数十億台のデバイスで動作
今後さらに多くのアプリケーションで採用されることが予想されます。
まとめ
TensorFlow Lite(テンソルフローライト)は、モバイルデバイスや組み込みデバイス向けに最適化された機械学習フレームワークです。
主な特徴
- 軽量(300KB〜1MB程度)
- 高速(ハードウェアアクセラレーション対応)
- クロスプラットフォーム(Android、iOS、Linuxなど)
- 簡単な統合
メリット
- プライバシー保護とオフライン動作
- 低遅延でリアルタイム処理が可能
- コスト削減とバッテリー効率
デメリット
- 推論のみサポート(学習は不可)
- 演算子の制約
- 量子化による精度低下の可能性
活用分野
- 画像認識、物体検出
- 自然言語処理
- 音声認識
- 姿勢推定
- IoT・エッジデバイス
TensorFlow Liteを使用することで、リソースが限られたデバイスでも高速なAI推論が可能になります。
プライバシーを重視したオンデバイスAIの需要が高まる中、TensorFlow Liteはエッジコンピューティングの中核技術として、今後さらに重要性を増していくでしょう。

コメント