2026年2月、Z.ai(旧Zhipu AI)が画期的なOCRモデル「GLM-OCR」をオープンソースとして公開しました。
わずか9億パラメータという軽量設計ながら、文書解析の権威的ベンチマークであるOmniDocBench V1.5で94.62点を獲得し、第1位を記録しています。
この記事では、従来のOCRとは一線を画すGLM-OCRの特徴、技術、活用方法について詳しく解説します。
GLM-OCRとは
GLM-OCRは、Z.ai社が開発した文書理解に特化したマルチモーダルOCRモデルです。
2026年2月初旬にオープンソース(MITライセンス)として公開されました。
従来のOCR(光学文字認識)が文字の読み取りに特化していたのに対し、GLM-OCRは「文書の理解」に焦点を当てています。
単に文字を認識するだけでなく、文書の構造(見出し、表、数式、レイアウトなど)を把握し、意味のある形式(Markdown、JSON、LaTeXなど)で出力します。
GLM-OCRの開発元
GLM-OCRを開発したZ.aiは、中国・清華大学発のAI企業です。
2019年に設立され、2025年7月に「Zhipu AI」から「Z.ai」に国際ブランド名を変更しました。
2026年1月には香港証券取引所に上場し、Knowledge Atlas Technology Joint Stock Co., Ltd.が正式名称となっています。
Z.aiは、GLMシリーズ(General Language Model)と呼ばれる大規模言語モデルの開発で知られており、GLM-4.5、GLM-4.6、GLM-4.7などの言語モデルをリリースしています。
GLM-OCRは、このGLMシリーズの技術を文書理解に応用したモデルです。
OCRとは
OCR(Optical Character Recognition、光学文字認識)とは、画像やPDFファイルに含まれる文字をデジタルテキストに変換する技術です。
従来のOCRは、主に以下の用途で使われてきました。
- スキャンした書類のデジタル化
- 名刺情報の読み取り
- レシートや請求書のデータ化
- 手書き文字の認識
しかし、従来のOCRには限界がありました。
文字を認識できても、文書の構造(どこが見出しで、どこが本文か、表がどう構成されているかなど)を理解することは困難でした。
GLM-OCRは、この問題を解決する次世代のOCRモデルです。
GLM-OCRの主な特徴
軽量かつ高性能
GLM-OCRの最大の特徴は、パラメータ数9億という軽量設計ながら、最先端の性能を実現している点です。
多くの高性能AIモデルが数百億から数千億のパラメータを持つのに対し、GLM-OCRは9億パラメータに抑えられています。
これにより、以下のメリットがあります。
- 推論速度が速い
- 必要な計算リソースが少ない
- デプロイが容易
- コストが低い
文書構造の理解
GLM-OCRは、単なる文字認識を超えて、文書の構造を理解します。
具体的には、以下の要素を正確に認識・再現できます。
- 見出しとセクション
- 表の構造
- 数式(LaTeX形式で出力)
- 図やグラフ
- 脚注や注釈
- コードブロック
構造化された出力形式
GLM-OCRは、認識結果を以下の形式で出力できます。
Markdown形式:
- 人間が読みやすい
- ドキュメント作成に適している
- GitHubやNotionなどで直接利用可能
JSON形式:
- プログラムで処理しやすい
- データベースへの格納に適している
- 自動化ワークフローに組み込みやすい
LaTeX形式:
- 数式を正確に表現
- 学術論文の処理に適している
多言語対応
GLM-OCRは100以上の言語をサポートしています。
特に、英語、中国語(繁体字・簡体字)、日本語、主要なヨーロッパ言語で高い精度を発揮します。
手書き文字の認識
従来のOCRが苦手としていた手書き文字も、GLM-OCRは高精度で認識できます。
文脈を理解することで、判読困難な文字でも周辺の情報から推測し、正確に読み取ります。
GLM-OCRの技術アーキテクチャ
GLM-OCRは、GLM-Vエンコーダー・デコーダーアーキテクチャをベースに構築されています。
主要コンポーネント
1. CogViT視覚エンコーダー
GLM-OCR独自のCogViT(Cognitive Vision Transformer)視覚エンコーダーが、画像から視覚情報を抽出します。
このエンコーダーは、大規模な画像-テキストペアで事前学習されており、視覚情報の意味理解に優れています。
2. クロスモーダルコネクター
視覚情報を言語モデルが処理できる形式に変換する軽量なコネクターです。
効率的なトークンダウンサンプリングにより、処理速度を向上させています。
3. GLM-0.5B言語デコーダー
5億パラメータの言語モデルが、視覚情報を元にテキストを生成します。
文脈を理解し、誤認識を自動的に修正する機能も備えています。
4. PP-DocLayout-V3レイアウト解析
文書のレイアウトを解析し、各領域(見出し、本文、表、図など)を識別します。
このコンポーネントはApache License 2.0でライセンスされています。
Multi-Token Prediction (MTP)
GLM-OCRは、Multi-Token Prediction(MTP)損失を導入しています。
従来のモデルが1トークンずつ予測するのに対し、MTPは複数のトークンを同時に予測します。
これにより、以下の効果があります。
- 学習効率の向上
- 認識精度の向上
- 一貫性のある出力
強化学習
GLM-OCRは、安定したフルタスク強化学習を採用しています。
これにより、実際の文書解析タスクにおける性能が最適化されています。
GLM-OCRの性能
ベンチマーク結果
GLM-OCRは、権威的な文書解析ベンチマークで優れた成績を収めています。
OmniDocBench V1.5:
- スコア:94.62点
- 順位:第1位
OmniDocBenchは、多様な文書レイアウト、表、数式、情報抽出タスクを網羅する総合的なベンチマークです。
GLM-OCRは、この分野で最先端(SOTA:State-of-the-Art)の性能を達成しています。
専門分野でのSOTA:
GLM-OCRは、以下の専門分野でも最先端の性能を記録しています。
- 数式認識
- 表の認識と構造化
- 情報抽出
公式の発表によれば、GLM-OCRの性能はGemini 3 Proに近い水準に達しているとされています。
処理速度
GLM-OCRは、同等のハードウェア環境で以下の処理速度を実現しています。
PDF文書:
- 処理速度:1.86ページ/秒
- 同等モデルと比較して大幅に高速
画像:
- 処理速度:0.67枚/秒
- リアルタイム処理にも対応可能
この処理速度は、9億パラメータという軽量設計のメリットです。
精度モード
GLM-OCRには「精度モード(PRECISION_MODE)」が用意されています。
このモードでは、最大99.9%の精度を達成すると報告されています。
精度モードは、金融や法律など、誤認識が許されない分野での利用に適しています。
GLM-OCRの活用シーン
研究・教育分野
学術論文のデジタル化:
- 古い論文や書籍をスキャンしてデジタル化
- 数式をLaTeX形式で正確に抽出
- 引用文献の構造化
手書きノートの認識:
- 学生の手書きノートをテキスト化
- 研究者の手書きメモのアーカイブ化
金融分野
財務諸表の処理:
- スキャンした財務諸表をExcel対応データに変換
- 複雑な表構造を正確に解析
- 自動的にJSON形式で構造化
請求書・レシートの処理:
- 請求書から必要な情報を自動抽出
- データベースへの自動登録
- 経費精算の自動化
法律分野
契約書の処理:
- 契約書をスキャンしてテキスト化
- 条項や階層構造を識別
- 重要な条項(解約条件、責任条項など)の自動抽出
訴訟資料の整理:
- 大量の訴訟資料を効率的にデジタル化
- 検索可能な形式で保存
開発・技術文書
コード付き技術文書の処理:
- 技術文書からコードブロックを抽出
- 複雑なレイアウトの技術資料を正確に解析
API文書の構造化:
- API仕様書からパラメータ情報を自動抽出
- JSON形式で構造化されたAPI仕様を生成
RAG(Retrieval-Augmented Generation)の基盤
GLM-OCRは、RAGシステムの文書解析基盤として活用できます。
RAGでの活用:
- 大量の文書を高精度で認識・解析
- 構造化された形式で出力
- LLM(大規模言語モデル)への入力として最適
GLM-OCRの使い方
GLM-OCRは、複数の方法で利用できます。
クラウドAPI
Z.aiが提供するクラウドAPIを利用する方法です。
GPUを用意する必要がなく、最も手軽に始められます。
料金:
- 入力・出力ともに$0.03/100万トークン
- 非常に低コストで利用可能
Python SDKの例:
from zai import ZaiClient
# クライアントの初期化
client = ZaiClient(api_key="your-api-key")
# 画像URL
image_url = "https://example.com/document.png"
# レイアウト解析APIの呼び出し
response = client.layout_parsing.create(
model="glm-ocr",
file=image_url
)
# 結果の出力
print(response)
ローカルデプロイ
GLM-OCRをローカル環境にデプロイして使用する方法です。
完全なコントロールが可能で、データのプライバシーを保護できます。
vLLMを使用:
# vLLMのインストール
pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly
# Transformersのインストール
pip install git+https://github.com/huggingface/transformers.git
# サーバーの起動
vllm serve zai-org/GLM-OCR --allowed-local-media-path / --port 8080
SGLangを使用:
# SGLangのインストール
pip install git+https://github.com/sgl-project/sglang.git#subdirectory=python
# Transformersのインストール
pip install git+https://github.com/huggingface/transformers.git
# サーバーの起動
python -m sglang.launch_server --model zai-org/GLM-OCR --port 8080
Ollamaを使用:
# Ollamaのダウンロード
# https://ollama.com/download
# GLM-OCRの実行
ollama run glm-ocr
Ollamaでは、画像をターミナルにドラッグ&ドロップするだけで文書解析ができます。
プロンプトの種類
GLM-OCRは、以下の2種類のプロンプトシナリオをサポートしています。
1. 文書解析(Document Parsing):
文書から生のコンテンツを抽出する場合に使用します。
{
"type": "text",
"text": "Text Recognition:"
}
2. 情報抽出(Information Extraction):
特定の情報を抽出する場合に使用します。
{
"type": "text",
"text": "Extract key information from this invoice:"
}
GLM-OCRと他のOCRツールの比較
従来のOCR(Tesseract、PaddleOCRなど)との違い
従来のOCR:
- 文字認識に特化
- 構造の理解が弱い
- 出力は生のテキストのみ
GLM-OCR:
- 文書全体の理解
- 構造を保持した出力
- Markdown、JSON、LaTeX形式で出力
大規模VLMベースのOCRとの比較
Gemini、Claude、GPTなどの大規模VLM(Vision-Language Model)もOCR機能を持っていますが、GLM-OCRには以下の利点があります。
パラメータ数:
- GLM-OCR:9億
- 大規模VLM:数百億〜数千億
処理速度:
- GLM-OCRは軽量なため高速
コスト:
- GLM-OCRは大幅に低コスト
専門性:
- GLM-OCRは文書解析に特化して最適化されている
GLM-OCRのライセンスとオープンソース
GLM-OCRは、MITライセンスでオープンソース化されています。
MITライセンスの特徴:
- 商用利用が可能
- 改変・再配布が自由
- ソースコードが公開されている
- 無料で利用できる
ただし、完全なOCRパイプラインには、PP-DocLayout-V3(Apache License 2.0)も含まれています。
プロジェクトを利用する際は、両方のライセンスを遵守する必要があります。
GitHub:
- https://github.com/zai-org/GLM-OCR
Hugging Face:
- https://huggingface.co/zai-org/GLM-OCR
GLM-OCRの将来性
GLM-OCRは、文書解析の分野で革新的なモデルです。
以下の点で、今後さらに発展が期待されます。
軽量化の成功:
9億パラメータで最先端の性能を実現したことは、AIモデルの効率化において重要なマイルストーンです。
今後、さらに軽量で高性能なモデルが登場する可能性があります。
オープンソースの価値:
MITライセンスで公開されたことで、世界中の開発者がGLM-OCRを改良・応用できます。
コミュニティの貢献により、さらに高性能化する可能性があります。
AIエージェントとの統合:
GLM-OCRの構造化された出力は、AIエージェントやRAGシステムとの相性が良く、これらのシステムの文書処理基盤として広く採用される可能性があります。
まとめ
GLM-OCRは、Z.aiが開発した最新のマルチモーダルOCRモデルです。
主な特徴:
- パラメータ数9億の軽量設計
- OmniDocBench V1.5で94.62点(第1位)を獲得
- 文書構造を理解し、Markdown、JSON、LaTeXで出力
- 処理速度はPDFで1.86ページ/秒
- 100以上の言語をサポート
- MITライセンスのオープンソース
活用シーン:
- 研究・教育:学術論文のデジタル化、手書きノートの認識
- 金融:財務諸表、請求書の処理
- 法律:契約書、訴訟資料の整理
- 開発:技術文書の構造化
- RAG:文書解析基盤
GLM-OCRは、従来のOCRの限界を超え、「文書の理解」を実現した画期的なモデルです。
軽量かつ高性能、しかもオープンソースであることから、今後さまざまな分野で活用されることが期待されます。
特に、AIエージェントやRAGシステムの普及に伴い、高精度な文書解析の需要は高まっています。
GLM-OCRは、この需要に応える理想的なソリューションと言えるでしょう。

コメント