ChatGPTやClaudeなど、AIチャットサービスを使ったことはありますか?
これらのサービスを支えているのが「大規模言語モデル(LLM)」という技術です。
2025年現在、世界中で数百種類ものLLMが開発されており、それぞれ得意分野や特徴が大きく異なります。
どのモデルを選べばいいのか、迷ってしまいますよね。
この記事では、2025年最新の主要な大規模言語モデルを一覧形式で紹介します。
商用モデルからオープンソースまで、各モデルの特徴や強みをわかりやすく解説していきます。
大規模言語モデル(LLM)とは?

大規模言語モデル(LLM:Large Language Model)は、膨大なテキストデータで訓練されたAIモデルです。
人間の言葉を理解し、自然な文章を生成できる能力を持っています。
従来のAIと違うのは、その「規模」です。
数十億から数千億というパラメータ(学習可能な要素)を持ち、書籍やウェブサイト、コードなど、インターネット上の膨大な情報から学習しています。
LLMが得意なのは、こんなことです。
文章の作成や要約、質問への回答、プログラミングコードの生成、多言語翻訳など、言語に関わる幅広いタスクをこなせます。
最近では、画像や音声も扱える「マルチモーダル」なモデルも登場しています。
ChatGPTの登場以降、LLMは急速に進化しました。
2025年現在、複数の企業や研究機関が競うように新しいモデルをリリースしています。
LLMの分類|商用とオープンソースの違い
大規模言語モデルは、大きく2つのタイプに分けられます。
商用(クローズドソース)モデルは、企業が独自に開発・管理しているモデルです。
モデルの内部構造や学習データは非公開で、API経由やサブスクリプション形式で利用します。
性能が高く、導入も簡単ですが、コストがかかります。
また、データの取り扱いやベンダー依存のリスクもあります。
代表例は、GPT-5(OpenAI)、Claude 4(Anthropic)、Gemini 3(Google)などです。
オープンソース(オープンウェイト)モデルは、モデルの重みやコードが公開されているモデルです。
誰でも無料でダウンロードして、自社サーバーで運用できます。
カスタマイズの自由度が高く、データを外部に送る必要がありません。
ただし、自前で環境を構築する技術力が必要です。
代表例は、Llama 4(Meta)、Qwen3(Alibaba)、Mistral(Mistral AI)などです。
2025年の主要LLM|トップ5を解説
2025年11月~12月にかけて、主要なLLMが相次いでリリースされました。
ここでは、特に注目すべき5つのモデルを紹介します。
GPT-5シリーズ(OpenAI)
2025年8月にGPT-5、11月にGPT-5.1、12月にGPT-5.2がリリースされました。
OpenAIの最新フラグシップモデルで、ChatGPTのベースになっています。
GPT-5.2は、入力40万トークン、出力12.8万トークンという巨大なコンテキストウィンドウを持ちます。
これは、小説2冊分以上の文章を一度に処理できる計算です。
数学ベンチマークAIME 2025では、コード実行を使って100%の正答率を達成しました。
また、幻覚(事実誤認)の発生率も前世代から約40%削減されています。
3つのバリエーションがあります。
Instant(高速処理向け)、Thinking(複雑な推論向け)、Pro(最高性能)と、用途に応じて使い分けられるのが特徴です。
Claude 4.5シリーズ(Anthropic)
2025年9月にSonnet 4.5、11月にOpus 4.5がリリースされました。
Anthropic社が開発する、安全性と信頼性を重視したモデルです。
コンテキストウィンドウは20万トークンです。
長文の文書処理や、複数のファイルを横断した分析に強みを持ちます。
Opus 4.5は、コーディングベンチマークSWE-bench Verifiedで80.9%を記録しました。
これは、実際のGitHub上の課題を解決する能力を測るテストで、2025年12月時点で最高水準です。
「Effortパラメータ」という独自機能があります。
タスクの難易度に応じて、モデルが使う計算量を調整できるんです。
簡単な質問には素早く答え、複雑な問題にはじっくり時間をかける。
この仕組みにより、コストと性能のバランスを細かくコントロールできます。
Gemini 3シリーズ(Google)
2025年11月にリリースされた、Googleの最新モデルです。
ProとFlashの2つのバージョンがあります。
Gemini 3 Proの最大の特徴は、100万トークンという超大規模なコンテキストウィンドウです。
これは、書籍10冊分以上の情報を一度に扱える計算になります。
「Deep Think」という強化推論モードを搭載しています。
複雑な問題に対して、段階的に思考を深めながら答えを導き出せるんです。
大学院レベルの科学問題を集めたGPQA Diamondベンチマークでは、93.8%のスコアを記録しました。
これは人間の専門家の平均(約89.8%)を上回る結果です。
数学オリンピックレベルの問題(AIME 2025)でも、コード実行を使えば100%の正答率を達成しています。
Qwen3シリーズ(Alibaba)
中国Alibabaが開発する、多言語対応に強いモデルです。
4B(40億)から235B(2350億)パラメータまで、幅広いサイズ展開があります。
100以上の言語と方言に対応しており、日本語も含まれています。
特に中国語と英語の処理性能が高く、グローバル展開を考える企業に人気です。
Apache 2.0ライセンスで公開されており、商用利用も自由にできます。
すでに9万社以上の企業が導入しているとされています。
MoE(Mixture of Experts)という効率的なアーキテクチャを採用しています。
巨大なパラメータ数を持ちながら、実際に動かすのに必要な計算量は少なめです。
DeepSeek R1シリーズ(DeepSeek)
2025年1月にリリースされた、中国DeepSeek社の推論特化モデルです。
6710億パラメータのMoEアーキテクチャを採用しています。
最大の特徴は、そのコストパフォーマンスです。
OpenAIのo1シリーズと同等の性能を持ちながら、価格は10分の1から30分の1程度とされています。
強化学習を用いた推論能力の向上に注力しています。
数学や論理的思考が必要な問題で、特に高いパフォーマンスを発揮します。
MITライセンスで公開されており、オープンソースとしても利用可能です。
研究者やスタートアップに人気が高まっています。
用途別のLLM選び方
どのLLMを選ぶべきかは、用途によって変わります。
ここでは、主な用途ごとのおすすめモデルを紹介します。
コーディング・プログラミング
コード生成や技術文書作成には、Claude 4.5 OpusとGemini 3 Proが強いです。
Claude Opus 4.5は、SWE-benchで80%超のスコアを記録しました。
実際のバグ修正やコードレビューで高い精度を発揮します。
Gemini 3 Proは、競技プログラミングで特に優秀です。
LiveCodeBenchで2,439というEloレーティングを獲得しており、アルゴリズム設計に向いています。
予算を抑えたい場合は、Qwen3-CoderやDeepSeek-Coderなどの特化モデルも選択肢です。
ビジネス文書・レポート作成
長文の文書作成や要約には、GPT-5.2とClaude Opus 4.5が適しています。
GPT-5.2は、40万トークンという巨大なコンテキストで、複数の資料を統合した分析が得意です。
レポート作成やプレゼン資料の下書きに向いています。
Claude Opus 4.5は、正確性と信頼性が高く評価されています。
事実関係の誤りが少ないため、企業の公式文書作成に好まれます。
カスタマーサポート・チャットボット
リアルタイム対応が必要なチャットボットには、GPT-4oやGemini 3 Flashが向いています。
GPT-4oは、音声入力から320ミリ秒で応答できる超低遅延が特徴です。
自然な会話の流れを重視する場面で活躍します。
Gemini 3 Flashは、コストパフォーマンスに優れています。
大量のやり取りが発生するカスタマーサポートで、運用コストを抑えられます。
データ分析・研究
大量のデータを扱う研究用途には、Gemini 3 ProとClaude Opus 4.5が強力です。
Gemini 3 Proの100万トークンは、論文の大量読み込みやデータベース分析に最適です。
「Deep Think」モードで、複雑な仮説検証もサポートします。
Claude Opus 4.5は、多段階の論理的推論に強みがあります。
科学論文の要約や、実験計画の立案などに向いています。
多言語対応・グローバル展開
多言語サポートが必要なら、Qwen3とGemini 3が優秀です。
Qwen3は、100以上の言語に対応しており、特にアジア言語に強いです。
中国語・日本語・韓国語などの処理品質が高く評価されています。
Gemini 3は、欧州言語を含む広範な言語をカバーしています。
翻訳機能も内蔵されており、多言語コンテンツ制作に便利です。
主要大規模言語モデル一覧表

| モデル名 | 開発元 | パラメータ数 | リリース日 | ライセンス | コンテキスト | 主な特徴 |
|---|---|---|---|---|---|---|
| GPT-5.2 | OpenAI | 非公開 | 2025年12月 | 商用 | 400K入力/128K出力 | 幻覚率40%削減、3つのモード(Instant/Thinking/Pro) |
| GPT-5.1 | OpenAI | 非公開 | 2025年11月 | 商用 | 400K | 適応的推論、タスク複雑度に応じた処理時間調整 |
| GPT-5 | OpenAI | 非公開 | 2025年8月 | 商用 | 非公開 | 専門的知性に特化、高度な推論能力 |
| GPT-4o | OpenAI | 非公開 | 2024年 | 商用 | 128K | マルチモーダル、音声320ms応答、自然な対話 |
| Claude Opus 4.5 | Anthropic | 非公開 | 2025年11月 | 商用 | 200K | SWE-bench 80.9%、コーディング最強クラス |
| Claude Sonnet 4.5 | Anthropic | 非公開 | 2025年9月 | 商用 | 200K | SWE-bench 77.2%、Effortパラメータ搭載 |
| Claude 4 Haiku | Anthropic | 非公開 | 2025年 | 商用 | 200K | 高速処理特化、低遅延 |
| Gemini 3 Pro | 非公開 | 2025年11月 | 商用 | 1M | Deep Thinkモード、GPQA 93.8%、AIME 100% | |
| Gemini 3 Flash | 非公開 | 2025年11月 | 商用 | 1M | 高速・低コスト、SWE-bench 78% | |
| Gemini 2.5 Pro | 非公開 | 2025年6月 | 商用 | 1M | マルチモーダル対応、多様なデータ処理 | |
| Llama 4 Scout | Meta | 17B有効/非公開総数 | 2025年4月 | Apache 2.0 | 10M | 法律分析など長文タスク特化 |
| Llama 4 Maverick | Meta | 17B有効/400B総数 | 2025年4月 | Apache 2.0 | 非公開 | 高速コード生成、MoE効率化 |
| Llama 3.3 70B | Meta | 70B | 2024年 | Llama 3.1ライセンス | 128K | Llama 3.1 405Bに匹敵する性能 |
| Llama 3.1 405B | Meta | 405B | 2024年 | Llama 3.1ライセンス | 128K | 最大規模のオープンソース密モデル |
| Llama 3.1 70B/8B | Meta | 70B/8B | 2024年 | Llama 3.1ライセンス | 128K | 多言語対応、汎用性高い |
| Qwen3-235B | Alibaba | 235B(22B有効) | 2025年 | Apache 2.0 | 262K | MoE、推論タスク特化、100+言語対応 |
| Qwen3-32B | Alibaba | 32B | 2025年 | Apache 2.0 | 128K | 汎用性高い密モデル |
| Qwen3-4B | Alibaba | 4B | 2025年 | Apache 2.0 | 128K | 軽量で高性能、エッジデバイス対応 |
| Qwen2.5-72B | Alibaba | 72.7B | 2024年 | Apache 2.0 | 128K(YaRN有効時) | 29+言語、MMLU 85+、HumanEval 85% |
| Qwen3-Coder | Alibaba | 非公開 | 2025年 | Apache 2.0 | 非公開 | ソフトウェア工学特化 |
| Qwen-VL | Alibaba | 非公開 | 2024年 | Apache 2.0 | 非公開 | ビジョン・言語統合モデル |
| DeepSeek R1-0528 | DeepSeek | 671B(37B有効) | 2025年5月 | MIT | 128K | 推論特化、強化学習、低コスト |
| DeepSeek V3.2 | DeepSeek | 非公開 | 2025年 | MIT | 非公開 | 数学競技でゴールドメダル級性能 |
| DeepSeek-Coder-V2 | DeepSeek | 非公開 | 2024年 | MIT | 非公開 | コード生成特化 |
| Mistral Large 3 | Mistral AI | 675B | 2025年 | 商用 | 128K | フロンティア級マルチモーダル |
| Mixtral 8x22B | Mistral AI | 176B(8専門家) | 2024年 | Apache 2.0 | 65K | MoE、高性能・高効率 |
| Mixtral 8x7B | Mistral AI | 56B(8専門家) | 2023年 | Apache 2.0 | 32K | 軽量MoE、汎用性高い |
| Mistral 7B | Mistral AI | 7B | 2023年 | Apache 2.0 | 32K | 小型で高性能、日常使用に最適 |
| Mistral NeMo 12B | Mistral AI | 12B | 2024年 | Apache 2.0 | 128K | NVIDIA共同開発、FP8推論対応 |
| Pixtral 12B | Mistral AI | 12B | 2024年 | Apache 2.0 | 非公開 | マルチモーダル、画像+テキスト |
| Codestral Mamba | Mistral AI | 非公開 | 2024年 | Apache 2.0 | 256K | プログラミング特化、80+言語 |
| Mathstral 7B | Mistral AI | 7B | 2024年 | Apache 2.0 | 非公開 | 数学推論特化 |
| Ministral 3B | Mistral AI | 3.4B(LM)+ 0.4B(vision) | 2024年 | Apache 2.0 | 32K | エッジデバイス向け、マルチモーダル |
| Grok 3 | xAI | 非公開 | 2025年 | 商用 | 非公開 | X(旧Twitter)統合、リアルタイム情報 |
| Grok 4.1 | xAI | 非公開 | 2025年 | 商用 | 非公開 | 推論リーダーボード上位 |
| Gemma 2 27B | 27B | 2024年 | Gemmaライセンス | 8K | 高性能・高効率、責任あるAI | |
| Gemma 2 9B | 9B | 2024年 | Gemmaライセンス | 8K | バランス型 | |
| Gemma 2 2B | 2B | 2024年 | Gemmaライセンス | 8K | 軽量、エッジデバイス向け | |
| Phi-4-mini | Microsoft | 非公開 | 2024年 | MIT | 非公開 | 小型で高品質、推論重視 |
| Phi-3.5 | Microsoft | 14B(Medium)、3B(Mini) | 2024年 | MIT | 128K | 軽量・高性能 |
| BLOOM | BigScience | 176B | 2022年 | RAILライセンス | 2K | 多言語民主化、学術向け |
| Falcon 180B | TII | 180B | 2023年 | Apache 2.0 | 2K | PaLM-2級精度、法律・金融向け |
| Falcon 3 | TII | 非公開 | 2024年 | Apache 2.0 | 非公開 | Falcon 2の後継 |
| OLMo 2 | AI2 | 13B、7B | 2024年 | Apache 2.0 | 非公開 | 完全オープン、Llama 3.1と競合 |
| StableLM 2 | Stability AI | 非公開 | 2024年 | Apache 2.0 | 非公開 | 軽量・多言語 |
| Yi | 01.AI | 34B、6B | 2023年 | Yiライセンス | 200K | 中英バイリンガル、長文処理 |
| Kimi K2 | Moonshot AI | 1T(MoE) | 2025年7月 | 商用 | 非公開 | 1兆パラメータ、競争力ある価格 |
| Kimi Linear | Moonshot AI | 非公開 | 2025年10月 | 商用 | 大規模 | 効率的Attention、長文高速化 |
| Command R+ | Cohere | 非公開 | 2024年 | 非公開(オープン研究版あり) | 128K | 企業向け、RAG・エージェント最適化 |
| Vicuna-13B | LMSYS | 13B | 2023年 | 非商用 | 非公開 | ChatGPTの90%品質、低コスト |
| SmolLM3-3B | Hugging Face | 3B | 2024年 | Apache 2.0 | 非公開 | 完全オープン、推論モード搭載 |
| MiniCPM | OpenBMB | 1B~4B | 2024年 | Apache 2.0 | 非公開 | 軽量・高効率、Mistral-7B級性能 |
まとめ
2025年の大規模言語モデル市場は、かつてないほど活況を呈しています。
主要な動きをまとめると、以下のようになります。
商用モデルの性能向上
GPT-5、Claude 4.5、Gemini 3が相次いでリリースされ、推論能力が大幅に向上しました。
特に数学や論理的思考が必要なタスクで、人間の専門家を上回る結果も出ています。
オープンソースの台頭
Qwen3、DeepSeek R1など、商用モデルに匹敵する性能のオープンソースモデルが登場しました。
コストを10分の1から30分の1に抑えながら、高い性能を実現しています。
マルチモーダル化の加速
テキストだけでなく、画像・音声・動画を統合的に処理できるモデルが増えました。
単一のモデルで、多様なメディアを横断した作業が可能になっています。
用途特化モデルの登場
コーディング、数学、医療など、特定分野に特化したモデルも充実してきました。
汎用モデルよりも、専門タスクで高い精度を発揮します。
LLM選びで重要なのは、「最強のモデル」を探すことではありません。
自分の用途に最も適したモデルを見つけることです。
コスト、性能、データプライバシー、カスタマイズ性など、優先事項を明確にしましょう。
必要に応じて、複数のモデルを使い分けるのも有効な戦略です。
2026年以降も、LLMの進化は続くでしょう。
この一覧が、あなたの最適なモデル選びの参考になれば幸いです。


コメント