大規模言語モデル一覧|2025年最新版!主要LLMの特徴と選び方

プログラミング・IT

ChatGPTやClaudeなど、AIチャットサービスを使ったことはありますか?
これらのサービスを支えているのが「大規模言語モデル(LLM)」という技術です。

2025年現在、世界中で数百種類ものLLMが開発されており、それぞれ得意分野や特徴が大きく異なります。
どのモデルを選べばいいのか、迷ってしまいますよね。

この記事では、2025年最新の主要な大規模言語モデルを一覧形式で紹介します。
商用モデルからオープンソースまで、各モデルの特徴や強みをわかりやすく解説していきます。

スポンサーリンク

大規模言語モデル(LLM)とは?

大規模言語モデル(LLM:Large Language Model)は、膨大なテキストデータで訓練されたAIモデルです。
人間の言葉を理解し、自然な文章を生成できる能力を持っています。

従来のAIと違うのは、その「規模」です。
数十億から数千億というパラメータ(学習可能な要素)を持ち、書籍やウェブサイト、コードなど、インターネット上の膨大な情報から学習しています。

LLMが得意なのは、こんなことです。

文章の作成や要約、質問への回答、プログラミングコードの生成、多言語翻訳など、言語に関わる幅広いタスクをこなせます。
最近では、画像や音声も扱える「マルチモーダル」なモデルも登場しています。

ChatGPTの登場以降、LLMは急速に進化しました。
2025年現在、複数の企業や研究機関が競うように新しいモデルをリリースしています。

LLMの分類|商用とオープンソースの違い

大規模言語モデルは、大きく2つのタイプに分けられます。

商用(クローズドソース)モデルは、企業が独自に開発・管理しているモデルです。
モデルの内部構造や学習データは非公開で、API経由やサブスクリプション形式で利用します。

性能が高く、導入も簡単ですが、コストがかかります。
また、データの取り扱いやベンダー依存のリスクもあります。

代表例は、GPT-5(OpenAI)、Claude 4(Anthropic)、Gemini 3(Google)などです。

オープンソース(オープンウェイト)モデルは、モデルの重みやコードが公開されているモデルです。
誰でも無料でダウンロードして、自社サーバーで運用できます。

カスタマイズの自由度が高く、データを外部に送る必要がありません。
ただし、自前で環境を構築する技術力が必要です。

代表例は、Llama 4(Meta)、Qwen3(Alibaba)、Mistral(Mistral AI)などです。

2025年の主要LLM|トップ5を解説

2025年11月~12月にかけて、主要なLLMが相次いでリリースされました。
ここでは、特に注目すべき5つのモデルを紹介します。

GPT-5シリーズ(OpenAI)

2025年8月にGPT-5、11月にGPT-5.1、12月にGPT-5.2がリリースされました。
OpenAIの最新フラグシップモデルで、ChatGPTのベースになっています。

GPT-5.2は、入力40万トークン、出力12.8万トークンという巨大なコンテキストウィンドウを持ちます。
これは、小説2冊分以上の文章を一度に処理できる計算です。

数学ベンチマークAIME 2025では、コード実行を使って100%の正答率を達成しました。
また、幻覚(事実誤認)の発生率も前世代から約40%削減されています。

3つのバリエーションがあります。
Instant(高速処理向け)、Thinking(複雑な推論向け)、Pro(最高性能)と、用途に応じて使い分けられるのが特徴です。

Claude 4.5シリーズ(Anthropic)

2025年9月にSonnet 4.5、11月にOpus 4.5がリリースされました。
Anthropic社が開発する、安全性と信頼性を重視したモデルです。

コンテキストウィンドウは20万トークンです。
長文の文書処理や、複数のファイルを横断した分析に強みを持ちます。

Opus 4.5は、コーディングベンチマークSWE-bench Verifiedで80.9%を記録しました。
これは、実際のGitHub上の課題を解決する能力を測るテストで、2025年12月時点で最高水準です。

「Effortパラメータ」という独自機能があります。
タスクの難易度に応じて、モデルが使う計算量を調整できるんです。

簡単な質問には素早く答え、複雑な問題にはじっくり時間をかける。
この仕組みにより、コストと性能のバランスを細かくコントロールできます。

Gemini 3シリーズ(Google)

2025年11月にリリースされた、Googleの最新モデルです。
ProとFlashの2つのバージョンがあります。

Gemini 3 Proの最大の特徴は、100万トークンという超大規模なコンテキストウィンドウです。
これは、書籍10冊分以上の情報を一度に扱える計算になります。

「Deep Think」という強化推論モードを搭載しています。
複雑な問題に対して、段階的に思考を深めながら答えを導き出せるんです。

大学院レベルの科学問題を集めたGPQA Diamondベンチマークでは、93.8%のスコアを記録しました。
これは人間の専門家の平均(約89.8%)を上回る結果です。

数学オリンピックレベルの問題(AIME 2025)でも、コード実行を使えば100%の正答率を達成しています。

Qwen3シリーズ(Alibaba)

中国Alibabaが開発する、多言語対応に強いモデルです。
4B(40億)から235B(2350億)パラメータまで、幅広いサイズ展開があります。

100以上の言語と方言に対応しており、日本語も含まれています。
特に中国語と英語の処理性能が高く、グローバル展開を考える企業に人気です。

Apache 2.0ライセンスで公開されており、商用利用も自由にできます。
すでに9万社以上の企業が導入しているとされています。

MoE(Mixture of Experts)という効率的なアーキテクチャを採用しています。
巨大なパラメータ数を持ちながら、実際に動かすのに必要な計算量は少なめです。

DeepSeek R1シリーズ(DeepSeek)

2025年1月にリリースされた、中国DeepSeek社の推論特化モデルです。
6710億パラメータのMoEアーキテクチャを採用しています。

最大の特徴は、そのコストパフォーマンスです。
OpenAIのo1シリーズと同等の性能を持ちながら、価格は10分の1から30分の1程度とされています。

強化学習を用いた推論能力の向上に注力しています。
数学や論理的思考が必要な問題で、特に高いパフォーマンスを発揮します。

MITライセンスで公開されており、オープンソースとしても利用可能です。
研究者やスタートアップに人気が高まっています。

用途別のLLM選び方

どのLLMを選ぶべきかは、用途によって変わります。
ここでは、主な用途ごとのおすすめモデルを紹介します。

コーディング・プログラミング

コード生成や技術文書作成には、Claude 4.5 OpusとGemini 3 Proが強いです。

Claude Opus 4.5は、SWE-benchで80%超のスコアを記録しました。
実際のバグ修正やコードレビューで高い精度を発揮します。

Gemini 3 Proは、競技プログラミングで特に優秀です。
LiveCodeBenchで2,439というEloレーティングを獲得しており、アルゴリズム設計に向いています。

予算を抑えたい場合は、Qwen3-CoderやDeepSeek-Coderなどの特化モデルも選択肢です。

ビジネス文書・レポート作成

長文の文書作成や要約には、GPT-5.2とClaude Opus 4.5が適しています。

GPT-5.2は、40万トークンという巨大なコンテキストで、複数の資料を統合した分析が得意です。
レポート作成やプレゼン資料の下書きに向いています。

Claude Opus 4.5は、正確性と信頼性が高く評価されています。
事実関係の誤りが少ないため、企業の公式文書作成に好まれます。

カスタマーサポート・チャットボット

リアルタイム対応が必要なチャットボットには、GPT-4oやGemini 3 Flashが向いています。

GPT-4oは、音声入力から320ミリ秒で応答できる超低遅延が特徴です。
自然な会話の流れを重視する場面で活躍します。

Gemini 3 Flashは、コストパフォーマンスに優れています。
大量のやり取りが発生するカスタマーサポートで、運用コストを抑えられます。

データ分析・研究

大量のデータを扱う研究用途には、Gemini 3 ProとClaude Opus 4.5が強力です。

Gemini 3 Proの100万トークンは、論文の大量読み込みやデータベース分析に最適です。
「Deep Think」モードで、複雑な仮説検証もサポートします。

Claude Opus 4.5は、多段階の論理的推論に強みがあります。
科学論文の要約や、実験計画の立案などに向いています。

多言語対応・グローバル展開

多言語サポートが必要なら、Qwen3とGemini 3が優秀です。

Qwen3は、100以上の言語に対応しており、特にアジア言語に強いです。
中国語・日本語・韓国語などの処理品質が高く評価されています。

Gemini 3は、欧州言語を含む広範な言語をカバーしています。
翻訳機能も内蔵されており、多言語コンテンツ制作に便利です。

主要大規模言語モデル一覧表

モデル名開発元パラメータ数リリース日ライセンスコンテキスト主な特徴
GPT-5.2OpenAI非公開2025年12月商用400K入力/128K出力幻覚率40%削減、3つのモード(Instant/Thinking/Pro)
GPT-5.1OpenAI非公開2025年11月商用400K適応的推論、タスク複雑度に応じた処理時間調整
GPT-5OpenAI非公開2025年8月商用非公開専門的知性に特化、高度な推論能力
GPT-4oOpenAI非公開2024年商用128Kマルチモーダル、音声320ms応答、自然な対話
Claude Opus 4.5Anthropic非公開2025年11月商用200KSWE-bench 80.9%、コーディング最強クラス
Claude Sonnet 4.5Anthropic非公開2025年9月商用200KSWE-bench 77.2%、Effortパラメータ搭載
Claude 4 HaikuAnthropic非公開2025年商用200K高速処理特化、低遅延
Gemini 3 ProGoogle非公開2025年11月商用1MDeep Thinkモード、GPQA 93.8%、AIME 100%
Gemini 3 FlashGoogle非公開2025年11月商用1M高速・低コスト、SWE-bench 78%
Gemini 2.5 ProGoogle非公開2025年6月商用1Mマルチモーダル対応、多様なデータ処理
Llama 4 ScoutMeta17B有効/非公開総数2025年4月Apache 2.010M法律分析など長文タスク特化
Llama 4 MaverickMeta17B有効/400B総数2025年4月Apache 2.0非公開高速コード生成、MoE効率化
Llama 3.3 70BMeta70B2024年Llama 3.1ライセンス128KLlama 3.1 405Bに匹敵する性能
Llama 3.1 405BMeta405B2024年Llama 3.1ライセンス128K最大規模のオープンソース密モデル
Llama 3.1 70B/8BMeta70B/8B2024年Llama 3.1ライセンス128K多言語対応、汎用性高い
Qwen3-235BAlibaba235B(22B有効)2025年Apache 2.0262KMoE、推論タスク特化、100+言語対応
Qwen3-32BAlibaba32B2025年Apache 2.0128K汎用性高い密モデル
Qwen3-4BAlibaba4B2025年Apache 2.0128K軽量で高性能、エッジデバイス対応
Qwen2.5-72BAlibaba72.7B2024年Apache 2.0128K(YaRN有効時)29+言語、MMLU 85+、HumanEval 85%
Qwen3-CoderAlibaba非公開2025年Apache 2.0非公開ソフトウェア工学特化
Qwen-VLAlibaba非公開2024年Apache 2.0非公開ビジョン・言語統合モデル
DeepSeek R1-0528DeepSeek671B(37B有効)2025年5月MIT128K推論特化、強化学習、低コスト
DeepSeek V3.2DeepSeek非公開2025年MIT非公開数学競技でゴールドメダル級性能
DeepSeek-Coder-V2DeepSeek非公開2024年MIT非公開コード生成特化
Mistral Large 3Mistral AI675B2025年商用128Kフロンティア級マルチモーダル
Mixtral 8x22BMistral AI176B(8専門家)2024年Apache 2.065KMoE、高性能・高効率
Mixtral 8x7BMistral AI56B(8専門家)2023年Apache 2.032K軽量MoE、汎用性高い
Mistral 7BMistral AI7B2023年Apache 2.032K小型で高性能、日常使用に最適
Mistral NeMo 12BMistral AI12B2024年Apache 2.0128KNVIDIA共同開発、FP8推論対応
Pixtral 12BMistral AI12B2024年Apache 2.0非公開マルチモーダル、画像+テキスト
Codestral MambaMistral AI非公開2024年Apache 2.0256Kプログラミング特化、80+言語
Mathstral 7BMistral AI7B2024年Apache 2.0非公開数学推論特化
Ministral 3BMistral AI3.4B(LM)+ 0.4B(vision)2024年Apache 2.032Kエッジデバイス向け、マルチモーダル
Grok 3xAI非公開2025年商用非公開X(旧Twitter)統合、リアルタイム情報
Grok 4.1xAI非公開2025年商用非公開推論リーダーボード上位
Gemma 2 27BGoogle27B2024年Gemmaライセンス8K高性能・高効率、責任あるAI
Gemma 2 9BGoogle9B2024年Gemmaライセンス8Kバランス型
Gemma 2 2BGoogle2B2024年Gemmaライセンス8K軽量、エッジデバイス向け
Phi-4-miniMicrosoft非公開2024年MIT非公開小型で高品質、推論重視
Phi-3.5Microsoft14B(Medium)、3B(Mini)2024年MIT128K軽量・高性能
BLOOMBigScience176B2022年RAILライセンス2K多言語民主化、学術向け
Falcon 180BTII180B2023年Apache 2.02KPaLM-2級精度、法律・金融向け
Falcon 3TII非公開2024年Apache 2.0非公開Falcon 2の後継
OLMo 2AI213B、7B2024年Apache 2.0非公開完全オープン、Llama 3.1と競合
StableLM 2Stability AI非公開2024年Apache 2.0非公開軽量・多言語
Yi01.AI34B、6B2023年Yiライセンス200K中英バイリンガル、長文処理
Kimi K2Moonshot AI1T(MoE)2025年7月商用非公開1兆パラメータ、競争力ある価格
Kimi LinearMoonshot AI非公開2025年10月商用大規模効率的Attention、長文高速化
Command R+Cohere非公開2024年非公開(オープン研究版あり)128K企業向け、RAG・エージェント最適化
Vicuna-13BLMSYS13B2023年非商用非公開ChatGPTの90%品質、低コスト
SmolLM3-3BHugging Face3B2024年Apache 2.0非公開完全オープン、推論モード搭載
MiniCPMOpenBMB1B~4B2024年Apache 2.0非公開軽量・高効率、Mistral-7B級性能

まとめ

2025年の大規模言語モデル市場は、かつてないほど活況を呈しています。
主要な動きをまとめると、以下のようになります。

商用モデルの性能向上
GPT-5、Claude 4.5、Gemini 3が相次いでリリースされ、推論能力が大幅に向上しました。
特に数学や論理的思考が必要なタスクで、人間の専門家を上回る結果も出ています。

オープンソースの台頭
Qwen3、DeepSeek R1など、商用モデルに匹敵する性能のオープンソースモデルが登場しました。
コストを10分の1から30分の1に抑えながら、高い性能を実現しています。

マルチモーダル化の加速
テキストだけでなく、画像・音声・動画を統合的に処理できるモデルが増えました。
単一のモデルで、多様なメディアを横断した作業が可能になっています。

用途特化モデルの登場
コーディング、数学、医療など、特定分野に特化したモデルも充実してきました。
汎用モデルよりも、専門タスクで高い精度を発揮します。

LLM選びで重要なのは、「最強のモデル」を探すことではありません。
自分の用途に最も適したモデルを見つけることです。

コスト、性能、データプライバシー、カスタマイズ性など、優先事項を明確にしましょう。
必要に応じて、複数のモデルを使い分けるのも有効な戦略です。

2026年以降も、LLMの進化は続くでしょう。
この一覧が、あなたの最適なモデル選びの参考になれば幸いです。

コメント

タイトルとURLをコピーしました