PaLM(Pathways Language Model)とは?Googleの大規模言語モデルを徹底解説

プログラミング・IT

Googleが開発したPaLM(Pathways Language Model)は、ChatGPTの登場と同時期に注目を集めた大規模言語モデル(LLM)です。
5,400億ものパラメータを持ち、言語理解、推論、プログラミング支援など、幅広い分野で高い性能を発揮します。
この記事では、PaLMの基本概念から技術的特徴、PaLM 2やGeminiとの違いまで、詳しく解説します。

スポンサーリンク

PaLMとは何か

PaLM(Pathways Language Model)は、Googleが2022年4月に発表した大規模言語モデル(LLM)です。
正式名称の「Pathways Language Model」が示す通り、Googleの汎用AIプロジェクト「Pathways」の一環として開発されました。

大規模言語モデル(LLM)とは

大規模言語モデル(Large Language Model)とは、大規模なデータセットでトレーニングされた自然言語処理モデルのことです。
大量の文章や会話を事前に学習させることで、言語の文法や意味を理解し、人間のように自然な言葉でテキスト生成や質問応答、機械翻訳などを実行できます。

PaLM以外の代表的なLLMには、以下があります:

  • OpenAIの「GPT」シリーズ
  • Anthropicの「Claude」
  • Metaの「LLaMA」
  • Googleの「LaMDA」

PaLMの特徴

PaLMの最大の特徴は、1つの言語モデルで複数のタスクに対応できる点です。
従来のAIモデルは、特定のタスクごとに異なるモデルを開発する必要がありましたが、PaLMは単一のモデルで様々なタスクをこなせます。

PaLMの技術的仕様

規模とパラメータ

Googleの研究論文によると、PaLMの技術的仕様は以下の通りです:

  • パラメータ数: 5,400億(540 billion)
  • トレーニングデータ: 7,800億トークン(780 billion tokens)
  • 使用プロセッサ: 6,144台のTPU V4チップ
  • トレーニング効率: 57.8%のハードウェアFLOPs利用率

パラメータ数の比較:

  • GPT-3: 1,750億
  • GPT-3.5: 3,550億
  • LaMDA: 1,370億
  • Megatron-Turing NLG: 5,300億
  • PaLM: 5,400億

PaLMは、当時としては世界最大規模のパラメータ数を誇り、Megatron-Turing NLGを上回りました。

トレーニングデータの内訳

PaLMのトレーニングに使用されたデータセットは、以下で構成されています:

  • フィルタリングされたWebページ
  • 書籍
  • Wikipediaの記事
  • ニュース記事
  • GitHubのオープンソースコード
  • ソーシャルメディアの会話(全体の50%)

ソーシャルメディアの会話が50%を占めることで、PaLMは会話能力に優れたモデルとなっています。

Pathwaysシステム

PaLMの「Pathways」は、Googleが開発した新しい機械学習システムです。
従来のモデルでは、各タスクをゼロからトレーニングする必要がありましたが、Pathwaysでは以下の特徴があります:

効率的な並列処理

  • 2つのTPU v4 Podで並列にトレーニングを実行
  • データを二分割し、複数のTPUポッドで同時に学習
  • 従来のモデルより少ない学習データで短時間にトレーニング可能

タスク固有の活性化

  • 与えられたタスクに対して、ネットワーク内の関連部分だけが作動
  • 省エネ性が高く、処理効率が向上

この結果、PaLMのトレーニングは46.2%の効率を達成し、GPT-3の21.3%を大きく上回りました。

Transformerアーキテクチャ

PaLMは、自己回帰デコーダーのみのTransformerアーキテクチャを採用しています。
Transformerは、2017年に発表された深層学習モデルで、自然言語処理の分野で標準的な技術となっています。

自己回帰モデルでは、前のトークンが与えられると、テキストのシーケンスにおける次のトークンを予測します。
これを繰り返すことで、長い文章を生成できます。

PaLMができること

PaLMは、多岐にわたるタスクで高い性能を発揮します。

言語理解と生成

  • 質問応答: 複雑な質問に対して正確な回答を生成
  • 文章要約: 長文を簡潔にまとめる
  • 文章生成: 自然で流暢な文章を作成
  • 文脈読解: 文章の文脈を理解し、適切な解釈を提示

論理推論

PaLMの特筆すべき機能の1つが、論理推論能力です。
「Chain of Thought(思考の連鎖)」と呼ばれる手法を用いて、複数のステップに分けて推論を実行します。

例えば、複雑な数学の問題を解く際に、以下のように段階的に思考します:

  1. 問題を理解する
  2. 必要な情報を整理する
  3. 計算手順を考える
  4. 段階的に計算を実行する
  5. 最終的な答えを導き出す

この手法により、PaLMは従来のモデルよりも高い正解率を達成しています。

ジョークの説明

Google Researchブログで紹介された興味深い例として、PaLMはジョークを理解し、そのオチを説明できます。

例:
ジョーク: 「ニューラルネットワークを10,000回ランダムに再起動しようとしましたが、過剰適合であると非難されました。『良い種(seed)は罰を受ける』でしょう」

PaLMの説明: 「このジョークは言葉をもじったものです。ニューラルネットワークは、データから学習できるコンピュータープログラムです。『種(seed)』は、乱数ジェネレーターを初期化するために使われる数値です。『良い種』とは、良い乱数ジェネレーターを生成する数値です。『良い行い(deed)は罰を受ける』という言葉は、何か良いことをしたときに、それに対して罰せられることもあることを意味します」

このように、PaLMは言葉遊びや文化的な文脈を理解する能力を持っています。

プログラミング支援

  • コード生成: 自然言語の説明からプログラムコードを作成
  • コード説明: 既存のコードの動作を説明
  • バグ修正: コードのエラーを検出し、修正案を提示

PaLMは、OpenAIのDavinci Codex APIと同等またはそれを超える性能を発揮しています。

多言語対応

PaLMは、英語だけでなく、日本語を含む複数の言語に対応しています。
ただし、トレーニングデータの大部分が英語であるため、英語での性能が最も高くなっています。

PaLM 2の登場

2023年5月10日、Google I/O 2023でPaLMの後継モデル「PaLM 2」が発表されました。

PaLM 2の主な改善点

多言語能力の強化

  • トレーニング段階から多言語データを大量に学習
  • 日本語能力が大幅に向上
  • 日本語能力試験J.TEST A-C(上級)で94%の正答率を達成
  • 日本語のダジャレを理解し、英語で説明できる

推論能力の向上

  • 科学論文や数式を含むデータセットで学習
  • 数学的推論能力が強化
  • 論理的思考や文脈読解がより高度に

効率性の改善

  • より軽量で高速な処理が可能
  • 複数のサイズバリエーションを提供

PaLM 2のサイズバリエーション

PaLM 2には、用途に応じた4つのサイズが用意されています:

  1. Gecko(ヤモリ): 最も軽量で、モバイル端末でも動作可能。オフラインでも使用できる
  2. Otter(カワウソ): 中規模のタスクに適している
  3. Bison(バイソン): 標準的な性能を提供
  4. Unicorn(ユニコーン): 最も高性能なモデル

この柔軟な構成により、スマートフォンからクラウドまで、幅広い環境でPaLM 2を活用できます。

PaLM 2が使われているGoogleサービス

PaLM 2は、25以上のGoogle製品や機能に搭載されています:

  • Bard: Googleの対話型AI(2023年4月にLaMDAからPaLMに、5月にPaLM 2に移行)
  • Google Workspace: Gmail、Google Docs、Sheetsなどの生成AI機能
  • SGE(Search Generative Experience): Google検索の新機能
  • Duet AI: Google Cloudの生成AI機能

Med-PaLMとSec-PaLM

Googleは、PaLM 2をベースに特定分野に特化したモデルも開発しています:

Med-PaLM 2

  • 医療分野に特化したモデル
  • 米国の医師免許試験で合格点を獲得
  • 医療質問応答で高い精度を実現

Sec-PaLM

  • サイバーセキュリティに特化したモデル
  • 脅威分析を迅速に実行

PaLM 2とGPTの比較

PaLM 2とOpenAIのGPT-4を比較すると、以下の違いがあります:

項目PaLM 2GPT-4
開発元GoogleOpenAI
アーキテクチャPathways(マルチタスク対応)言語タスクに特化
多言語能力強化された多言語対応多言語対応だが英語が最も強い
データセキュリティ企業向けのセキュリティ機能一般ユーザー向け
料金体系文字数ベース(日本語対応)トークンベース

Geminiへの進化

Google I/O 2023で、Googleは次世代モデル「Gemini」の開発を発表しました。
Geminiは、PaLM 2の後継として開発されており、以下の特徴が予定されています:

  • マルチモーダル対応: テキストだけでなく、画像、音声、動画も処理可能
  • デバイス連携: カメラやマイクなどのデバイスと統合
  • より高度な理解能力: 視覚情報と言語情報を組み合わせた理解

Geminiの実現により、「これ何?」と指を差しながら質問すれば、AIが説明してくれるような未来が期待されています。

PaLMの課題と制限

PaLMは高い性能を持つ一方で、いくつかの課題も存在します。

計算リソースの要求

PaLMのトレーニングには、膨大な計算リソースが必要です。
6,144台のTPU V4チップを使用するため、個人や小規模組織が独自にトレーニングすることは事実上不可能です。

データの質への依存

PaLM 2は、高品質な科学論文などを学習データとして使用しています。
そのため、データが少ない分野では性能が低下する可能性があります。

バイアスと公平性

他の大規模言語モデルと同様に、PaLMもトレーニングデータに含まれるバイアスを学習する可能性があります。
Googleは、バイアスの軽減とAIの責任ある開発に取り組んでいます。

文脈の理解の限界

長期的な依存関係や、トレーニングデータにない文脈では、誤った出力を生成する可能性があります。

常識的推論の限界

PaLMは多くのタスクで優れた性能を発揮しますが、常識的な判断が必要な状況では不適切な出力をすることがあります。

PaLMの利用方法

PaLM API

2023年3月、GoogleはPaLM APIを公開しました。
これにより、開発者はPaLMの機能を外部システムと連携して利用できるようになりました。

Vertex AI経由での利用

PaLM 2は、Google Cloudの「Vertex AI」を通じて利用可能です。
Vertex AIは、機械学習やAI機能を提供するマネージドサービスです。

Generative AI Studio

GoogleのGenerative AI Studioでは、PaLMを含む複数のAIモデルを試すことができます。
ユーザーインターフェースを通じて、プロンプトの調整やレスポンスのカスタマイズが可能です。

まとめ

PaLM(Pathways Language Model)は、Googleが開発した5,400億パラメータの大規模言語モデルです。
2022年4月に発表され、言語理解、論理推論、プログラミング支援など、幅広い分野で高い性能を発揮します。

2023年5月には後継モデルのPaLM 2が登場し、多言語能力と推論能力が大幅に向上しました。
PaLM 2は、Bardをはじめとする25以上のGoogle製品に搭載され、実用化が進んでいます。

今後は、マルチモーダル対応の次世代モデル「Gemini」への進化が予定されており、AIと人間のインタラクションがさらに自然になることが期待されています。

ただし、計算リソースの要求、バイアスの問題、常識的推論の限界など、解決すべき課題も残されています。
Googleは、これらの課題に取り組みながら、責任あるAI開発を進めています。

参考情報

コメント

タイトルとURLをコピーしました