オープンマルチモーダルモデルファミリー

Gemma 4 Wiki

公式のGoogleエコシステム全体における、Gemma 4 のモデルサイズ、ベンチマーク、プロンプト、関数呼び出し、マルチモーダル入力、ローカルデプロイ、ファインチューニングを追跡します。

公式サイト
What's new in Gemma 4

Latest Updates

Discover the newest guides, tips, and content

Gemma 4 ガイド:2026年にGoogleのオープンソースAIを使いこなす

GoogleのGemma 4をローカルで実行する方法を学び、AIventureでのバイブ・コーディングを探索し、2026年のゲーミングや開発向けにパフォーマンスを最適化しましょう。

2026年4月3日guide
Read more →
Gemma 4のサイズ:完全なモデル比較とスペックガイド 2026

エッジ対応モデルから強力なワークステーション向けモデルまで、Gemma 4のさまざまなサイズオプションを紹介します。パラメータ、ハードウェア要件、マルチモーダル機能を比較しましょう。

2026年4月3日models
Read more →
Gemma 4 vs Gemini:2026年オープンモデル性能比較

GoogleのGemma 4オープンモデルとGeminiプロプライエタリ・スイートを比較します。ベンチマーク、エージェント機能、ローカルハードウェア要件について解説します。

2026年4月3日comparison
Read more →
Gemma 4 思考モード:最適化&ハードウェアガイド 2026

高度な推論を実現する新しい Gemma 4 思考モードをマスターしましょう。A4B アーキテクチャ、レイテンシの最適化、ローカル AI ホスティングのためのハードウェア要件について解説します。

2026年4月3日guide
Read more →
Gemma 4 インストール:完全ローカルセットアップガイド 2026

コンシューマー向けハードウェアで Gemma 4 をインストールする方法を学びましょう。本ガイドでは、Turbo Quant の最適化、Atomic Bot のセットアップ、およびローカル AI の構成について解説します。

2026年4月3日install
Read more →
Gemma 4 31B:Googleのオープンモデル(2026年版)究極ガイド

画期的なGemma 4 31Bモデルを詳しく解説。256kのコンテキストウィンドウ、マルチモーダルなゲーム開発機能、ローカル環境での展開パフォーマンスについて学びましょう。

2026年4月3日models
Read more →
Gemma 4 レビュー:Googleの新しいオープンモデルファミリーガイド 2026

新しいApache 2.0ライセンス、ワークステーションおよびエッジモデル、ネイティブマルチモーダル機能を網羅した、Gemma 4の詳細レビュー。2026年最新版。

2026年4月3日guide
Read more →
Gemma 4の発売日:Googleの新しいオープンモデル2026に関する完全ガイド

GoogleがGemma 4を正式にリリースしました。Gemma 4の発売日、モデル仕様、ハードウェア要件、およびこれらのオープンソースモデルをプロジェクトで活用する方法について詳しく解説します。

2026年4月3日guide
Read more →
Gemma 4のパフォーマンス:完全ガイドとベンチマーク 2026

革新的なGemma 4のパフォーマンス指標を詳しく解説します。GoogleのオープンソースAIモデルを、Turbo Quant技術を用いて一般的なコンシューマー向けハードウェアでローカル実行する方法を学びましょう。

2026年4月3日benchmark
Read more →
Gemma 4 ローカルテスト:パフォーマンス&ベンチマークガイド 2026

Googleの最新オープンウェイトLLMであるGemma 4の包括的なローカルテスト結果を詳しく解説します。ビジョン、推論、ハードウェアパフォーマンスを分析します。

2026年4月3日benchmark
Read more →
Gemma 4 ローカルセットアップ:完全インストール&最適化ガイド 2026

Atomic BotとOpen Clawを使用してGemma 4をローカルにセットアップする方法を学びましょう。トークン費用なしで、コンシューマー向けハードウェア上で高性能AIエージェントを実行できます。

2026年4月3日install
Read more →
Gemma 4とは:GoogleのオープンAIモデル 2026完全ガイド

Apache 2.0ライセンス、ワークステーションおよびエッジモデル、ネイティブなマルチモーダル機能など、GoogleのGemma 4リリースに関するすべてを解説します。

2026年4月3日guide
Read more →
Gemma 4 メモリ要件:2026年完全ハードウェアガイド

ローカルデプロイのための正確なGemma 4メモリ要件を確認しましょう。31B、26B MoE、EdgeモデルのVRAMニーズを、詳細な2026年ハードウェアガイドで解説します。

2026年4月3日requirements
Read more →
Gemma 4リリース:Googleの新しいオープンモデル2026完全ガイド

モデルバリアント、Apache 2.0ライセンス、ローカルAI開発のためのエージェンティックなワークフロー機能など、公式のGemma 4リリースについて詳しく解説します。

2026年4月3日guide
Read more →
Gemma 4 コーディングテスト:Googleのオープンモデル・ベンチマーク 2026

ウェブ開発、3Dゲームエンジン、ローカルパフォーマンスを網羅した詳細なGemma 4コーディングテスト。26Bおよび31Bモデルが現実のシナリオでどのような実力を発揮するか検証します。

2026年4月3日benchmark
Read more →
Gemma 4 Linux: ローカルインストールおよびセットアップガイド 2026

LinuxディストリビューションでGemma 4をインストールし、最適化する方法を学びます。Ollamaの統合、ハードウェア要件、パフォーマンス調整に関するステップバイステップガイド。

2026年4月3日install
Read more →
Gemma 4 vs Qwen:究極のAIモデル比較ガイド 2026

GoogleのGemma 4とAlibabaのQwen 3.6 Plusを徹底比較。2026年におけるベンチマーク、マルチモーダル機能、ローカルデプロイのヒントを探ります。

2026年4月3日comparison
Read more →
Gemma 4 ダウンロード:2026年版ローカルAI完全セットアップガイド

Atomic BotとOpenclawを使用して、Googleの最も強力なオープンソースAIモデルをローカルにセットアップし、Gemma 4のダウンロードを完了する方法を学びましょう。

2026年4月3日install
Read more →
Gemma 4 Ollamaアップデート:Googleの新しいオープンモデルを動かす方法 2026

大規模なGemma 4 Ollamaアップデートについて解説します。エージェント・ワークフローやコーディング向けに、31B、26B MoE、Effective 4Bモデルをローカルにインストールする方法を学びましょう。

2026年4月3日ollama
Read more →
Gemma 4 vs GPT:2026年版 AIロジック&パフォーマンス究極ガイド

GoogleのGemma 4とOpenAIのGPT-5.4を徹底比較。因果推論、論理パズル、効率性の面でどちらのAIモデルが優れているかを明らかにします。

2026年4月3日comparison
Read more →
Gemma 4モデル:Googleの2026年オープンAI完全ガイド

Gemma 4モデルの全機能を探索しましょう。26B MoEおよび31B Denseバリアント、ゲームへの応用、パフォーマンスベンチマークについて解説します。

2026年4月3日models
Read more →
Gemma 4 ハードウェア要件:ローカルAI完全ガイド 2026

Googleの最新オープンモデルをローカルで実行するためのGemma 4の必須ハードウェア要件について学びましょう。2Bから31BモデルまでのVRAM、RAM、GPUの仕様を詳しく解説します。

2026年4月3日requirements
Read more →
Gemma 4解説:Googleの新しいAIモデル(2026年版)完全ガイド

GoogleのGemma 4シリーズに関するすべてを学びましょう。マルチモーダル機能からローカルハードウェア要件まで、Gemma 4の完全解説ガイドです。

2026年4月3日guide
Read more →
Gemma 4 26B ガイド:2026年、Googleのオープンモデルの力を探る

Gemma 4 26B Mixture of Expertsモデルの包括的ガイド。2026年におけるそのアーキテクチャ、ローカルパフォーマンス、エージェント機能について学びましょう。

2026年4月3日models
Read more →
Gemma 4 PC: ローカルAIのパフォーマンスとセットアップガイド 2026

GoogleのGemma 4をPCで実行する方法を学びましょう。E2B、26B、31Bモデルのベンチマーク、ハードウェア要件、ローカルAI向けの最適化のヒントを解説します。

2026年4月3日requirements
Read more →
Gemma 4 Ollamaモデル:2026年版完全デプロイ&パフォーマンスガイド

Gemma 4 Ollamaモデルのデプロイをマスターしましょう。26B MoE、31B Dense、そして2026年のローカルAIパフォーマンス向けに最適化されたモバイル版について詳しく解説します。

2026年4月3日ollama
Read more →
Gemma 4 Ollama: Googleのエッジ最適化AIをローカルで実行する(2026年版)

OllamaとOpenClawを使用してGemma 4 E4Bをインストールし、最適化する方法を学びます。層ごとの埋め込み技術を採用したローカルAIデプロイメントの完全ガイド。

2026年4月3日ollama
Read more →
Gemma 4 vs Qwen 3.6:2026年におけるゲーミングと開発者のための最高のAIモデル

GoogleのGemma 4とAlibabaのQwen 3.6を比較。2026年のローカルゲーム統合、コーディング、マルチモーダル性能において、どちらのモデルが優れているかを探ります。

2026年4月3日comparison
Read more →
Gemma 4 Windows: 2026年版ローカルAI完全セットアップガイド

WindowsでGemma 4をインストールし、最適化する方法を学びましょう。ハードウェア要件、MoE対Denseモデル、ローカルのエージェンティック・ワークフローを網羅した包括的なガイドです。

2026年4月3日install
Read more →
Gemma 4 E2B:GoogleのエッジAIモデル完全ガイド 2026

Googleの最新エッジ最適化AIモデル、Gemma 4 E2Bの機能を詳しく解説。ネイティブ・マルチモーダル機能、思考機能、Apache 2.0ライセンスについて学びましょう。

2026年4月3日models
Read more →

Gemma 4 リソース

ローカルセットアップからAPI統合まで、Gemma 4 を始めるために必要なすべて

クイックスタート

Gemma 4 チュートリアル

Gemma 4 は2026年4月2日に、E2B、E4B、26B A4B、31Bの4つの公式サイズでリリースされました。このファミリーは Apache 2.0 ライセンスの下でオープンウェイト展開向けに構築されており、モバイルやノートPCクラスのハードウェアを対象とした小型のエッジモデルと、デスクトップ、ワークステーション、サーバーを対象とした大型モデルが用意されています。

1

4つの公式 Gemma 4 サイズを理解する

Gemma 4 には E2B、E4B、26B A4B、31B があります。E2B と E4B はテキスト、画像、音声の入力を受け付けます。26B A4B と 31B はテキストと画像の入力を受け付け、より大規模なローカル環境やサーバー展開を対象としています。

2

ハードウェアに合ったモデルを選択する

モバイル、エッジ、またはノートPCに適したローカル推論を行いたい場合は E2B または E4B を使用してください。より強力な汎用ローカルモデルが必要な場合は 26B A4B を、公式の Gemma 4 チェックポイントの中で最大のモデルが必要な場合は 31B を使用してください。

3

開始点を選択する

Gemma 4 26B A4B は、強力な初回体験のための有力なデフォルト選択肢です。最も軽量な開始点を求める場合は、指示調整済みのエッジモデルから始め、ワークロードにより高い能力が必要になった段階で上位モデルに移行してください。

4

試用方法を選択する

Google AI Studio や Gemini API を通じてホスト型の Gemma 4 を試すか、Hugging Face や Kaggle からオープンウェイトをダウンロードして、ローカルでの利用、チューニング、カスタム展開を行ってください。

5

Gemma 4 の最適化対象を知る

このファミリーは、推論、コーディング、エージェントワークフロー、およびマルチモーダル理解のために構築されています。エッジモデルは 128K コンテキストをサポートし、26B A4B と 31B は最大 256K コンテキストをサポートします。

Quick Tips

  • 指示調整済み(-it)バリアントは、チャットやアシスタントのユースケースに最適です。
  • E2B と E4B は、ローカルでの実験において最もハードウェアの敷居が低い開始点です。
  • 26B A4B は MoE モデルであり、同等の合計サイズを持つ高密度モデルよりも実効推論速度が高速です。
  • すべての Gemma 4 のウェイトは Apache 2.0 ライセンスの下で公開されています。
ローカル実行

Gemma 4 Ollama セットアップ

Ollama は、ノートPCやワークステーションで Gemma 4 を実行するための最も速い方法の1つです。デフォルトの Ollama の流れはシンプルです。Ollama をインストールし、Gemma 4 をプルし、モデルリストを確認し、ハードウェアに適したタグを選択して、CLI またはローカル API から実行します。

1

Ollama のインストールと確認

Windows、macOS、または Linux 用の Ollama をダウンロードしてインストールし、コマンド ollama --version でセットアップを確認します。

2

デフォルトの Gemma 4 バリアントをプルする

ollama pull gemma4 を使用してデフォルトの Gemma 4 パッケージをダウンロードし、ollama list を実行してローカルで利用可能であることを確認します。

3

適切なモデルタグを選択する

最も軽量なエッジオプションには gemma4:e2b を、より強力なエッジのデフォルトには gemma4:e4b を、26B A4B MoE ワークステーションモデルには gemma4:26b を、フルサイズの大型モデルには gemma4:31b を使用してください。

4

各タグの要件を把握する

Ollama ライブラリページでは、e2b は 7.2GB(128K コンテキスト)、e4b は 9.6GB(128K)、26b は 18GB(256K)、31b は 20GB(256K)と記載されています。

5

最初のプロンプトを実行する

最初のテキストテストとして、ollama run gemma4 "こんにちは、何ができますか?" を実行します。Ollama は、公式ガイドに示されているプロンプト形式で画像入力もサポートしています。

6

アプリ統合にローカル API を使用する

Ollama は http://localhost:11434/api/generate でローカルウェブサービスを公開しているため、別のモデルサーバーをセットアップすることなく、CLI テストから軽量なローカルアプリケーションへ移行できます。

Quick Tips

  • E2B と E4B は、軽量なハードウェアでローカルな実験を行う際の現実的な最初の選択肢です。
  • 26b タグは 26B A4B MoE モデルを対象としており、同等の合計サイズを持つ高密度モデルよりもアクティブな計算量が少なくなります。
  • ollama list は、ローカルにダウンロードされたすべてのモデルとそのサイズを表示します。
  • Ollama は、ollama run gemma4:e2b に画像パスを添えるプロンプト形式で画像入力をサポートしています。
ホスト型 API

Gemma 4 API ガイド

Gemini API は Gemma 4 へのホスト型アクセスを提供し、ローカル推論を管理せずに構築する場合に便利です。AI Studio および Gemini API でホストされている Gemma 4 モデルは、gemma-4-26b-a4b-it と gemma-4-31b-it です。

1

Google AI Studio で API キーを作成する

Google AI Studio を開き、Gemini API キーを作成します。新規ユーザーはデフォルトの Google Cloud プロジェクトから開始でき、既存ユーザーは Cloud プロジェクトをインポートしてキーを作成できます。

2

環境変数にキーを設定する

Gemini SDK は GEMINI_API_KEY または GOOGLE_API_KEY を自動的に取得します。両方が設定されている場合は、GOOGLE_API_KEY が優先されます。

3

公式 SDK をインストールする

Python の場合は google-genai をインストールします。JavaScript および TypeScript の場合は @google/genai をインストールします。Google は Go、Java、C#、および Apps Script 用の SDK パスも公開しています。

4

ホスト型 Gemma 4 モデル ID を選択する

ホスト型 Gemma 4 の場合、より高速な MoE 大型モデルには gemma-4-26b-a4b-it を、フラッグシップの高密度チェックポイントには gemma-4-31b-it を使用してください。

5

最初の generateContent リクエストを送信する

公式の例では、model フィールドを gemma-4-31b-it に設定して client.models.generate_content を使用します。REST では、x-goog-api-key ヘッダーを付けて generateContent エンドポイントにリクエストを送信します。

6

AI Studio を使用してテストからコードへ橋渡しする

Google AI Studio では、プロンプト、モデル設定、関数呼び出し、構造化出力を試行し、その後「コードを取得」フローを通じて動作するコードをエクスポートできます。

Quick Tips

  • AI Studio は、コードを書く前に Gemma 4 のプロンプトをテストする最も速い方法です。
  • Gemini API は、チャットや長い生成のユースケース向けにストリーミングレスポンスをサポートしています。
  • gemma-4-26b-a4b-it は MoE モデルであり、一般的に 31B よりも高速でコスト効率に優れています。
  • 関数呼び出しと構造化出力は、両方のホスト型 Gemma 4 モデル ID で利用可能です。
ダウンロード

Gemma 4 Hugging Face ダウンロード

Hugging Face 上の公式 Google コレクションには、E2B、E4B、26B A4B、31B の4つの主要な Gemma 4 チェックポイントが含まれており、それぞれベース形式と指示調整済み形式があります。指示調整済み(-it)リポジトリは、チャット、コーディング、アシスタント体験の自然な開始点となります。

指示調整済み

google/gemma-4-E2B-it

テキスト、画像、音声入力に対応し、128K コンテキストを備えたエッジ向けチェックポイント。高速なローカルアシスタントやデバイス上でのマルチモーダル実験に最適です。

指示調整済み

google/gemma-4-E4B-it

テキスト、画像、音声入力に対応し、128K コンテキストを備えた、より強力なエッジ向けチェックポイント。ワークステーション級のハードウェアに移行することなく、E2B よりも高い能力を発揮します。

指示調整済み

google/gemma-4-26B-A4B-it

256K コンテキストとテキスト・画像入力を備えた MoE チェックポイント。同等の合計サイズを持つ高密度モデルよりも実効推論が速く、大型モデル並みの品質を提供します。

指示調整済み

google/gemma-4-31B-it

256K コンテキストとテキスト・画像入力を備えた、フラッグシップとなる高密度 Gemma 4 チェックポイント。最高精度のチャット、推論、コーディング、エージェントワークフローに最適です。

事前学習済み

google/gemma-4-E2B

最小のマルチモーダル Gemma 4 モデルを研究、適応、または微調整したいユーザー向けのベースエッジチェックポイント。

事前学習済み

google/gemma-4-E4B

テキスト、画像、音声入力を維持しつつ、下流の指示動作を独自のチューニングパイプラインに委ねるためのベースエッジチェックポイント。

事前学習済み

google/gemma-4-26B-A4B

デフォルトの指示調整済み動作を必要とせず、26B A4B アーキテクチャをカスタム適応させたい場合のベース MoE 大型チェックポイント。

事前学習済み

google/gemma-4-31B

独自の微調整やアライメント段階の前に、最大の公式 Gemma 4 基盤モデルを必要とするチーム向けのベース 31B 高密度チェックポイント。

Model Comparison

Choose the Right Gemma 4 Size for Your Hardware

Gemma 4 ships in four sizes with very different trade-offs. The fastest choice is not always the smallest model, and the highest-quality choice is not always the easiest one to deploy.

Gemma 4 is available in two edge-first dense models, one efficient Mixture-of-Experts model, and one large dense model. For most teams, the real decision is not just quality, but where the model runs: phone, laptop, workstation, or server. A practical starting point is 26B A4B when you want strong quality without jumping all the way to 31B.

Gemma 4 E2B

ArchitectureDense
Parameters2.3B effective
Context128K tokens
Memory (BF16/Q4)9.6 GB BF16 / 4.6 GB SFP8 / 3.2 GB Q4_0
PlatformMobile devices

Offline assistants, lightweight multimodal apps, edge deployment

Gemma 4 E4B

ArchitectureDense
Parameters4.5B effective
Context128K tokens
Memory (BF16/Q4)15 GB BF16 / 7.5 GB SFP8 / 5 GB Q4_0
PlatformMobile and laptops

Stronger local copilots, on-device reasoning, multimodal apps with more headroom

Gemma 4 26B A4B

ArchitectureMoE
Parameters25.2B total, 3.8B active
Context256K tokens
Memory (BF16/Q4)48 GB BF16 / 25 GB SFP8 / 15.6 GB Q4_0
PlatformDesktop and small servers

Best balance of quality, speed, and long-context work for most teams

Gemma 4 31B

ArchitectureDense
Parameters30.7B
Context256K tokens
Memory (BF16/Q4)58.3 GB BF16 / 30.4 GB SFP8 / 17.4 GB Q4_0
PlatformLarge servers

Highest-end reasoning, coding, and multimodal quality in the Gemma 4 family

Core Specs

The Gemma 4 Specs That Actually Matter Before You Build

For most builders, the key questions are context length, modalities, language coverage, licensing, and app-level features. These are the specs that change implementation choices, hosting cost, and product scope.

Gemma 4 is not just a text model refresh. The family combines long context, multimodal input, thinking mode, native system prompts, and function-calling support in one open-weight lineup. The smaller models add audio input, while the larger models extend context to 256K for document-heavy and repository-scale workloads.

Release

March 31, 2026

This is the current Gemma core generation and the one Google now highlights across docs and launch materials.

Input and Output

All models: text and image → text; E2B and E4B also support audio input

You can build text-only, vision, and lightweight speech understanding flows without switching model families.

Maximum Context Window

128K tokens on E2B and E4B; 256K tokens on 26B A4B and 31B

Large prompts such as long documents, long chats, or multi-file code context fit in a single request.

Language Coverage

Over 140 languages

This matters for multilingual products, OCR, and globally deployed assistants.

License and Weights

Apache 2.0 license with open weights and support for responsible commercial use

You can tune, deploy, and run Gemma 4 in your own stack with fewer licensing constraints.

Reasoning and Control

Configurable thinking mode, native system role support, structured JSON output, and function calling

These features make Gemma 4 much easier to use for agents, tool use, and instruction-heavy applications.

Visual Handling

Variable image resolutions and token budgets of 70, 140, 280, 560, or 1120 tokens

You can trade image detail for speed depending on whether the task is OCR, UI reading, chart analysis, or fast frame processing.

Performance

Official Gemma 4 Benchmark Snapshot

These scores show where each Gemma 4 size is strongest across reasoning, coding, science, vision, and long-context retrieval. Use them to shortlist a model quickly, then match that shortlist to your latency and memory budget.

Gemma 4 is positioned as a model family for reasoning, agentic workflows, coding, and multimodal understanding. The official benchmark tables show a clear pattern: 31B leads, 26B A4B stays surprisingly close while being much more efficient, and E4B and E2B bring meaningful capability to smaller devices.

MMLU Pro

Knowledge and reasoning

85.2%
31B
82.6%
26B A4B
69.4%
E4B
60.0%
E2B

Best quick comparison for general high-level reasoning performance across the family.

AIME 2026 (no tools)

Math reasoning

89.2%
31B
88.3%
26B A4B
42.5%
E4B
37.5%
E2B

31B and 26B A4B are the right targets for math-heavy assistants and planning tasks.

LiveCodeBench v6

Competitive coding

80.0%
31B
77.1%
26B A4B
52.0%
E4B
44.0%
E2B

If coding is a primary use case, the larger two models are in a different tier from the edge models.

GPQA Diamond

Scientific reasoning

84.3%
31B
82.3%
26B A4B
58.6%
E4B
43.4%
E2B

A strong signal for technical and expert-facing workflows.

MMMU Pro

Multimodal reasoning

76.9%
31B
73.8%
26B A4B
52.6%
E4B
44.2%
E2B

Vision tasks benefit heavily from the larger models when accuracy matters more than footprint.

MRCR v2 (128K, 8-needle)

Long-context retrieval

66.4%
31B
44.1%
26B A4B
25.4%
E4B
19.1%
E2B

For large-document and repository-scale prompting, 31B is the strongest long-context choice.

カスタマイズ

実践的なプロダクト開発のための Gemma 4 ファインチューニング手法

プロンプティングだけでは不十分で、特定のドメイン、ワークフロー、または役割において Gemma 4 のパフォーマンスを向上させたい場合に、ファインチューニングが重要になります。実用的なパスとしては、テキストタスク向けの軽量なアダプターチューニングと、画像+テキストタスク向けのマルチモーダルアダプターチューニングがあります。

公式の Gemma チューニングドキュメントは、「漠然とした改善ではなく、定義されたタスクのためにチューニングする」というシンプルなルールに基づいています。多くの開発者にとって、QLoRA はフルモデルチューニングよりもハードウェア要件を大幅に低く抑えられるため、最も現実的な開始点となります。

1

明確なチューニング目標から始める

カスタマーサポート、Text-to-SQL、製品説明文の生成など、ベースモデルのパフォーマンスを向上させたいタスクや役割を選択します。タスクが具体的で繰り返される場合にファインチューニングを使用します。

2

チューニングパスを選択する

指示や生成タスクにはテキストチューニングを、データセットに画像とテキストが含まれる場合はビジョンチューニングを使用します。テキスト QLoRA ガイドでは Text-to-SQL を、ビジョン QLoRA ガイドでは画像+テキストの製品説明を例示しています。

3

現実的なフレームワークを選択する

Gemma 4 は、Keras with LoRA、Gemma ライブラリ、Hugging Face ベースのワークフロー、GKE、および Vertex AI をサポートしています。多くの開発者にとって、Hugging Face と TRL の組み合わせが最も直接的なパスです。

4

ハードウェアに合わせたワークフローを選択する

公式のテキスト QLoRA の例は、T4 16GB のセットアップ向けに設計されています。ビジョン QLoRA ガイドでは、NVIDIA L4 や A100 など、16GB 以上のメモリを搭載した BF16 対応の GPU が必要です。

5

効率を重視する場合は QLoRA を使用する

QLoRA はベースモデルを 4-bit に量子化したまま元の重みを凍結し、追加された LoRA アダプターのみをトレーニングします。これにより、高いタスクパフォーマンスを維持しながらメモリ使用量を抑えることができます。

6

適切な形式でデータを準備する

目的の動作に直接一致するデータセットを構築し、TRL や SFTTrainer を使用した対話形式のトレーニング用にフォーマットします。公式のテキストガイドでは、大規模な合成 Text-to-SQL データセットを使用しています。

7

評価、比較、そしてデプロイ

トレーニング後、ベースモデルとの推論比較を行い、タスクの改善を確認してから、チューニング済みモデルまたはアダプターをデプロイします。フレームワークの選択が出力形式に影響するため、デプロイ形式は早い段階で決定してください。

Quick Tips

  • テキストタスクには QLoRA と T4 クラスの GPU から始めてください。タスク適応のためにフルファインチューニングが必要になることは稀です。
  • データセットは、Gemma 4 がすでに理解している指示チューニング済みのチャット形式を反映するようにフォーマットしてください。
  • 有意義な改善シグナルを得るために、評価セットはトレーニングデータと同じ分布から抽出してください。
  • MoE モデルの 26B A4B は効率的なアクティブパラメータを持っていますが、トレーニング中のチェックポイントサイズには総パラメータ数が影響します。
  • 指示タスクの開始点としては、事前学習済みのベースモデルではなく、Gemma 4 -it チェックポイントを使用してください。
プロンプティング

Gemma 4 プロンプトガイド

Gemma 4 では、ネイティブのシステム指示、マルチモーダルプレースホルダー、思考やツール使用のための組み込みコントロールを備えた、新しいターンベースのプロンプト形式が導入されました。

このガイドでは、公式の Gemma 4 形式を実践的なプロンプトライブラリとして解説します。すべてのやり取りをターンとして構造化し、振る舞いやグローバルルールにはシステムロールを使用し、必要に応じて画像や音声のプレースホルダーを挿入します。思考やツール使用は、タスクに実際にメリットがある場合にのみ有効にします。

基本的なチャットスケルトン

Gemma 4 は、ターンマーカーで囲まれたネイティブの system、user、model ロールを使用します。

  • グローバルな指示には system を使用
  • 現在のリクエストには user を使用
  • 生成の開始点として model を使用
<|turn>system You are a helpful assistant.<turn|> <|turn>user Summarize the following article in 5 bullets.<turn|> <|turn>model

システムプロンプトのパターン

毎回繰り返すのではなく、固定の振る舞いルールを 1 つのシステムターンに記述します。

  • スタイル、範囲、出力形式の指定に有効
  • ネイティブのシステムロールサポートは Gemma 4 から開始
  • 簡潔かつタスク固有の内容にする
<|turn>system You are a technical writer. Answer in clear English, use short paragraphs, and include one practical example.<turn|> <|turn>user Explain function calling for a beginner.<turn|> <|turn>model

マルチモーダルプレースホルダー

画像や音声のエンベディングを挿入する場所を示すために、プレースホルダートークンを使用します。

  • 画像には <|image|> を使用
  • 音声には <|audio|> を使用
  • プロセッサがトークナイズ後にプレースホルダーをエンベディングに置換
<|turn>user Describe this image: <|image|> Then transcribe this clip: <|audio|><turn|> <|turn>model

思考対応プロンプト

システム指示の中に <|think|> を配置することで、思考モードが有効になります。

  • 推論が重要なタスクで有効にする
  • 単純な直接生成の場合はオフにする
  • 思考とその他のグローバル指示の両方に 1 つのシステムターンを使用する
<|turn>system <|think|>You are a careful reasoning assistant.<turn|> <|turn>user Compare two pricing models and recommend one for a startup.<turn|> <|turn>model

ツール対応プロンプト構造

ツールの宣言はシステムターンで行い、ツール呼び出しとツール応答は専用のコントロールトークンで処理されます。

  • API、検索、計算機、外部データ参照に有用
  • ツール使用はプレーンテキストの模倣ではなく構造化されている
  • 同じターン内で推論とツール使用を同時に行える
Define tools in the system turn using the tool declaration token block, then set user and model turns as usual. Gemma 4 handles the rest with structured tool_call and tool_response tokens.
推論

Gemma 4 思考モード

思考モードを使用すると、Gemma 4 は最終的な回答の前に推論チャネルを生成でき、プロセッサはアプリケーションで使用するために両方の部分を分離できます。

思考モードは、曖昧な質問、数学、コーディング、ツール計画、マルチモーダル分析など、回答前の中間推論が役立つタスクに最適です。Gemma 4 では、チャットテンプレートレベルで有効にし、推論をライブでストリーミングし、出力を思考ブロックとユーザー向けの回答ブロックに分割できます。

1

適切なタスクを選択する

短い直接的な回答ではなく、分解、比較、計画、または慎重な解釈が必要なリクエストに対して思考モードを使用します。

  • 適したタスク: 数学、コードのデバッグ、構造化された意思決定、画像+テキストの推論
  • 不要なケース: 単純な書き換え、短い要約、単純な事実確認
  • 公式の例ではテキストのみと画像+テキストの両方のワークフローをカバー
2

チャットテンプレートで思考を有効にする

Hugging Face Transformers では、apply_chat_template() で enable_thinking=True を設定します。トークンレベルでは、Gemma 4 はシステムターンで <|think|> を使用します。

  • E2B および E4B: 思考オフではシンプルな user-model フローを使用し、思考オンでは <|think|> を含むシステムターンを追加
  • 26B A4B および 31B: 公式テンプレートには、出力を安定させるために思考オフ時でも空の思考トークンが含まれている
  • 思考は会話レベルで有効にするように設計されている
3

結果の生成と分離

モデルは最初に推論チャネルを出力し、その後に最終的な回答を出力できます。TextStreamer でストリーミングし、parse_response() で分割できます。

  • processor.parse_response() は、分離された思考内容と回答内容を返す
  • これはテキストプロンプトと画像+テキストプロンプトの両方で機能
  • ターンがエージェント的になる場合、推論チャネルにツール呼び出しを含めることも可能
4

マルチターンチャットを正しく処理する

通常のマルチターン会話では、履歴を戻す前に前のターンで生成された思考を削除します。ツール呼び出しのターンでは、ツールサイクルが終了するまで思考の流れを維持します。

  • 通常のチャット: 次のターンの前に以前の思考ブロックを削除
  • ツール使用の例外: 同じターン内の関数呼び出し間では思考を削除しない
  • これにより、エージェントの動作を維持しながらコンテキストをクリーンに保つ
エージェンティック・ワークフロー

Gemma 4 関数呼び出し (Function Calling)

Gemma 4はネイティブな構造化ツール利用をサポートしており、モデルがプレーンテキストで外部アクションを模倣するのではなく、関数をリクエストできるようにします。

関数呼び出しは、モデルの出力と実際のアプリケーションの動作を繋ぐ実用的な架け橋です。Gemma 4にライブデータを推測させたりアクションをシミュレートさせたりする代わりに、ツールを定義し、モデルに構造化された呼び出しを生成させ、アプリ内で関数を実行し、その結果をモデルに戻すことで、最終的に自然言語でクリーンな回答を得ることができます。

1

ツールを明確に定義する

手動のJSONスキーマ、またはスキーマに変換された生のPython関数のいずれかを使用して、apply_chat_template()経由でツールを渡します。

  • 正確なネストされたパラメータが必要な場合は、手動のJSONスキーマが最適です
  • 明確な型ヒントとドキュメント文字列を持つシンプルなツールの場合は、生のPython関数が便利です
  • ツールの定義には、名前、説明、パラメータの型、および必須フィールドを含める必要があります
2

モデルにツールをリクエストさせる

Gemma 4はユーザープロンプトと利用可能なツールを受け取り、ツールが必要な場合にはプレーンテキストではなく構造化された関数呼び出しオブジェクトを返します。

  • ツールの使用は、tool、tool_call、tool_responseなどの専用トークンで制御されます
  • 典型的な例は、天気予報や検索関数です
  • 回答が外部の状態やシステムのアクションに依存する場合、これはプレーンテキストよりも優れています
3

アプリ内で検証して実行する

Gemma 4は単独でコードを実行することはできません。アプリケーション側で関数名と引数を解析し、それらを検証して、実際の関数を安全に実行する必要があります。

  • 実行前に必ず関数名と引数を検証してください
  • 安全策なしに生成されたコードに依存しないでください
  • 本番システムでは、動的な実行ではなく、ツール名を承認済みのハンドラーにマッピングしてください
4

最終回答のためにツールの出力を返す

ツールの結果をチャット履歴に追加し、Gemma 4に最終的なユーザー向けの回答を生成させます。

  • 公式ワークフロー:ツールの定義、モデルのターン、開発者のターン、最終回答
  • このパターンは、API、ライブ検索、計算機、設定の更新、およびエージェントループで機能します
  • モデルが最終的な回答を正しく根拠付けられるよう、ツールの応答は構造化された状態を維持する必要があります
マルチモーダル

Gemma 4 マルチモーダルガイド

Gemma 4はすべてのモデルでテキストと画像を処理し、ビデオをフレームとしてサポートし、E2BおよびE4Bではネイティブなオーディオサポートを追加しています。

Gemma 4はマルチモーダル入力向けに構築されています。すべてのモデルが画像とビデオ形式の視覚的理解をサポートし、小型モデルにはオーディオ入力が追加されています。また、ランタイムではトークン予算を使用して、視覚的な詳細さと速度のトレードオフを調整できます。これにより、Gemma 4はOCR、キャプション生成、物体検出、音声タスク、および1つのチャットフロー内での混合メディアプロンプトに適しています。

画像理解

すべての Gemma 4 モデルは、テキストと画像を組み合わせたワークフローをサポートしています。

  • 一般的なタスク:OCR、物体検出、視覚的質問回答、画像キャプション生成
  • 1つのプロンプト内での複数の画像にわたる推論をサポート
  • スクリーンショット、ドキュメント、製品画像、およびシーン分析に最適

ビデオ理解

すべての Gemma 4 モデルは、ビデオを一連のフレームとして処理できます。

  • シーンの説明、対人関係、および状況の要約に適しています
  • ビデオはメッセージ配列内のコンテンツアイテムとして渡されます
  • サポートされている最大ビデオ長は、毎秒1フレームで60秒です

オーディオ理解

オーディオはE2BおよびE4Bモデルで利用可能です。

  • 多言語の音声認識、音声翻訳、および一般的な音声理解をサポート
  • オーディオトークンのコストは1秒あたり25トークンです
  • 最大オーディオ長は30秒です

視覚トークン予算

Gemma 4は可変解像度の画像処理を導入しており、タスクに基づいて速度または詳細度を選択できます。

  • サポートされている画像予算:70、140、280、560、1120トークン
  • 高速な分類、キャプション生成、およびビデオフレーム分析には低い予算を使用
  • OCR、ドキュメント解析、および小さなテキストの読み取りには高い予算を使用

入力準備ルール

プロセッサがメディアフォーマットの多くを処理しますが、本番環境ではいくつかの制限が重要になります。

  • オーディオはモノラル、16 kHz、float32、[-1, 1]に正規化されている必要があります
  • 画像ファイルのサポートは、ファイルをテンソルに変換するために使用されるフレームワークに依存します
  • プロンプトの品質は依然として重要です。具体的な指示は、曖昧なマルチモーダルリクエストよりも優れた結果をもたらします

モデル機能の区分

モバイルや音声を多用するユースケースには最小のモデルを使用し、長いコンテキストを伴う高度な推論には大規模なモデルを使用してください。

  • E2BおよびE4B:128Kコンテキストを備えたオーディオ対応の小型モデル
  • 26B A4Bおよび31B:256Kコンテキストを備えた推論重視の大型モデル
  • 4つの公式サイズすべてにおいて、ベース版と指示調整(instruction-tuned)版が利用可能
ローカルデプロイ

Gemma 4 GGUF と量子化

お使いのマシンに適合する、最小の Gemma 4 フットプリントを選択してください

ほとんどのローカル環境において、実用的な判断は、E2BやE4Bにとどまるか、あるいは26B A4Bの GGUF ビルドに移行するかどうかです。Googleは、4つの公式サイズすべてについて、BF16、SFP8、および4ビット形式のデプロイメント選択肢における概算メモリ必要量をドキュメント化しています。

公式ローカルエントリポイント

Googleの Ollama ガイドでは、gemma4:e2b、gemma4:e4b、gemma4:26b、gemma4:31bの4つの Gemma 4 タグが公開されています。LM Studio も、完全なローカル推論のために GGUF とMLXの両方の形式でGemmaモデルをサポートしています。

まずはE2BまたはE4Bから始めて軽量なローカルループを構築し、RAM予算に余裕があり、より強力な推論モデルが必要な場合にのみ26Bまたは31Bに移行してください。

公式サイズ別の概算メモリ

Googleは、推論メモリの目安をE2B 9.6 GB BF16 / 3.2 GB Q4_0、E4B 15 GB / 5 GB、26B A4B 48 GB / 15.6 GB、31B 58.3 GB / 17.4 GBと記載しています。

一般的なローカルマシンを対象とする場合、4ビット形式のデプロイまたは小型のモデルサイズを選択することが、実行可能かどうかの境界線になることが一般的です。

公式 26B A4B GGUF の例

公式のggml-org Gemma 4 26B A4B IT GGUF ページでは、起動にllama-serverを推奨しており、Q4_K_Mは16.8 GB、Q8_0は26.9 GB、F16は50.5 GBと記載されています。

大規模なローカル Gemma 4 モデルが必要だが、Q8_0やフル16ビットのメモリ使用が困難な場合、Q4_K_Mが最も実用的なデフォルトの選択肢となります。

量子化による変化

パラメータ数が多く精度が高いほど一般的に能力は高くなりますが、処理サイクル、メモリ、電力のコストも高くなります。精度を下げるとこれらのコストは削減されますが、能力が低下する可能性があります。

量子化を使用してモデルをハードウェアに適合させてください。小型の GGUF ビルドはローカルでの実行を助けますが、それは無料のアップグレードではなく、デプロイのための妥協案であることを理解しておく必要があります。

Python ワークフロー

Gemma 4 PyTorch ガイド

PyTorch ファーストのスタックから Gemma 4 を実行する

Gemma 4 の最短の Python パスは、PyTorch 上の Hugging Face Transformers です。torch と transformers をインストールし、Gemma 4 モデル ID を選択して、マルチモーダルやツール対応のワークフローに進む前に、まずはパイプラインベースのテキスト推論から始めましょう。

1

ランタイムのインストール

Google の Gemma 4 テキスト推論ガイドは、torch、accelerate、transformers、および会話処理用の dialog から始まります。

pip install torch accelerate pip install transformers pip install dialog
2

公式の Gemma 4 チェックポイントを選択する

Google の Gemma 4 の例では、4 つの公式な指示調整済み ID が示されています:google/gemma-4-E2B-it、google/gemma-4-E4B-it、google/gemma-4-26B-A4B-it、および google/gemma-4-31B-it。

MODEL_ID = "google/gemma-4-E2B-it"
3

テキスト生成から始める

最初のレスポンスを得るための最も簡単な方法として、task="text-generation"、device_map="auto"、dtype="auto" を指定した transformers.pipeline を使用します。

from transformers import pipeline txt_pipe = pipeline( task="text-generation", model=MODEL_ID, device_map="auto", dtype="auto" )
4

必要に応じてマルチモーダルやツールへ移行する

マルチモーダルや関数呼び出しのワークフローでは、AutoProcessor と AutoModelForMultimodalLM を使用し、ツール対応のプロンプト作成のために apply_chat_template を活用します。

from transformers import AutoProcessor, AutoModelForMultimodalLM model = AutoModelForMultimodalLM.from_pretrained( MODEL_ID, dtype="auto", device_map="auto") processor = AutoProcessor.from_pretrained(MODEL_ID)
5

より詳細な制御のためにネイティブ PyTorch を使用する

Google の PyTorch ガイドには、Kaggle 認証情報の設定、依存関係のインストール、gemma_pytorch のクローン、および直接的なチェックポイント制御による実験のためのマルチモーダルモデルクラスのロード方法が記載されています。

pip install -q -U torch immutabledict sentencepiece git clone https://github.com/google/gemma_pytorch.git
オンデバイス AI

Gemma 4 モバイルデプロイメント

現在の Android スタックを通じて Gemma 4 をモバイルに導入する

Gemma 4 には現在、3 つの実用的なモバイル向けパスがあります。AICore プレビューデバイス上の ML Kit Prompt API、開発者向けの Android Studio ローカルモデルワークフロー、そしてモバイルや組み込みデバイス全体で低レベルのランタイム制御を可能にする LiteRT-LM です。

1

目的に合ったパスを選択する

Android アプリ体験を構築する場合は AICore 上の ML Kit Prompt API を、オフラインでのコーディング支援が必要な場合は Android Studio ローカルモデルを、より低レベルのランタイム制御が必要な場合は LiteRT-LM を使用してください。

Path by use case: - App feature prototype: ML Kit Prompt API + AICore - Local coding workflow: Android Studio local model - Custom runtime control: LiteRT-LM
2

AICore でオンデバイスのプロトタイプを作成する

Google の 2026 年 4 月のプレビューでは、AICore 対応デバイス上の Prompt API フロー内のモデル設定を通じて、Gemma 4 E2B または E4B をターゲットにできます。

val previewFullConfig = generationConfig { modelConfig = ModelConfig { releaseTrack = ModelReleaseTrack.PREVIEW preference = ModelPreference.FULL } }
3

デバイスの要件を確認する

プレビューモデルは、AICore 対応デバイス、および Google、MediaTek、Qualcomm の最新 AI アクセラレータで動作します。AI Edge Gallery は、AICore 非対応デバイスでの迅速なモデル確認に利用可能です。

Testing options: - AICore-enabled phone for preview models - AI Edge Gallery for quick model checks - High-end Android hardware (Pixel 8, Samsung S23+)
4

開発者向けワークフローに Android Studio を使用する

Android Studio は現在、ローカルモデルのオプションとして Gemma 4 を推奨しています。Gemma E4B には 12 GB の RAM と 4 GB のストレージが必要で、Gemma 26B MoE には 24 GB の RAM と 17 GB のストレージが必要です。

Settings > Tools > AI > Model Providers
5

より詳細なランタイム制御のために LiteRT-LM に切り替える

LiteRT-LM は、スマートフォンから組み込みシステムまでの言語モデルパイプライン用のクロスプラットフォームライブラリであり、Qualcomm AI Engine Direct や MediaTek NeuroPilot を含む CPU、GPU、NPU パスを備えています。

LiteRT-LM supports: - CPU / GPU execution - Qualcomm AI Engine Direct - MediaTek NeuroPilot
モデル比較

Gemma 4 vs Gemma 3

Gemma 3 から Gemma 4 へ移行する際の実際の変更点を確認する

この比較は、既存の Gemma 3 ワークフローを維持するか、Gemma 4 を中心に再構築するかを検討している開発者向けです。最も明確な違いは、コンテキスト長、制御フォーマット、マルチモーダルの範囲、および各ファミリーの最上位モデルにおけるベンチマークパフォーマンスに現れます。

リリースと主要サイズ

Gemma 4
2026 年 3 月 31 日に E2B、E4B、26B A4B、および 31B サイズでリリース。
Gemma 3
2025 年 3 月 10 日に 1B、4B、12B、および 27B サイズでリリースされ、2025 年 8 月 14 日に 270M が追加。

Gemma 4 は、エッジ優先の E モデルと、より大規模なワークステーションクラスのモデルという、より明確なデプロイメント層に合わせてファミリーを整理しています。

コンテキストウィンドウ

Gemma 4
E2B と E4B は最大 128K のコンテキストをサポートし、26B A4B と 31B は最大 256K をサポートします。
Gemma 3
4B、12B、27B は 128K のコンテキストをサポートし、1B と 270M は 32K をサポートします。

長いドキュメント、ツールのトレース、またはマルチステップの履歴において、Gemma 4 の大規模モデルは大幅に広い余裕を提供します。

マルチモーダル性

Gemma 4
E2B および E4B で画像、動画、テキストと画像の混在、およびネイティブ音声入力をサポートします。
Gemma 3
主要モデルはテキストと画像の入力、およびテキスト出力をサポートします。

ユースケースが画像とテキストを超えて、動画、OCR 重視のフロー、または音声対応のエッジモデルに移行する場合、Gemma 4 はより広範なマルチモーダルファミリーとなります。

プロンプトと制御フォーマット

Gemma 4
ネイティブのシステムロールサポートと、ツール、推論、画像、音声用の特殊な制御トークンを追加しています。
Gemma 3
レガシーなフォーマットではユーザー/モデルのターンを使用し、独立したシステムロールはサポートされていません。

エージェントや構造化されたワークフローを構築するチームは、Gemma 4 でよりクリーンな制御インターフェースを利用できます。

最上位モデルのベンチマークスナップショット

Gemma 4
Gemma 4 31B: MMLU Pro 85.2, AIME 2026 89.2, LiveCodeBench v6 80.0, GPQA Diamond 84.3。
Gemma 3
Gemma 3 27B (思考なし): MMLU Pro 67.6, AIME 2026 20.8, LiveCodeBench v6 29.1, GPQA Diamond 42.4。

推論、コーディング、または高難易度の QA のためにアップグレードする場合、最上位の Gemma 4 の飛躍は移行を正当化するのに十分な大きさです。

デプロイメントプロファイル

Gemma 4
効率的なローカルおよびオンデバイス利用のための E2B および E4B。コンシューマー向け GPU またはワークステーションシナリオのための 26B A4B および 31B。
Gemma 3
1B や 4B のような小規模なクラシックサイズで引き続き強力であり、主要な大規模バリアントでは 27B の最上位モデルと 128K のコンテキストを備えています。

小規模なクラシックサイズがすでにスタックに適合している場合は Gemma 3 を使い続け、新しい制御機能、より大きなコンテキストを持つ最上位モデル、またはより強力なエッジ向けバリアントが必要な場合は Gemma 4 に移行してください。