オープンマルチモーダルモデルファミリー

Gemma 4 Wiki

公式のGoogleエコシステム全体における、Gemma 4 のモデルサイズ、ベンチマーク、プロンプト、関数呼び出し、マルチモーダル入力、ローカルデプロイ、ファインチューニングを追跡します。

公式サイト
What's new in Gemma 4

Latest Updates

Discover the newest guides, tips, and content

Gemma 4 コーディング: 2026年版 完全ローカルVS Codeセットアップ&ワークフローガイド

Ollama と Continue を使って、VS Code 内で Gemma 4 をローカル実行しコーディングする方法を学びましょう。2026年向けのセットアップ手順、権限調整、パフォーマンスの目安、トラブルシューティングを含みます。

2026年5月4日benchmark
Read more →
MacでGemma 4:2026年版 ローカル環境の完全セットアップ・最適化・活用ガイド

2026年にMacでGemma 4をインストール、実行、最適化する方法を、実用的なモデル選び・性能向上のコツ・トラブル対処手順とともに学びましょう。

2026年5月4日install
Read more →
gemma 4 local:オフラインAIセットアップとゲーム向けワークフローガイド 2026

2026年に、Gemma 4を自分のPCで動かして、MOD計画、攻略記事下書き、コーディング支援などのプライベートなオフラインゲーム作業に活用する方法を学びましょう。

2026年5月4日ollama
Read more →
Gemma 4 Agent:オフラインAIセットアップとゲーマー向けワークフローガイド 2026

2026年に向けて、ゲーム向けワークフロー、MOD制作支援、ログ分析、オフラインAIアシスタンスのためにGemma 4エージェントをローカル環境でセットアップする方法を学びましょう。

2026年5月4日guide
Read more →
gemma 4 cli: ローカルAIセットアップとゲーム開発ワークフローガイド 2026

2026年のゲームライティング、コーディング、ライブデザインワークフロー向けに、gemma 4 cliのインストール、設定、最適化方法を学びましょう。

2026年5月4日install
Read more →
gemma 4 fine tune:ノーコード Unsloth Studio ワークフローチュートリアル 2026

2026年に向けた実践的な gemma 4 fine tune ワークフローを Unsloth Studio で学びましょう。GPU セットアップ、データセットのマッピング、エクスポート、評価までをカバーします。

2026年5月4日guide
Read more →
gemma 4 function calling: モバイルゲーム向けコマンドシステムガイド 2026

2026年の本番運用に向けて、gemma 4 function calling のパターン、ツールスキーマ、チューニングワークフロー、QA手順を使い、オンデバイスで高速なゲームアクションを構築しましょう。

2026年5月4日guide
Read more →
Gemma 4 API料金: 2026年ゲーム開発チーム向けコスト内訳

ローカル運用とホスト運用のコスト、予算策定の計算式、ゲームスタジオ向けの導入選択肢を含む、Gemma 4 API料金の実践的な2026年ガイド。

2026年5月4日models
Read more →
gemma 4 cloud:ローカルファースト設定とゲーム向けワークフローガイド 2026

実用的なセットアップ手順とトレードオフ分析を通して、ゲーム作業、Mod制作支援、オフラインAIコーディングにgemma 4 cloudワークフローを活用する方法を学びましょう。

2026年5月4日guide
Read more →
gemma 4 license:クリエイター・Mod制作・商用利用ガイド 2026

2026年におけるgemma 4 licenseがゲームスタジオ、Mod制作者、コンテンツクリエイターへ与える影響を、実践的なコンプライアンスチェックリストと導入のヒントとともに解説します。

2026年5月4日models
Read more →
gemma 4 api: クリエイター向け 完全セットアップ&最適化ガイド 2026

2026年のゲームワークフロー、AI NPC、Modツール、マルチモーダルパイプライン向けに gemma 4 api をセットアップ・テスト・最適化する方法を学びましょう。

2026年5月4日install
Read more →
gemma 4 swe bench pro:2026年の開発チーム向け実践パフォーマンスガイド

SWE-bench Proスタイルのワークフロー、ローカルなコーディングエージェント、ゲームスタジオの開発パイプラインに向けてGemma 4を評価するための、2026年版実践ガイド。

2026年5月3日benchmark
Read more →
gemma 4 awq: ローカルAIセットアップとゲーマー向けワークフローガイド 2026

PCとスマホでgemma 4 awqをローカル・プライベート・オフラインのゲームワークフローに活用する方法を、ハードウェア選定、設定、実用的な最適化のコツを含めて学びましょう。

2026年5月3日models
Read more →
Gemma 4 Bartowski:2026年ゲーミングワークフロー向け最強ローカルAIセットアップ

2026年のゲーム用途に向けて、クエスト計画、翻訳、NPC会話プロトタイピング、パフォーマンス調整まで、Gemma 4 Bartowskiスタイルのローカルモデル活用法を学びましょう。

2026年5月3日models
Read more →
gemma 4 vllm support:完全セットアップ、ベンチマーク、修正ガイド 2026

ローカルテストから本番デプロイまで、ゲーム開発ワークフローで高速かつスケーラブルな推論を実現する gemma 4 vllm support の有効化方法を学びましょう。

2026年5月3日install
Read more →
Gemma4 31B 要件:ローカルハードウェアとセットアップガイド 2026

2026年に向けた Gemma4 31B 要件の実用的な内訳。VRAM、RAM、ストレージ、コンテキスト長に加え、ローカル導入のステップ別チェックリストを解説します。

2026年5月3日requirements
Read more →
Gemma4 Transformers:ローカルセットアップ・チューニング・ワークフローガイド 2026

プライベートかつオフラインのAIワークフロー向けに、Gemma4 Transformersをローカルで実行する方法を学びましょう。セットアップ手順、モデルサイズ選定、チューニングのコツ、クリエイター向けの実用ユースケースを収録。

2026年5月3日install
Read more →
gemma 4 ベンチマークスコア: 完全モデル比較とハードウェアガイド 2026

2026年に最適なGemma 4バージョンを選ぶための、gemma 4 benchmark scores、モデル順位、必要VRAM、セットアップのコツを実用的に解説。

2026年5月3日benchmark
Read more →
Gemma 4 Audio:実践的なセットアップ、制限、そしてゲーム向けワークフロー 2026

Gemma 4 の音声サポートに含まれるもの・含まれないもの、そして 2026 年にゲーム MOD、NPC ツール、クリエイター向けパイプライン向けの信頼性の高い音声ワークフローを構築する方法を学びましょう。

2026年5月3日guide
Read more →
Gemma4 tool calling Ollama:実践セットアップ・プロンプト・ワークフローガイド 2026

ローカルAIアプリ向けに、モデル選定、関数スキーマ、プロンプト設計、デバッグ手順、パフォーマンス最適化を含む Gemma4 tool calling Ollama ワークフローの実装方法を学びます。

2026年5月3日ollama
Read more →
gemma 4 coding performance:2026年ゲーム開発者向け実践ベンチマーク

2026年のゲームプロトタイピング、UIシステム、ローカルAIワークフローに向けた、Gemma 4のコーディング速度・品質・コストに関する実践ガイド。

2026年5月3日benchmark
Read more →
gemma 4 26b mlx apple silicon:セットアップ、ベンチマーク、Macガイド 2026

Apple Silicon MacでMLXを使ってGemma 4 26Bを動かす方法を学びましょう。インストール手順、パフォーマンス調整、VRAM計画、2026年の実践的なクリエイターワークフローまで解説します。

2026年5月3日install
Read more →
gemma 4 vision capabilities: ローカル・マルチモーダル・ワークフローガイド 2026

ゲーミングツールやコンテンツパイプライン向けのローカルAIワークフローで、gemma 4 vision capabilities を検出・カウント・シーン推論に活用する方法を学びましょう。

2026年5月3日models
Read more →
Gemma 4 ローカルMac: 実践セットアップ・性能・ワークフローガイド 2026

2026年にMacでGemma 4をローカル実行し、コーディングエージェントと接続し、性能を調整して、API不要の信頼性の高いワークフローを構築する方法を学びましょう。

2026年5月3日requirements
Read more →
gemma 4 31b 4-bit vram usage: 実機ハードウェアガイドとベンチマーク 2026

gemma 4 31b 4-bit vram usage について、メモリ計算、GPU適合チェック、速度の目安、ローカルAIワークフロー向けチューニングのコツを含む、2026年の実践ガイド。

2026年5月3日requirements
Read more →
gemma 4 abliterated:ローカルAIセットアップ、ベンチマーク、ゲーマー向けワークフロー 2026

ゲーマーとクリエイター向けのGemma 4実践ガイド(2026年版)。モデルサイズ、PCとスマホでのローカルセットアップ、性能の目安、賢い活用ワークフローを解説。

2026年5月3日models
Read more →
Ollama MLX Gemma4: 2026年版 完全ローカルAIセットアップ&チューニングガイド

2026年に向けて、ゲーム向けワークフロー、MOD制作支援、画像解析、高速マルチモーダルプロンプトのために、Ollama MLX Gemma4をローカルで動かす方法を学びましょう。

2026年5月3日ollama
Read more →
Gemma4量子化: 2026年版 ベストな性能と品質設定ガイド

2026年の一般的なゲーミングPCで、FPSに優しいワークフロー、低いVRAM使用量、そして高い出力品質を実現するためのGemma4量子化の調整方法を学びましょう。

2026年5月3日models
Read more →
Gemma 4 31B GPU:最適なグラボ、ベンチマーク、セットアップガイド 2026

Gemma 4 31B GPUワークロード向けに、RTX 3090・4090・5090の性能を比較。2026年に高速なローカル推論を行うためのVRAM目標、チューニング設定、実用的なセットアップのコツを学べます。

2026年5月3日requirements
Read more →
gemma 4 a4b:ローカルAIセットアップとゲーム開発ワークフローガイド 2026

2026年のゲーム開発プロジェクトで gemma 4 a4b を活用する方法を、ローカル環境構築、モデルサイズ選定、実践的なゲーム内・スタジオ運用ワークフローまで解説します。

2026年5月3日models
Read more →

Gemma 4 リソース

ローカルセットアップからAPI統合まで、Gemma 4 を始めるために必要なすべて

クイックスタート

Gemma 4 チュートリアル

Gemma 4 は2026年4月2日に、E2B、E4B、26B A4B、31Bの4つの公式サイズでリリースされました。このファミリーは Apache 2.0 ライセンスの下でオープンウェイト展開向けに構築されており、モバイルやノートPCクラスのハードウェアを対象とした小型のエッジモデルと、デスクトップ、ワークステーション、サーバーを対象とした大型モデルが用意されています。

1

4つの公式 Gemma 4 サイズを理解する

Gemma 4 には E2B、E4B、26B A4B、31B があります。E2B と E4B はテキスト、画像、音声の入力を受け付けます。26B A4B と 31B はテキストと画像の入力を受け付け、より大規模なローカル環境やサーバー展開を対象としています。

2

ハードウェアに合ったモデルを選択する

モバイル、エッジ、またはノートPCに適したローカル推論を行いたい場合は E2B または E4B を使用してください。より強力な汎用ローカルモデルが必要な場合は 26B A4B を、公式の Gemma 4 チェックポイントの中で最大のモデルが必要な場合は 31B を使用してください。

3

開始点を選択する

Gemma 4 26B A4B は、強力な初回体験のための有力なデフォルト選択肢です。最も軽量な開始点を求める場合は、指示調整済みのエッジモデルから始め、ワークロードにより高い能力が必要になった段階で上位モデルに移行してください。

4

試用方法を選択する

Google AI Studio や Gemini API を通じてホスト型の Gemma 4 を試すか、Hugging Face や Kaggle からオープンウェイトをダウンロードして、ローカルでの利用、チューニング、カスタム展開を行ってください。

5

Gemma 4 の最適化対象を知る

このファミリーは、推論、コーディング、エージェントワークフロー、およびマルチモーダル理解のために構築されています。エッジモデルは 128K コンテキストをサポートし、26B A4B と 31B は最大 256K コンテキストをサポートします。

Quick Tips

  • 指示調整済み(-it)バリアントは、チャットやアシスタントのユースケースに最適です。
  • E2B と E4B は、ローカルでの実験において最もハードウェアの敷居が低い開始点です。
  • 26B A4B は MoE モデルであり、同等の合計サイズを持つ高密度モデルよりも実効推論速度が高速です。
  • すべての Gemma 4 のウェイトは Apache 2.0 ライセンスの下で公開されています。
ローカル実行

Gemma 4 Ollama セットアップ

Ollama は、ノートPCやワークステーションで Gemma 4 を実行するための最も速い方法の1つです。デフォルトの Ollama の流れはシンプルです。Ollama をインストールし、Gemma 4 をプルし、モデルリストを確認し、ハードウェアに適したタグを選択して、CLI またはローカル API から実行します。

1

Ollama のインストールと確認

Windows、macOS、または Linux 用の Ollama をダウンロードしてインストールし、コマンド ollama --version でセットアップを確認します。

2

デフォルトの Gemma 4 バリアントをプルする

ollama pull gemma4 を使用してデフォルトの Gemma 4 パッケージをダウンロードし、ollama list を実行してローカルで利用可能であることを確認します。

3

適切なモデルタグを選択する

最も軽量なエッジオプションには gemma4:e2b を、より強力なエッジのデフォルトには gemma4:e4b を、26B A4B MoE ワークステーションモデルには gemma4:26b を、フルサイズの大型モデルには gemma4:31b を使用してください。

4

各タグの要件を把握する

Ollama ライブラリページでは、e2b は 7.2GB(128K コンテキスト)、e4b は 9.6GB(128K)、26b は 18GB(256K)、31b は 20GB(256K)と記載されています。

5

最初のプロンプトを実行する

最初のテキストテストとして、ollama run gemma4 "こんにちは、何ができますか?" を実行します。Ollama は、公式ガイドに示されているプロンプト形式で画像入力もサポートしています。

6

アプリ統合にローカル API を使用する

Ollama は http://localhost:11434/api/generate でローカルウェブサービスを公開しているため、別のモデルサーバーをセットアップすることなく、CLI テストから軽量なローカルアプリケーションへ移行できます。

Quick Tips

  • E2B と E4B は、軽量なハードウェアでローカルな実験を行う際の現実的な最初の選択肢です。
  • 26b タグは 26B A4B MoE モデルを対象としており、同等の合計サイズを持つ高密度モデルよりもアクティブな計算量が少なくなります。
  • ollama list は、ローカルにダウンロードされたすべてのモデルとそのサイズを表示します。
  • Ollama は、ollama run gemma4:e2b に画像パスを添えるプロンプト形式で画像入力をサポートしています。
ホスト型 API

Gemma 4 API ガイド

Gemini API は Gemma 4 へのホスト型アクセスを提供し、ローカル推論を管理せずに構築する場合に便利です。AI Studio および Gemini API でホストされている Gemma 4 モデルは、gemma-4-26b-a4b-it と gemma-4-31b-it です。

1

Google AI Studio で API キーを作成する

Google AI Studio を開き、Gemini API キーを作成します。新規ユーザーはデフォルトの Google Cloud プロジェクトから開始でき、既存ユーザーは Cloud プロジェクトをインポートしてキーを作成できます。

2

環境変数にキーを設定する

Gemini SDK は GEMINI_API_KEY または GOOGLE_API_KEY を自動的に取得します。両方が設定されている場合は、GOOGLE_API_KEY が優先されます。

3

公式 SDK をインストールする

Python の場合は google-genai をインストールします。JavaScript および TypeScript の場合は @google/genai をインストールします。Google は Go、Java、C#、および Apps Script 用の SDK パスも公開しています。

4

ホスト型 Gemma 4 モデル ID を選択する

ホスト型 Gemma 4 の場合、より高速な MoE 大型モデルには gemma-4-26b-a4b-it を、フラッグシップの高密度チェックポイントには gemma-4-31b-it を使用してください。

5

最初の generateContent リクエストを送信する

公式の例では、model フィールドを gemma-4-31b-it に設定して client.models.generate_content を使用します。REST では、x-goog-api-key ヘッダーを付けて generateContent エンドポイントにリクエストを送信します。

6

AI Studio を使用してテストからコードへ橋渡しする

Google AI Studio では、プロンプト、モデル設定、関数呼び出し、構造化出力を試行し、その後「コードを取得」フローを通じて動作するコードをエクスポートできます。

Quick Tips

  • AI Studio は、コードを書く前に Gemma 4 のプロンプトをテストする最も速い方法です。
  • Gemini API は、チャットや長い生成のユースケース向けにストリーミングレスポンスをサポートしています。
  • gemma-4-26b-a4b-it は MoE モデルであり、一般的に 31B よりも高速でコスト効率に優れています。
  • 関数呼び出しと構造化出力は、両方のホスト型 Gemma 4 モデル ID で利用可能です。
ダウンロード

Gemma 4 Hugging Face ダウンロード

Hugging Face 上の公式 Google コレクションには、E2B、E4B、26B A4B、31B の4つの主要な Gemma 4 チェックポイントが含まれており、それぞれベース形式と指示調整済み形式があります。指示調整済み(-it)リポジトリは、チャット、コーディング、アシスタント体験の自然な開始点となります。

指示調整済み

google/gemma-4-E2B-it

テキスト、画像、音声入力に対応し、128K コンテキストを備えたエッジ向けチェックポイント。高速なローカルアシスタントやデバイス上でのマルチモーダル実験に最適です。

指示調整済み

google/gemma-4-E4B-it

テキスト、画像、音声入力に対応し、128K コンテキストを備えた、より強力なエッジ向けチェックポイント。ワークステーション級のハードウェアに移行することなく、E2B よりも高い能力を発揮します。

指示調整済み

google/gemma-4-26B-A4B-it

256K コンテキストとテキスト・画像入力を備えた MoE チェックポイント。同等の合計サイズを持つ高密度モデルよりも実効推論が速く、大型モデル並みの品質を提供します。

指示調整済み

google/gemma-4-31B-it

256K コンテキストとテキスト・画像入力を備えた、フラッグシップとなる高密度 Gemma 4 チェックポイント。最高精度のチャット、推論、コーディング、エージェントワークフローに最適です。

事前学習済み

google/gemma-4-E2B

最小のマルチモーダル Gemma 4 モデルを研究、適応、または微調整したいユーザー向けのベースエッジチェックポイント。

事前学習済み

google/gemma-4-E4B

テキスト、画像、音声入力を維持しつつ、下流の指示動作を独自のチューニングパイプラインに委ねるためのベースエッジチェックポイント。

事前学習済み

google/gemma-4-26B-A4B

デフォルトの指示調整済み動作を必要とせず、26B A4B アーキテクチャをカスタム適応させたい場合のベース MoE 大型チェックポイント。

事前学習済み

google/gemma-4-31B

独自の微調整やアライメント段階の前に、最大の公式 Gemma 4 基盤モデルを必要とするチーム向けのベース 31B 高密度チェックポイント。

Model Comparison

Choose the Right Gemma 4 Size for Your Hardware

Gemma 4 ships in four sizes with very different trade-offs. The fastest choice is not always the smallest model, and the highest-quality choice is not always the easiest one to deploy.

Gemma 4 is available in two edge-first dense models, one efficient Mixture-of-Experts model, and one large dense model. For most teams, the real decision is not just quality, but where the model runs: phone, laptop, workstation, or server. A practical starting point is 26B A4B when you want strong quality without jumping all the way to 31B.

Gemma 4 E2B

ArchitectureDense
Parameters2.3B effective
Context128K tokens
Memory (BF16/Q4)9.6 GB BF16 / 4.6 GB SFP8 / 3.2 GB Q4_0
PlatformMobile devices

Offline assistants, lightweight multimodal apps, edge deployment

Gemma 4 E4B

ArchitectureDense
Parameters4.5B effective
Context128K tokens
Memory (BF16/Q4)15 GB BF16 / 7.5 GB SFP8 / 5 GB Q4_0
PlatformMobile and laptops

Stronger local copilots, on-device reasoning, multimodal apps with more headroom

Gemma 4 26B A4B

ArchitectureMoE
Parameters25.2B total, 3.8B active
Context256K tokens
Memory (BF16/Q4)48 GB BF16 / 25 GB SFP8 / 15.6 GB Q4_0
PlatformDesktop and small servers

Best balance of quality, speed, and long-context work for most teams

Gemma 4 31B

ArchitectureDense
Parameters30.7B
Context256K tokens
Memory (BF16/Q4)58.3 GB BF16 / 30.4 GB SFP8 / 17.4 GB Q4_0
PlatformLarge servers

Highest-end reasoning, coding, and multimodal quality in the Gemma 4 family

Core Specs

The Gemma 4 Specs That Actually Matter Before You Build

For most builders, the key questions are context length, modalities, language coverage, licensing, and app-level features. These are the specs that change implementation choices, hosting cost, and product scope.

Gemma 4 is not just a text model refresh. The family combines long context, multimodal input, thinking mode, native system prompts, and function-calling support in one open-weight lineup. The smaller models add audio input, while the larger models extend context to 256K for document-heavy and repository-scale workloads.

Release

March 31, 2026

This is the current Gemma core generation and the one Google now highlights across docs and launch materials.

Input and Output

All models: text and image → text; E2B and E4B also support audio input

You can build text-only, vision, and lightweight speech understanding flows without switching model families.

Maximum Context Window

128K tokens on E2B and E4B; 256K tokens on 26B A4B and 31B

Large prompts such as long documents, long chats, or multi-file code context fit in a single request.

Language Coverage

Over 140 languages

This matters for multilingual products, OCR, and globally deployed assistants.

License and Weights

Apache 2.0 license with open weights and support for responsible commercial use

You can tune, deploy, and run Gemma 4 in your own stack with fewer licensing constraints.

Reasoning and Control

Configurable thinking mode, native system role support, structured JSON output, and function calling

These features make Gemma 4 much easier to use for agents, tool use, and instruction-heavy applications.

Visual Handling

Variable image resolutions and token budgets of 70, 140, 280, 560, or 1120 tokens

You can trade image detail for speed depending on whether the task is OCR, UI reading, chart analysis, or fast frame processing.

Performance

Official Gemma 4 Benchmark Snapshot

These scores show where each Gemma 4 size is strongest across reasoning, coding, science, vision, and long-context retrieval. Use them to shortlist a model quickly, then match that shortlist to your latency and memory budget.

Gemma 4 is positioned as a model family for reasoning, agentic workflows, coding, and multimodal understanding. The official benchmark tables show a clear pattern: 31B leads, 26B A4B stays surprisingly close while being much more efficient, and E4B and E2B bring meaningful capability to smaller devices.

MMLU Pro

Knowledge and reasoning

85.2%
31B
82.6%
26B A4B
69.4%
E4B
60.0%
E2B

Best quick comparison for general high-level reasoning performance across the family.

AIME 2026 (no tools)

Math reasoning

89.2%
31B
88.3%
26B A4B
42.5%
E4B
37.5%
E2B

31B and 26B A4B are the right targets for math-heavy assistants and planning tasks.

LiveCodeBench v6

Competitive coding

80.0%
31B
77.1%
26B A4B
52.0%
E4B
44.0%
E2B

If coding is a primary use case, the larger two models are in a different tier from the edge models.

GPQA Diamond

Scientific reasoning

84.3%
31B
82.3%
26B A4B
58.6%
E4B
43.4%
E2B

A strong signal for technical and expert-facing workflows.

MMMU Pro

Multimodal reasoning

76.9%
31B
73.8%
26B A4B
52.6%
E4B
44.2%
E2B

Vision tasks benefit heavily from the larger models when accuracy matters more than footprint.

MRCR v2 (128K, 8-needle)

Long-context retrieval

66.4%
31B
44.1%
26B A4B
25.4%
E4B
19.1%
E2B

For large-document and repository-scale prompting, 31B is the strongest long-context choice.

カスタマイズ

実践的なプロダクト開発のための Gemma 4 ファインチューニング手法

プロンプティングだけでは不十分で、特定のドメイン、ワークフロー、または役割において Gemma 4 のパフォーマンスを向上させたい場合に、ファインチューニングが重要になります。実用的なパスとしては、テキストタスク向けの軽量なアダプターチューニングと、画像+テキストタスク向けのマルチモーダルアダプターチューニングがあります。

公式の Gemma チューニングドキュメントは、「漠然とした改善ではなく、定義されたタスクのためにチューニングする」というシンプルなルールに基づいています。多くの開発者にとって、QLoRA はフルモデルチューニングよりもハードウェア要件を大幅に低く抑えられるため、最も現実的な開始点となります。

1

明確なチューニング目標から始める

カスタマーサポート、Text-to-SQL、製品説明文の生成など、ベースモデルのパフォーマンスを向上させたいタスクや役割を選択します。タスクが具体的で繰り返される場合にファインチューニングを使用します。

2

チューニングパスを選択する

指示や生成タスクにはテキストチューニングを、データセットに画像とテキストが含まれる場合はビジョンチューニングを使用します。テキスト QLoRA ガイドでは Text-to-SQL を、ビジョン QLoRA ガイドでは画像+テキストの製品説明を例示しています。

3

現実的なフレームワークを選択する

Gemma 4 は、Keras with LoRA、Gemma ライブラリ、Hugging Face ベースのワークフロー、GKE、および Vertex AI をサポートしています。多くの開発者にとって、Hugging Face と TRL の組み合わせが最も直接的なパスです。

4

ハードウェアに合わせたワークフローを選択する

公式のテキスト QLoRA の例は、T4 16GB のセットアップ向けに設計されています。ビジョン QLoRA ガイドでは、NVIDIA L4 や A100 など、16GB 以上のメモリを搭載した BF16 対応の GPU が必要です。

5

効率を重視する場合は QLoRA を使用する

QLoRA はベースモデルを 4-bit に量子化したまま元の重みを凍結し、追加された LoRA アダプターのみをトレーニングします。これにより、高いタスクパフォーマンスを維持しながらメモリ使用量を抑えることができます。

6

適切な形式でデータを準備する

目的の動作に直接一致するデータセットを構築し、TRL や SFTTrainer を使用した対話形式のトレーニング用にフォーマットします。公式のテキストガイドでは、大規模な合成 Text-to-SQL データセットを使用しています。

7

評価、比較、そしてデプロイ

トレーニング後、ベースモデルとの推論比較を行い、タスクの改善を確認してから、チューニング済みモデルまたはアダプターをデプロイします。フレームワークの選択が出力形式に影響するため、デプロイ形式は早い段階で決定してください。

Quick Tips

  • テキストタスクには QLoRA と T4 クラスの GPU から始めてください。タスク適応のためにフルファインチューニングが必要になることは稀です。
  • データセットは、Gemma 4 がすでに理解している指示チューニング済みのチャット形式を反映するようにフォーマットしてください。
  • 有意義な改善シグナルを得るために、評価セットはトレーニングデータと同じ分布から抽出してください。
  • MoE モデルの 26B A4B は効率的なアクティブパラメータを持っていますが、トレーニング中のチェックポイントサイズには総パラメータ数が影響します。
  • 指示タスクの開始点としては、事前学習済みのベースモデルではなく、Gemma 4 -it チェックポイントを使用してください。
プロンプティング

Gemma 4 プロンプトガイド

Gemma 4 では、ネイティブのシステム指示、マルチモーダルプレースホルダー、思考やツール使用のための組み込みコントロールを備えた、新しいターンベースのプロンプト形式が導入されました。

このガイドでは、公式の Gemma 4 形式を実践的なプロンプトライブラリとして解説します。すべてのやり取りをターンとして構造化し、振る舞いやグローバルルールにはシステムロールを使用し、必要に応じて画像や音声のプレースホルダーを挿入します。思考やツール使用は、タスクに実際にメリットがある場合にのみ有効にします。

基本的なチャットスケルトン

Gemma 4 は、ターンマーカーで囲まれたネイティブの system、user、model ロールを使用します。

  • グローバルな指示には system を使用
  • 現在のリクエストには user を使用
  • 生成の開始点として model を使用
<|turn>system You are a helpful assistant.<turn|> <|turn>user Summarize the following article in 5 bullets.<turn|> <|turn>model

システムプロンプトのパターン

毎回繰り返すのではなく、固定の振る舞いルールを 1 つのシステムターンに記述します。

  • スタイル、範囲、出力形式の指定に有効
  • ネイティブのシステムロールサポートは Gemma 4 から開始
  • 簡潔かつタスク固有の内容にする
<|turn>system You are a technical writer. Answer in clear English, use short paragraphs, and include one practical example.<turn|> <|turn>user Explain function calling for a beginner.<turn|> <|turn>model

マルチモーダルプレースホルダー

画像や音声のエンベディングを挿入する場所を示すために、プレースホルダートークンを使用します。

  • 画像には <|image|> を使用
  • 音声には <|audio|> を使用
  • プロセッサがトークナイズ後にプレースホルダーをエンベディングに置換
<|turn>user Describe this image: <|image|> Then transcribe this clip: <|audio|><turn|> <|turn>model

思考対応プロンプト

システム指示の中に <|think|> を配置することで、思考モードが有効になります。

  • 推論が重要なタスクで有効にする
  • 単純な直接生成の場合はオフにする
  • 思考とその他のグローバル指示の両方に 1 つのシステムターンを使用する
<|turn>system <|think|>You are a careful reasoning assistant.<turn|> <|turn>user Compare two pricing models and recommend one for a startup.<turn|> <|turn>model

ツール対応プロンプト構造

ツールの宣言はシステムターンで行い、ツール呼び出しとツール応答は専用のコントロールトークンで処理されます。

  • API、検索、計算機、外部データ参照に有用
  • ツール使用はプレーンテキストの模倣ではなく構造化されている
  • 同じターン内で推論とツール使用を同時に行える
Define tools in the system turn using the tool declaration token block, then set user and model turns as usual. Gemma 4 handles the rest with structured tool_call and tool_response tokens.
推論

Gemma 4 思考モード

思考モードを使用すると、Gemma 4 は最終的な回答の前に推論チャネルを生成でき、プロセッサはアプリケーションで使用するために両方の部分を分離できます。

思考モードは、曖昧な質問、数学、コーディング、ツール計画、マルチモーダル分析など、回答前の中間推論が役立つタスクに最適です。Gemma 4 では、チャットテンプレートレベルで有効にし、推論をライブでストリーミングし、出力を思考ブロックとユーザー向けの回答ブロックに分割できます。

1

適切なタスクを選択する

短い直接的な回答ではなく、分解、比較、計画、または慎重な解釈が必要なリクエストに対して思考モードを使用します。

  • 適したタスク: 数学、コードのデバッグ、構造化された意思決定、画像+テキストの推論
  • 不要なケース: 単純な書き換え、短い要約、単純な事実確認
  • 公式の例ではテキストのみと画像+テキストの両方のワークフローをカバー
2

チャットテンプレートで思考を有効にする

Hugging Face Transformers では、apply_chat_template() で enable_thinking=True を設定します。トークンレベルでは、Gemma 4 はシステムターンで <|think|> を使用します。

  • E2B および E4B: 思考オフではシンプルな user-model フローを使用し、思考オンでは <|think|> を含むシステムターンを追加
  • 26B A4B および 31B: 公式テンプレートには、出力を安定させるために思考オフ時でも空の思考トークンが含まれている
  • 思考は会話レベルで有効にするように設計されている
3

結果の生成と分離

モデルは最初に推論チャネルを出力し、その後に最終的な回答を出力できます。TextStreamer でストリーミングし、parse_response() で分割できます。

  • processor.parse_response() は、分離された思考内容と回答内容を返す
  • これはテキストプロンプトと画像+テキストプロンプトの両方で機能
  • ターンがエージェント的になる場合、推論チャネルにツール呼び出しを含めることも可能
4

マルチターンチャットを正しく処理する

通常のマルチターン会話では、履歴を戻す前に前のターンで生成された思考を削除します。ツール呼び出しのターンでは、ツールサイクルが終了するまで思考の流れを維持します。

  • 通常のチャット: 次のターンの前に以前の思考ブロックを削除
  • ツール使用の例外: 同じターン内の関数呼び出し間では思考を削除しない
  • これにより、エージェントの動作を維持しながらコンテキストをクリーンに保つ
エージェンティック・ワークフロー

Gemma 4 関数呼び出し (Function Calling)

Gemma 4はネイティブな構造化ツール利用をサポートしており、モデルがプレーンテキストで外部アクションを模倣するのではなく、関数をリクエストできるようにします。

関数呼び出しは、モデルの出力と実際のアプリケーションの動作を繋ぐ実用的な架け橋です。Gemma 4にライブデータを推測させたりアクションをシミュレートさせたりする代わりに、ツールを定義し、モデルに構造化された呼び出しを生成させ、アプリ内で関数を実行し、その結果をモデルに戻すことで、最終的に自然言語でクリーンな回答を得ることができます。

1

ツールを明確に定義する

手動のJSONスキーマ、またはスキーマに変換された生のPython関数のいずれかを使用して、apply_chat_template()経由でツールを渡します。

  • 正確なネストされたパラメータが必要な場合は、手動のJSONスキーマが最適です
  • 明確な型ヒントとドキュメント文字列を持つシンプルなツールの場合は、生のPython関数が便利です
  • ツールの定義には、名前、説明、パラメータの型、および必須フィールドを含める必要があります
2

モデルにツールをリクエストさせる

Gemma 4はユーザープロンプトと利用可能なツールを受け取り、ツールが必要な場合にはプレーンテキストではなく構造化された関数呼び出しオブジェクトを返します。

  • ツールの使用は、tool、tool_call、tool_responseなどの専用トークンで制御されます
  • 典型的な例は、天気予報や検索関数です
  • 回答が外部の状態やシステムのアクションに依存する場合、これはプレーンテキストよりも優れています
3

アプリ内で検証して実行する

Gemma 4は単独でコードを実行することはできません。アプリケーション側で関数名と引数を解析し、それらを検証して、実際の関数を安全に実行する必要があります。

  • 実行前に必ず関数名と引数を検証してください
  • 安全策なしに生成されたコードに依存しないでください
  • 本番システムでは、動的な実行ではなく、ツール名を承認済みのハンドラーにマッピングしてください
4

最終回答のためにツールの出力を返す

ツールの結果をチャット履歴に追加し、Gemma 4に最終的なユーザー向けの回答を生成させます。

  • 公式ワークフロー:ツールの定義、モデルのターン、開発者のターン、最終回答
  • このパターンは、API、ライブ検索、計算機、設定の更新、およびエージェントループで機能します
  • モデルが最終的な回答を正しく根拠付けられるよう、ツールの応答は構造化された状態を維持する必要があります
マルチモーダル

Gemma 4 マルチモーダルガイド

Gemma 4はすべてのモデルでテキストと画像を処理し、ビデオをフレームとしてサポートし、E2BおよびE4Bではネイティブなオーディオサポートを追加しています。

Gemma 4はマルチモーダル入力向けに構築されています。すべてのモデルが画像とビデオ形式の視覚的理解をサポートし、小型モデルにはオーディオ入力が追加されています。また、ランタイムではトークン予算を使用して、視覚的な詳細さと速度のトレードオフを調整できます。これにより、Gemma 4はOCR、キャプション生成、物体検出、音声タスク、および1つのチャットフロー内での混合メディアプロンプトに適しています。

画像理解

すべての Gemma 4 モデルは、テキストと画像を組み合わせたワークフローをサポートしています。

  • 一般的なタスク:OCR、物体検出、視覚的質問回答、画像キャプション生成
  • 1つのプロンプト内での複数の画像にわたる推論をサポート
  • スクリーンショット、ドキュメント、製品画像、およびシーン分析に最適

ビデオ理解

すべての Gemma 4 モデルは、ビデオを一連のフレームとして処理できます。

  • シーンの説明、対人関係、および状況の要約に適しています
  • ビデオはメッセージ配列内のコンテンツアイテムとして渡されます
  • サポートされている最大ビデオ長は、毎秒1フレームで60秒です

オーディオ理解

オーディオはE2BおよびE4Bモデルで利用可能です。

  • 多言語の音声認識、音声翻訳、および一般的な音声理解をサポート
  • オーディオトークンのコストは1秒あたり25トークンです
  • 最大オーディオ長は30秒です

視覚トークン予算

Gemma 4は可変解像度の画像処理を導入しており、タスクに基づいて速度または詳細度を選択できます。

  • サポートされている画像予算:70、140、280、560、1120トークン
  • 高速な分類、キャプション生成、およびビデオフレーム分析には低い予算を使用
  • OCR、ドキュメント解析、および小さなテキストの読み取りには高い予算を使用

入力準備ルール

プロセッサがメディアフォーマットの多くを処理しますが、本番環境ではいくつかの制限が重要になります。

  • オーディオはモノラル、16 kHz、float32、[-1, 1]に正規化されている必要があります
  • 画像ファイルのサポートは、ファイルをテンソルに変換するために使用されるフレームワークに依存します
  • プロンプトの品質は依然として重要です。具体的な指示は、曖昧なマルチモーダルリクエストよりも優れた結果をもたらします

モデル機能の区分

モバイルや音声を多用するユースケースには最小のモデルを使用し、長いコンテキストを伴う高度な推論には大規模なモデルを使用してください。

  • E2BおよびE4B:128Kコンテキストを備えたオーディオ対応の小型モデル
  • 26B A4Bおよび31B:256Kコンテキストを備えた推論重視の大型モデル
  • 4つの公式サイズすべてにおいて、ベース版と指示調整(instruction-tuned)版が利用可能
ローカルデプロイ

Gemma 4 GGUF と量子化

お使いのマシンに適合する、最小の Gemma 4 フットプリントを選択してください

ほとんどのローカル環境において、実用的な判断は、E2BやE4Bにとどまるか、あるいは26B A4Bの GGUF ビルドに移行するかどうかです。Googleは、4つの公式サイズすべてについて、BF16、SFP8、および4ビット形式のデプロイメント選択肢における概算メモリ必要量をドキュメント化しています。

公式ローカルエントリポイント

Googleの Ollama ガイドでは、gemma4:e2b、gemma4:e4b、gemma4:26b、gemma4:31bの4つの Gemma 4 タグが公開されています。LM Studio も、完全なローカル推論のために GGUF とMLXの両方の形式でGemmaモデルをサポートしています。

まずはE2BまたはE4Bから始めて軽量なローカルループを構築し、RAM予算に余裕があり、より強力な推論モデルが必要な場合にのみ26Bまたは31Bに移行してください。

公式サイズ別の概算メモリ

Googleは、推論メモリの目安をE2B 9.6 GB BF16 / 3.2 GB Q4_0、E4B 15 GB / 5 GB、26B A4B 48 GB / 15.6 GB、31B 58.3 GB / 17.4 GBと記載しています。

一般的なローカルマシンを対象とする場合、4ビット形式のデプロイまたは小型のモデルサイズを選択することが、実行可能かどうかの境界線になることが一般的です。

公式 26B A4B GGUF の例

公式のggml-org Gemma 4 26B A4B IT GGUF ページでは、起動にllama-serverを推奨しており、Q4_K_Mは16.8 GB、Q8_0は26.9 GB、F16は50.5 GBと記載されています。

大規模なローカル Gemma 4 モデルが必要だが、Q8_0やフル16ビットのメモリ使用が困難な場合、Q4_K_Mが最も実用的なデフォルトの選択肢となります。

量子化による変化

パラメータ数が多く精度が高いほど一般的に能力は高くなりますが、処理サイクル、メモリ、電力のコストも高くなります。精度を下げるとこれらのコストは削減されますが、能力が低下する可能性があります。

量子化を使用してモデルをハードウェアに適合させてください。小型の GGUF ビルドはローカルでの実行を助けますが、それは無料のアップグレードではなく、デプロイのための妥協案であることを理解しておく必要があります。

Python ワークフロー

Gemma 4 PyTorch ガイド

PyTorch ファーストのスタックから Gemma 4 を実行する

Gemma 4 の最短の Python パスは、PyTorch 上の Hugging Face Transformers です。torch と transformers をインストールし、Gemma 4 モデル ID を選択して、マルチモーダルやツール対応のワークフローに進む前に、まずはパイプラインベースのテキスト推論から始めましょう。

1

ランタイムのインストール

Google の Gemma 4 テキスト推論ガイドは、torch、accelerate、transformers、および会話処理用の dialog から始まります。

pip install torch accelerate pip install transformers pip install dialog
2

公式の Gemma 4 チェックポイントを選択する

Google の Gemma 4 の例では、4 つの公式な指示調整済み ID が示されています:google/gemma-4-E2B-it、google/gemma-4-E4B-it、google/gemma-4-26B-A4B-it、および google/gemma-4-31B-it。

MODEL_ID = "google/gemma-4-E2B-it"
3

テキスト生成から始める

最初のレスポンスを得るための最も簡単な方法として、task="text-generation"、device_map="auto"、dtype="auto" を指定した transformers.pipeline を使用します。

from transformers import pipeline txt_pipe = pipeline( task="text-generation", model=MODEL_ID, device_map="auto", dtype="auto" )
4

必要に応じてマルチモーダルやツールへ移行する

マルチモーダルや関数呼び出しのワークフローでは、AutoProcessor と AutoModelForMultimodalLM を使用し、ツール対応のプロンプト作成のために apply_chat_template を活用します。

from transformers import AutoProcessor, AutoModelForMultimodalLM model = AutoModelForMultimodalLM.from_pretrained( MODEL_ID, dtype="auto", device_map="auto") processor = AutoProcessor.from_pretrained(MODEL_ID)
5

より詳細な制御のためにネイティブ PyTorch を使用する

Google の PyTorch ガイドには、Kaggle 認証情報の設定、依存関係のインストール、gemma_pytorch のクローン、および直接的なチェックポイント制御による実験のためのマルチモーダルモデルクラスのロード方法が記載されています。

pip install -q -U torch immutabledict sentencepiece git clone https://github.com/google/gemma_pytorch.git
オンデバイス AI

Gemma 4 モバイルデプロイメント

現在の Android スタックを通じて Gemma 4 をモバイルに導入する

Gemma 4 には現在、3 つの実用的なモバイル向けパスがあります。AICore プレビューデバイス上の ML Kit Prompt API、開発者向けの Android Studio ローカルモデルワークフロー、そしてモバイルや組み込みデバイス全体で低レベルのランタイム制御を可能にする LiteRT-LM です。

1

目的に合ったパスを選択する

Android アプリ体験を構築する場合は AICore 上の ML Kit Prompt API を、オフラインでのコーディング支援が必要な場合は Android Studio ローカルモデルを、より低レベルのランタイム制御が必要な場合は LiteRT-LM を使用してください。

Path by use case: - App feature prototype: ML Kit Prompt API + AICore - Local coding workflow: Android Studio local model - Custom runtime control: LiteRT-LM
2

AICore でオンデバイスのプロトタイプを作成する

Google の 2026 年 4 月のプレビューでは、AICore 対応デバイス上の Prompt API フロー内のモデル設定を通じて、Gemma 4 E2B または E4B をターゲットにできます。

val previewFullConfig = generationConfig { modelConfig = ModelConfig { releaseTrack = ModelReleaseTrack.PREVIEW preference = ModelPreference.FULL } }
3

デバイスの要件を確認する

プレビューモデルは、AICore 対応デバイス、および Google、MediaTek、Qualcomm の最新 AI アクセラレータで動作します。AI Edge Gallery は、AICore 非対応デバイスでの迅速なモデル確認に利用可能です。

Testing options: - AICore-enabled phone for preview models - AI Edge Gallery for quick model checks - High-end Android hardware (Pixel 8, Samsung S23+)
4

開発者向けワークフローに Android Studio を使用する

Android Studio は現在、ローカルモデルのオプションとして Gemma 4 を推奨しています。Gemma E4B には 12 GB の RAM と 4 GB のストレージが必要で、Gemma 26B MoE には 24 GB の RAM と 17 GB のストレージが必要です。

Settings > Tools > AI > Model Providers
5

より詳細なランタイム制御のために LiteRT-LM に切り替える

LiteRT-LM は、スマートフォンから組み込みシステムまでの言語モデルパイプライン用のクロスプラットフォームライブラリであり、Qualcomm AI Engine Direct や MediaTek NeuroPilot を含む CPU、GPU、NPU パスを備えています。

LiteRT-LM supports: - CPU / GPU execution - Qualcomm AI Engine Direct - MediaTek NeuroPilot
モデル比較

Gemma 4 vs Gemma 3

Gemma 3 から Gemma 4 へ移行する際の実際の変更点を確認する

この比較は、既存の Gemma 3 ワークフローを維持するか、Gemma 4 を中心に再構築するかを検討している開発者向けです。最も明確な違いは、コンテキスト長、制御フォーマット、マルチモーダルの範囲、および各ファミリーの最上位モデルにおけるベンチマークパフォーマンスに現れます。

リリースと主要サイズ

Gemma 4
2026 年 3 月 31 日に E2B、E4B、26B A4B、および 31B サイズでリリース。
Gemma 3
2025 年 3 月 10 日に 1B、4B、12B、および 27B サイズでリリースされ、2025 年 8 月 14 日に 270M が追加。

Gemma 4 は、エッジ優先の E モデルと、より大規模なワークステーションクラスのモデルという、より明確なデプロイメント層に合わせてファミリーを整理しています。

コンテキストウィンドウ

Gemma 4
E2B と E4B は最大 128K のコンテキストをサポートし、26B A4B と 31B は最大 256K をサポートします。
Gemma 3
4B、12B、27B は 128K のコンテキストをサポートし、1B と 270M は 32K をサポートします。

長いドキュメント、ツールのトレース、またはマルチステップの履歴において、Gemma 4 の大規模モデルは大幅に広い余裕を提供します。

マルチモーダル性

Gemma 4
E2B および E4B で画像、動画、テキストと画像の混在、およびネイティブ音声入力をサポートします。
Gemma 3
主要モデルはテキストと画像の入力、およびテキスト出力をサポートします。

ユースケースが画像とテキストを超えて、動画、OCR 重視のフロー、または音声対応のエッジモデルに移行する場合、Gemma 4 はより広範なマルチモーダルファミリーとなります。

プロンプトと制御フォーマット

Gemma 4
ネイティブのシステムロールサポートと、ツール、推論、画像、音声用の特殊な制御トークンを追加しています。
Gemma 3
レガシーなフォーマットではユーザー/モデルのターンを使用し、独立したシステムロールはサポートされていません。

エージェントや構造化されたワークフローを構築するチームは、Gemma 4 でよりクリーンな制御インターフェースを利用できます。

最上位モデルのベンチマークスナップショット

Gemma 4
Gemma 4 31B: MMLU Pro 85.2, AIME 2026 89.2, LiveCodeBench v6 80.0, GPQA Diamond 84.3。
Gemma 3
Gemma 3 27B (思考なし): MMLU Pro 67.6, AIME 2026 20.8, LiveCodeBench v6 29.1, GPQA Diamond 42.4。

推論、コーディング、または高難易度の QA のためにアップグレードする場合、最上位の Gemma 4 の飛躍は移行を正当化するのに十分な大きさです。

デプロイメントプロファイル

Gemma 4
効率的なローカルおよびオンデバイス利用のための E2B および E4B。コンシューマー向け GPU またはワークステーションシナリオのための 26B A4B および 31B。
Gemma 3
1B や 4B のような小規模なクラシックサイズで引き続き強力であり、主要な大規模バリアントでは 27B の最上位モデルと 128K のコンテキストを備えています。

小規模なクラシックサイズがすでにスタックに適合している場合は Gemma 3 を使い続け、新しい制御機能、より大きなコンテキストを持つ最上位モデル、またはより強力なエッジ向けバリアントが必要な場合は Gemma 4 に移行してください。

Gemma 4 Wiki - モデル、ベンチマーク、ローカルデプロイ