Gemma 4 Wiki
公式のGoogleエコシステム全体における、Gemma 4 のモデルサイズ、ベンチマーク、プロンプト、関数呼び出し、マルチモーダル入力、ローカルデプロイ、ファインチューニングを追跡します。

Latest Updates
Discover the newest guides, tips, and content
Gemma 4 ガイド:2026年にGoogleのオープンソースAIを使いこなす
GoogleのGemma 4をローカルで実行する方法を学び、AIventureでのバイブ・コーディングを探索し、2026年のゲーミングや開発向けにパフォーマンスを最適化しましょう。
Gemma 4のサイズ:完全なモデル比較とスペックガイド 2026
エッジ対応モデルから強力なワークステーション向けモデルまで、Gemma 4のさまざまなサイズオプションを紹介します。パラメータ、ハードウェア要件、マルチモーダル機能を比較しましょう。
Gemma 4 vs Gemini:2026年オープンモデル性能比較
GoogleのGemma 4オープンモデルとGeminiプロプライエタリ・スイートを比較します。ベンチマーク、エージェント機能、ローカルハードウェア要件について解説します。
Gemma 4 思考モード:最適化&ハードウェアガイド 2026
高度な推論を実現する新しい Gemma 4 思考モードをマスターしましょう。A4B アーキテクチャ、レイテンシの最適化、ローカル AI ホスティングのためのハードウェア要件について解説します。
Gemma 4 インストール:完全ローカルセットアップガイド 2026
コンシューマー向けハードウェアで Gemma 4 をインストールする方法を学びましょう。本ガイドでは、Turbo Quant の最適化、Atomic Bot のセットアップ、およびローカル AI の構成について解説します。
Gemma 4 31B:Googleのオープンモデル(2026年版)究極ガイド
画期的なGemma 4 31Bモデルを詳しく解説。256kのコンテキストウィンドウ、マルチモーダルなゲーム開発機能、ローカル環境での展開パフォーマンスについて学びましょう。
Gemma 4 レビュー:Googleの新しいオープンモデルファミリーガイド 2026
新しいApache 2.0ライセンス、ワークステーションおよびエッジモデル、ネイティブマルチモーダル機能を網羅した、Gemma 4の詳細レビュー。2026年最新版。
Gemma 4の発売日:Googleの新しいオープンモデル2026に関する完全ガイド
GoogleがGemma 4を正式にリリースしました。Gemma 4の発売日、モデル仕様、ハードウェア要件、およびこれらのオープンソースモデルをプロジェクトで活用する方法について詳しく解説します。
Gemma 4のパフォーマンス:完全ガイドとベンチマーク 2026
革新的なGemma 4のパフォーマンス指標を詳しく解説します。GoogleのオープンソースAIモデルを、Turbo Quant技術を用いて一般的なコンシューマー向けハードウェアでローカル実行する方法を学びましょう。
Gemma 4 ローカルテスト:パフォーマンス&ベンチマークガイド 2026
Googleの最新オープンウェイトLLMであるGemma 4の包括的なローカルテスト結果を詳しく解説します。ビジョン、推論、ハードウェアパフォーマンスを分析します。
Gemma 4 ローカルセットアップ:完全インストール&最適化ガイド 2026
Atomic BotとOpen Clawを使用してGemma 4をローカルにセットアップする方法を学びましょう。トークン費用なしで、コンシューマー向けハードウェア上で高性能AIエージェントを実行できます。
Gemma 4とは:GoogleのオープンAIモデル 2026完全ガイド
Apache 2.0ライセンス、ワークステーションおよびエッジモデル、ネイティブなマルチモーダル機能など、GoogleのGemma 4リリースに関するすべてを解説します。
Gemma 4 メモリ要件:2026年完全ハードウェアガイド
ローカルデプロイのための正確なGemma 4メモリ要件を確認しましょう。31B、26B MoE、EdgeモデルのVRAMニーズを、詳細な2026年ハードウェアガイドで解説します。
Gemma 4リリース:Googleの新しいオープンモデル2026完全ガイド
モデルバリアント、Apache 2.0ライセンス、ローカルAI開発のためのエージェンティックなワークフロー機能など、公式のGemma 4リリースについて詳しく解説します。
Gemma 4 コーディングテスト:Googleのオープンモデル・ベンチマーク 2026
ウェブ開発、3Dゲームエンジン、ローカルパフォーマンスを網羅した詳細なGemma 4コーディングテスト。26Bおよび31Bモデルが現実のシナリオでどのような実力を発揮するか検証します。
Gemma 4 Linux: ローカルインストールおよびセットアップガイド 2026
LinuxディストリビューションでGemma 4をインストールし、最適化する方法を学びます。Ollamaの統合、ハードウェア要件、パフォーマンス調整に関するステップバイステップガイド。
Gemma 4 vs Qwen:究極のAIモデル比較ガイド 2026
GoogleのGemma 4とAlibabaのQwen 3.6 Plusを徹底比較。2026年におけるベンチマーク、マルチモーダル機能、ローカルデプロイのヒントを探ります。
Gemma 4 ダウンロード:2026年版ローカルAI完全セットアップガイド
Atomic BotとOpenclawを使用して、Googleの最も強力なオープンソースAIモデルをローカルにセットアップし、Gemma 4のダウンロードを完了する方法を学びましょう。
Gemma 4 Ollamaアップデート:Googleの新しいオープンモデルを動かす方法 2026
大規模なGemma 4 Ollamaアップデートについて解説します。エージェント・ワークフローやコーディング向けに、31B、26B MoE、Effective 4Bモデルをローカルにインストールする方法を学びましょう。
Gemma 4 vs GPT:2026年版 AIロジック&パフォーマンス究極ガイド
GoogleのGemma 4とOpenAIのGPT-5.4を徹底比較。因果推論、論理パズル、効率性の面でどちらのAIモデルが優れているかを明らかにします。
Gemma 4モデル:Googleの2026年オープンAI完全ガイド
Gemma 4モデルの全機能を探索しましょう。26B MoEおよび31B Denseバリアント、ゲームへの応用、パフォーマンスベンチマークについて解説します。
Gemma 4 ハードウェア要件:ローカルAI完全ガイド 2026
Googleの最新オープンモデルをローカルで実行するためのGemma 4の必須ハードウェア要件について学びましょう。2Bから31BモデルまでのVRAM、RAM、GPUの仕様を詳しく解説します。
Gemma 4解説:Googleの新しいAIモデル(2026年版)完全ガイド
GoogleのGemma 4シリーズに関するすべてを学びましょう。マルチモーダル機能からローカルハードウェア要件まで、Gemma 4の完全解説ガイドです。
Gemma 4 26B ガイド:2026年、Googleのオープンモデルの力を探る
Gemma 4 26B Mixture of Expertsモデルの包括的ガイド。2026年におけるそのアーキテクチャ、ローカルパフォーマンス、エージェント機能について学びましょう。
Gemma 4 PC: ローカルAIのパフォーマンスとセットアップガイド 2026
GoogleのGemma 4をPCで実行する方法を学びましょう。E2B、26B、31Bモデルのベンチマーク、ハードウェア要件、ローカルAI向けの最適化のヒントを解説します。
Gemma 4 Ollamaモデル:2026年版完全デプロイ&パフォーマンスガイド
Gemma 4 Ollamaモデルのデプロイをマスターしましょう。26B MoE、31B Dense、そして2026年のローカルAIパフォーマンス向けに最適化されたモバイル版について詳しく解説します。
Gemma 4 Ollama: Googleのエッジ最適化AIをローカルで実行する(2026年版)
OllamaとOpenClawを使用してGemma 4 E4Bをインストールし、最適化する方法を学びます。層ごとの埋め込み技術を採用したローカルAIデプロイメントの完全ガイド。
Gemma 4 vs Qwen 3.6:2026年におけるゲーミングと開発者のための最高のAIモデル
GoogleのGemma 4とAlibabaのQwen 3.6を比較。2026年のローカルゲーム統合、コーディング、マルチモーダル性能において、どちらのモデルが優れているかを探ります。
Gemma 4 Windows: 2026年版ローカルAI完全セットアップガイド
WindowsでGemma 4をインストールし、最適化する方法を学びましょう。ハードウェア要件、MoE対Denseモデル、ローカルのエージェンティック・ワークフローを網羅した包括的なガイドです。
Gemma 4 E2B:GoogleのエッジAIモデル完全ガイド 2026
Googleの最新エッジ最適化AIモデル、Gemma 4 E2Bの機能を詳しく解説。ネイティブ・マルチモーダル機能、思考機能、Apache 2.0ライセンスについて学びましょう。
Gemma 4 リソース
ローカルセットアップからAPI統合まで、Gemma 4 を始めるために必要なすべて
Gemma 4 チュートリアル
Gemma 4 は2026年4月2日に、E2B、E4B、26B A4B、31Bの4つの公式サイズでリリースされました。このファミリーは Apache 2.0 ライセンスの下でオープンウェイト展開向けに構築されており、モバイルやノートPCクラスのハードウェアを対象とした小型のエッジモデルと、デスクトップ、ワークステーション、サーバーを対象とした大型モデルが用意されています。
4つの公式 Gemma 4 サイズを理解する
Gemma 4 には E2B、E4B、26B A4B、31B があります。E2B と E4B はテキスト、画像、音声の入力を受け付けます。26B A4B と 31B はテキストと画像の入力を受け付け、より大規模なローカル環境やサーバー展開を対象としています。
ハードウェアに合ったモデルを選択する
モバイル、エッジ、またはノートPCに適したローカル推論を行いたい場合は E2B または E4B を使用してください。より強力な汎用ローカルモデルが必要な場合は 26B A4B を、公式の Gemma 4 チェックポイントの中で最大のモデルが必要な場合は 31B を使用してください。
開始点を選択する
Gemma 4 26B A4B は、強力な初回体験のための有力なデフォルト選択肢です。最も軽量な開始点を求める場合は、指示調整済みのエッジモデルから始め、ワークロードにより高い能力が必要になった段階で上位モデルに移行してください。
試用方法を選択する
Google AI Studio や Gemini API を通じてホスト型の Gemma 4 を試すか、Hugging Face や Kaggle からオープンウェイトをダウンロードして、ローカルでの利用、チューニング、カスタム展開を行ってください。
Gemma 4 の最適化対象を知る
このファミリーは、推論、コーディング、エージェントワークフロー、およびマルチモーダル理解のために構築されています。エッジモデルは 128K コンテキストをサポートし、26B A4B と 31B は最大 256K コンテキストをサポートします。
Quick Tips
- 指示調整済み(-it)バリアントは、チャットやアシスタントのユースケースに最適です。
- E2B と E4B は、ローカルでの実験において最もハードウェアの敷居が低い開始点です。
- 26B A4B は MoE モデルであり、同等の合計サイズを持つ高密度モデルよりも実効推論速度が高速です。
- すべての Gemma 4 のウェイトは Apache 2.0 ライセンスの下で公開されています。
Gemma 4 Ollama セットアップ
Ollama は、ノートPCやワークステーションで Gemma 4 を実行するための最も速い方法の1つです。デフォルトの Ollama の流れはシンプルです。Ollama をインストールし、Gemma 4 をプルし、モデルリストを確認し、ハードウェアに適したタグを選択して、CLI またはローカル API から実行します。
Ollama のインストールと確認
Windows、macOS、または Linux 用の Ollama をダウンロードしてインストールし、コマンド ollama --version でセットアップを確認します。
デフォルトの Gemma 4 バリアントをプルする
ollama pull gemma4 を使用してデフォルトの Gemma 4 パッケージをダウンロードし、ollama list を実行してローカルで利用可能であることを確認します。
適切なモデルタグを選択する
最も軽量なエッジオプションには gemma4:e2b を、より強力なエッジのデフォルトには gemma4:e4b を、26B A4B MoE ワークステーションモデルには gemma4:26b を、フルサイズの大型モデルには gemma4:31b を使用してください。
各タグの要件を把握する
Ollama ライブラリページでは、e2b は 7.2GB(128K コンテキスト)、e4b は 9.6GB(128K)、26b は 18GB(256K)、31b は 20GB(256K)と記載されています。
最初のプロンプトを実行する
最初のテキストテストとして、ollama run gemma4 "こんにちは、何ができますか?" を実行します。Ollama は、公式ガイドに示されているプロンプト形式で画像入力もサポートしています。
アプリ統合にローカル API を使用する
Ollama は http://localhost:11434/api/generate でローカルウェブサービスを公開しているため、別のモデルサーバーをセットアップすることなく、CLI テストから軽量なローカルアプリケーションへ移行できます。
Quick Tips
- E2B と E4B は、軽量なハードウェアでローカルな実験を行う際の現実的な最初の選択肢です。
- 26b タグは 26B A4B MoE モデルを対象としており、同等の合計サイズを持つ高密度モデルよりもアクティブな計算量が少なくなります。
- ollama list は、ローカルにダウンロードされたすべてのモデルとそのサイズを表示します。
- Ollama は、ollama run gemma4:e2b に画像パスを添えるプロンプト形式で画像入力をサポートしています。
Gemma 4 API ガイド
Gemini API は Gemma 4 へのホスト型アクセスを提供し、ローカル推論を管理せずに構築する場合に便利です。AI Studio および Gemini API でホストされている Gemma 4 モデルは、gemma-4-26b-a4b-it と gemma-4-31b-it です。
Google AI Studio で API キーを作成する
Google AI Studio を開き、Gemini API キーを作成します。新規ユーザーはデフォルトの Google Cloud プロジェクトから開始でき、既存ユーザーは Cloud プロジェクトをインポートしてキーを作成できます。
環境変数にキーを設定する
Gemini SDK は GEMINI_API_KEY または GOOGLE_API_KEY を自動的に取得します。両方が設定されている場合は、GOOGLE_API_KEY が優先されます。
公式 SDK をインストールする
Python の場合は google-genai をインストールします。JavaScript および TypeScript の場合は @google/genai をインストールします。Google は Go、Java、C#、および Apps Script 用の SDK パスも公開しています。
ホスト型 Gemma 4 モデル ID を選択する
ホスト型 Gemma 4 の場合、より高速な MoE 大型モデルには gemma-4-26b-a4b-it を、フラッグシップの高密度チェックポイントには gemma-4-31b-it を使用してください。
最初の generateContent リクエストを送信する
公式の例では、model フィールドを gemma-4-31b-it に設定して client.models.generate_content を使用します。REST では、x-goog-api-key ヘッダーを付けて generateContent エンドポイントにリクエストを送信します。
AI Studio を使用してテストからコードへ橋渡しする
Google AI Studio では、プロンプト、モデル設定、関数呼び出し、構造化出力を試行し、その後「コードを取得」フローを通じて動作するコードをエクスポートできます。
Quick Tips
- AI Studio は、コードを書く前に Gemma 4 のプロンプトをテストする最も速い方法です。
- Gemini API は、チャットや長い生成のユースケース向けにストリーミングレスポンスをサポートしています。
- gemma-4-26b-a4b-it は MoE モデルであり、一般的に 31B よりも高速でコスト効率に優れています。
- 関数呼び出しと構造化出力は、両方のホスト型 Gemma 4 モデル ID で利用可能です。
Gemma 4 Hugging Face ダウンロード
Hugging Face 上の公式 Google コレクションには、E2B、E4B、26B A4B、31B の4つの主要な Gemma 4 チェックポイントが含まれており、それぞれベース形式と指示調整済み形式があります。指示調整済み(-it)リポジトリは、チャット、コーディング、アシスタント体験の自然な開始点となります。
google/gemma-4-E2B-it
テキスト、画像、音声入力に対応し、128K コンテキストを備えたエッジ向けチェックポイント。高速なローカルアシスタントやデバイス上でのマルチモーダル実験に最適です。
google/gemma-4-E4B-it
テキスト、画像、音声入力に対応し、128K コンテキストを備えた、より強力なエッジ向けチェックポイント。ワークステーション級のハードウェアに移行することなく、E2B よりも高い能力を発揮します。
google/gemma-4-26B-A4B-it
256K コンテキストとテキスト・画像入力を備えた MoE チェックポイント。同等の合計サイズを持つ高密度モデルよりも実効推論が速く、大型モデル並みの品質を提供します。
google/gemma-4-31B-it
256K コンテキストとテキスト・画像入力を備えた、フラッグシップとなる高密度 Gemma 4 チェックポイント。最高精度のチャット、推論、コーディング、エージェントワークフローに最適です。
google/gemma-4-E2B
最小のマルチモーダル Gemma 4 モデルを研究、適応、または微調整したいユーザー向けのベースエッジチェックポイント。
google/gemma-4-E4B
テキスト、画像、音声入力を維持しつつ、下流の指示動作を独自のチューニングパイプラインに委ねるためのベースエッジチェックポイント。
google/gemma-4-26B-A4B
デフォルトの指示調整済み動作を必要とせず、26B A4B アーキテクチャをカスタム適応させたい場合のベース MoE 大型チェックポイント。
google/gemma-4-31B
独自の微調整やアライメント段階の前に、最大の公式 Gemma 4 基盤モデルを必要とするチーム向けのベース 31B 高密度チェックポイント。
Choose the Right Gemma 4 Size for Your Hardware
Gemma 4 ships in four sizes with very different trade-offs. The fastest choice is not always the smallest model, and the highest-quality choice is not always the easiest one to deploy.
Gemma 4 is available in two edge-first dense models, one efficient Mixture-of-Experts model, and one large dense model. For most teams, the real decision is not just quality, but where the model runs: phone, laptop, workstation, or server. A practical starting point is 26B A4B when you want strong quality without jumping all the way to 31B.
Gemma 4 E2B
Offline assistants, lightweight multimodal apps, edge deployment
Gemma 4 E4B
Stronger local copilots, on-device reasoning, multimodal apps with more headroom
Gemma 4 26B A4B
Best balance of quality, speed, and long-context work for most teams
Gemma 4 31B
Highest-end reasoning, coding, and multimodal quality in the Gemma 4 family
The Gemma 4 Specs That Actually Matter Before You Build
For most builders, the key questions are context length, modalities, language coverage, licensing, and app-level features. These are the specs that change implementation choices, hosting cost, and product scope.
Gemma 4 is not just a text model refresh. The family combines long context, multimodal input, thinking mode, native system prompts, and function-calling support in one open-weight lineup. The smaller models add audio input, while the larger models extend context to 256K for document-heavy and repository-scale workloads.
March 31, 2026
This is the current Gemma core generation and the one Google now highlights across docs and launch materials.
All models: text and image → text; E2B and E4B also support audio input
You can build text-only, vision, and lightweight speech understanding flows without switching model families.
128K tokens on E2B and E4B; 256K tokens on 26B A4B and 31B
Large prompts such as long documents, long chats, or multi-file code context fit in a single request.
Over 140 languages
This matters for multilingual products, OCR, and globally deployed assistants.
Apache 2.0 license with open weights and support for responsible commercial use
You can tune, deploy, and run Gemma 4 in your own stack with fewer licensing constraints.
Configurable thinking mode, native system role support, structured JSON output, and function calling
These features make Gemma 4 much easier to use for agents, tool use, and instruction-heavy applications.
Variable image resolutions and token budgets of 70, 140, 280, 560, or 1120 tokens
You can trade image detail for speed depending on whether the task is OCR, UI reading, chart analysis, or fast frame processing.
Official Gemma 4 Benchmark Snapshot
These scores show where each Gemma 4 size is strongest across reasoning, coding, science, vision, and long-context retrieval. Use them to shortlist a model quickly, then match that shortlist to your latency and memory budget.
Gemma 4 is positioned as a model family for reasoning, agentic workflows, coding, and multimodal understanding. The official benchmark tables show a clear pattern: 31B leads, 26B A4B stays surprisingly close while being much more efficient, and E4B and E2B bring meaningful capability to smaller devices.
MMLU Pro
Knowledge and reasoning
Best quick comparison for general high-level reasoning performance across the family.
AIME 2026 (no tools)
Math reasoning
31B and 26B A4B are the right targets for math-heavy assistants and planning tasks.
LiveCodeBench v6
Competitive coding
If coding is a primary use case, the larger two models are in a different tier from the edge models.
GPQA Diamond
Scientific reasoning
A strong signal for technical and expert-facing workflows.
MMMU Pro
Multimodal reasoning
Vision tasks benefit heavily from the larger models when accuracy matters more than footprint.
MRCR v2 (128K, 8-needle)
Long-context retrieval
For large-document and repository-scale prompting, 31B is the strongest long-context choice.
実践的なプロダクト開発のための Gemma 4 ファインチューニング手法
プロンプティングだけでは不十分で、特定のドメイン、ワークフロー、または役割において Gemma 4 のパフォーマンスを向上させたい場合に、ファインチューニングが重要になります。実用的なパスとしては、テキストタスク向けの軽量なアダプターチューニングと、画像+テキストタスク向けのマルチモーダルアダプターチューニングがあります。
公式の Gemma チューニングドキュメントは、「漠然とした改善ではなく、定義されたタスクのためにチューニングする」というシンプルなルールに基づいています。多くの開発者にとって、QLoRA はフルモデルチューニングよりもハードウェア要件を大幅に低く抑えられるため、最も現実的な開始点となります。
明確なチューニング目標から始める
カスタマーサポート、Text-to-SQL、製品説明文の生成など、ベースモデルのパフォーマンスを向上させたいタスクや役割を選択します。タスクが具体的で繰り返される場合にファインチューニングを使用します。
チューニングパスを選択する
指示や生成タスクにはテキストチューニングを、データセットに画像とテキストが含まれる場合はビジョンチューニングを使用します。テキスト QLoRA ガイドでは Text-to-SQL を、ビジョン QLoRA ガイドでは画像+テキストの製品説明を例示しています。
現実的なフレームワークを選択する
Gemma 4 は、Keras with LoRA、Gemma ライブラリ、Hugging Face ベースのワークフロー、GKE、および Vertex AI をサポートしています。多くの開発者にとって、Hugging Face と TRL の組み合わせが最も直接的なパスです。
ハードウェアに合わせたワークフローを選択する
公式のテキスト QLoRA の例は、T4 16GB のセットアップ向けに設計されています。ビジョン QLoRA ガイドでは、NVIDIA L4 や A100 など、16GB 以上のメモリを搭載した BF16 対応の GPU が必要です。
効率を重視する場合は QLoRA を使用する
QLoRA はベースモデルを 4-bit に量子化したまま元の重みを凍結し、追加された LoRA アダプターのみをトレーニングします。これにより、高いタスクパフォーマンスを維持しながらメモリ使用量を抑えることができます。
適切な形式でデータを準備する
目的の動作に直接一致するデータセットを構築し、TRL や SFTTrainer を使用した対話形式のトレーニング用にフォーマットします。公式のテキストガイドでは、大規模な合成 Text-to-SQL データセットを使用しています。
評価、比較、そしてデプロイ
トレーニング後、ベースモデルとの推論比較を行い、タスクの改善を確認してから、チューニング済みモデルまたはアダプターをデプロイします。フレームワークの選択が出力形式に影響するため、デプロイ形式は早い段階で決定してください。
Quick Tips
- テキストタスクには QLoRA と T4 クラスの GPU から始めてください。タスク適応のためにフルファインチューニングが必要になることは稀です。
- データセットは、Gemma 4 がすでに理解している指示チューニング済みのチャット形式を反映するようにフォーマットしてください。
- 有意義な改善シグナルを得るために、評価セットはトレーニングデータと同じ分布から抽出してください。
- MoE モデルの 26B A4B は効率的なアクティブパラメータを持っていますが、トレーニング中のチェックポイントサイズには総パラメータ数が影響します。
- 指示タスクの開始点としては、事前学習済みのベースモデルではなく、Gemma 4 -it チェックポイントを使用してください。
Gemma 4 プロンプトガイド
Gemma 4 では、ネイティブのシステム指示、マルチモーダルプレースホルダー、思考やツール使用のための組み込みコントロールを備えた、新しいターンベースのプロンプト形式が導入されました。
このガイドでは、公式の Gemma 4 形式を実践的なプロンプトライブラリとして解説します。すべてのやり取りをターンとして構造化し、振る舞いやグローバルルールにはシステムロールを使用し、必要に応じて画像や音声のプレースホルダーを挿入します。思考やツール使用は、タスクに実際にメリットがある場合にのみ有効にします。
基本的なチャットスケルトン
Gemma 4 は、ターンマーカーで囲まれたネイティブの system、user、model ロールを使用します。
- グローバルな指示には system を使用
- 現在のリクエストには user を使用
- 生成の開始点として model を使用
システムプロンプトのパターン
毎回繰り返すのではなく、固定の振る舞いルールを 1 つのシステムターンに記述します。
- スタイル、範囲、出力形式の指定に有効
- ネイティブのシステムロールサポートは Gemma 4 から開始
- 簡潔かつタスク固有の内容にする
マルチモーダルプレースホルダー
画像や音声のエンベディングを挿入する場所を示すために、プレースホルダートークンを使用します。
- 画像には <|image|> を使用
- 音声には <|audio|> を使用
- プロセッサがトークナイズ後にプレースホルダーをエンベディングに置換
思考対応プロンプト
システム指示の中に <|think|> を配置することで、思考モードが有効になります。
- 推論が重要なタスクで有効にする
- 単純な直接生成の場合はオフにする
- 思考とその他のグローバル指示の両方に 1 つのシステムターンを使用する
ツール対応プロンプト構造
ツールの宣言はシステムターンで行い、ツール呼び出しとツール応答は専用のコントロールトークンで処理されます。
- API、検索、計算機、外部データ参照に有用
- ツール使用はプレーンテキストの模倣ではなく構造化されている
- 同じターン内で推論とツール使用を同時に行える
Gemma 4 思考モード
思考モードを使用すると、Gemma 4 は最終的な回答の前に推論チャネルを生成でき、プロセッサはアプリケーションで使用するために両方の部分を分離できます。
思考モードは、曖昧な質問、数学、コーディング、ツール計画、マルチモーダル分析など、回答前の中間推論が役立つタスクに最適です。Gemma 4 では、チャットテンプレートレベルで有効にし、推論をライブでストリーミングし、出力を思考ブロックとユーザー向けの回答ブロックに分割できます。
適切なタスクを選択する
短い直接的な回答ではなく、分解、比較、計画、または慎重な解釈が必要なリクエストに対して思考モードを使用します。
- 適したタスク: 数学、コードのデバッグ、構造化された意思決定、画像+テキストの推論
- 不要なケース: 単純な書き換え、短い要約、単純な事実確認
- 公式の例ではテキストのみと画像+テキストの両方のワークフローをカバー
チャットテンプレートで思考を有効にする
Hugging Face Transformers では、apply_chat_template() で enable_thinking=True を設定します。トークンレベルでは、Gemma 4 はシステムターンで <|think|> を使用します。
- E2B および E4B: 思考オフではシンプルな user-model フローを使用し、思考オンでは <|think|> を含むシステムターンを追加
- 26B A4B および 31B: 公式テンプレートには、出力を安定させるために思考オフ時でも空の思考トークンが含まれている
- 思考は会話レベルで有効にするように設計されている
結果の生成と分離
モデルは最初に推論チャネルを出力し、その後に最終的な回答を出力できます。TextStreamer でストリーミングし、parse_response() で分割できます。
- processor.parse_response() は、分離された思考内容と回答内容を返す
- これはテキストプロンプトと画像+テキストプロンプトの両方で機能
- ターンがエージェント的になる場合、推論チャネルにツール呼び出しを含めることも可能
マルチターンチャットを正しく処理する
通常のマルチターン会話では、履歴を戻す前に前のターンで生成された思考を削除します。ツール呼び出しのターンでは、ツールサイクルが終了するまで思考の流れを維持します。
- 通常のチャット: 次のターンの前に以前の思考ブロックを削除
- ツール使用の例外: 同じターン内の関数呼び出し間では思考を削除しない
- これにより、エージェントの動作を維持しながらコンテキストをクリーンに保つ
Gemma 4 関数呼び出し (Function Calling)
Gemma 4はネイティブな構造化ツール利用をサポートしており、モデルがプレーンテキストで外部アクションを模倣するのではなく、関数をリクエストできるようにします。
関数呼び出しは、モデルの出力と実際のアプリケーションの動作を繋ぐ実用的な架け橋です。Gemma 4にライブデータを推測させたりアクションをシミュレートさせたりする代わりに、ツールを定義し、モデルに構造化された呼び出しを生成させ、アプリ内で関数を実行し、その結果をモデルに戻すことで、最終的に自然言語でクリーンな回答を得ることができます。
ツールを明確に定義する
手動のJSONスキーマ、またはスキーマに変換された生のPython関数のいずれかを使用して、apply_chat_template()経由でツールを渡します。
- 正確なネストされたパラメータが必要な場合は、手動のJSONスキーマが最適です
- 明確な型ヒントとドキュメント文字列を持つシンプルなツールの場合は、生のPython関数が便利です
- ツールの定義には、名前、説明、パラメータの型、および必須フィールドを含める必要があります
モデルにツールをリクエストさせる
Gemma 4はユーザープロンプトと利用可能なツールを受け取り、ツールが必要な場合にはプレーンテキストではなく構造化された関数呼び出しオブジェクトを返します。
- ツールの使用は、tool、tool_call、tool_responseなどの専用トークンで制御されます
- 典型的な例は、天気予報や検索関数です
- 回答が外部の状態やシステムのアクションに依存する場合、これはプレーンテキストよりも優れています
アプリ内で検証して実行する
Gemma 4は単独でコードを実行することはできません。アプリケーション側で関数名と引数を解析し、それらを検証して、実際の関数を安全に実行する必要があります。
- 実行前に必ず関数名と引数を検証してください
- 安全策なしに生成されたコードに依存しないでください
- 本番システムでは、動的な実行ではなく、ツール名を承認済みのハンドラーにマッピングしてください
最終回答のためにツールの出力を返す
ツールの結果をチャット履歴に追加し、Gemma 4に最終的なユーザー向けの回答を生成させます。
- 公式ワークフロー:ツールの定義、モデルのターン、開発者のターン、最終回答
- このパターンは、API、ライブ検索、計算機、設定の更新、およびエージェントループで機能します
- モデルが最終的な回答を正しく根拠付けられるよう、ツールの応答は構造化された状態を維持する必要があります
Gemma 4 マルチモーダルガイド
Gemma 4はすべてのモデルでテキストと画像を処理し、ビデオをフレームとしてサポートし、E2BおよびE4Bではネイティブなオーディオサポートを追加しています。
Gemma 4はマルチモーダル入力向けに構築されています。すべてのモデルが画像とビデオ形式の視覚的理解をサポートし、小型モデルにはオーディオ入力が追加されています。また、ランタイムではトークン予算を使用して、視覚的な詳細さと速度のトレードオフを調整できます。これにより、Gemma 4はOCR、キャプション生成、物体検出、音声タスク、および1つのチャットフロー内での混合メディアプロンプトに適しています。
画像理解
すべての Gemma 4 モデルは、テキストと画像を組み合わせたワークフローをサポートしています。
- 一般的なタスク:OCR、物体検出、視覚的質問回答、画像キャプション生成
- 1つのプロンプト内での複数の画像にわたる推論をサポート
- スクリーンショット、ドキュメント、製品画像、およびシーン分析に最適
ビデオ理解
すべての Gemma 4 モデルは、ビデオを一連のフレームとして処理できます。
- シーンの説明、対人関係、および状況の要約に適しています
- ビデオはメッセージ配列内のコンテンツアイテムとして渡されます
- サポートされている最大ビデオ長は、毎秒1フレームで60秒です
オーディオ理解
オーディオはE2BおよびE4Bモデルで利用可能です。
- 多言語の音声認識、音声翻訳、および一般的な音声理解をサポート
- オーディオトークンのコストは1秒あたり25トークンです
- 最大オーディオ長は30秒です
視覚トークン予算
Gemma 4は可変解像度の画像処理を導入しており、タスクに基づいて速度または詳細度を選択できます。
- サポートされている画像予算:70、140、280、560、1120トークン
- 高速な分類、キャプション生成、およびビデオフレーム分析には低い予算を使用
- OCR、ドキュメント解析、および小さなテキストの読み取りには高い予算を使用
入力準備ルール
プロセッサがメディアフォーマットの多くを処理しますが、本番環境ではいくつかの制限が重要になります。
- オーディオはモノラル、16 kHz、float32、[-1, 1]に正規化されている必要があります
- 画像ファイルのサポートは、ファイルをテンソルに変換するために使用されるフレームワークに依存します
- プロンプトの品質は依然として重要です。具体的な指示は、曖昧なマルチモーダルリクエストよりも優れた結果をもたらします
モデル機能の区分
モバイルや音声を多用するユースケースには最小のモデルを使用し、長いコンテキストを伴う高度な推論には大規模なモデルを使用してください。
- E2BおよびE4B:128Kコンテキストを備えたオーディオ対応の小型モデル
- 26B A4Bおよび31B:256Kコンテキストを備えた推論重視の大型モデル
- 4つの公式サイズすべてにおいて、ベース版と指示調整(instruction-tuned)版が利用可能
Gemma 4 GGUF と量子化
お使いのマシンに適合する、最小の Gemma 4 フットプリントを選択してください
ほとんどのローカル環境において、実用的な判断は、E2BやE4Bにとどまるか、あるいは26B A4Bの GGUF ビルドに移行するかどうかです。Googleは、4つの公式サイズすべてについて、BF16、SFP8、および4ビット形式のデプロイメント選択肢における概算メモリ必要量をドキュメント化しています。
公式ローカルエントリポイント
Googleの Ollama ガイドでは、gemma4:e2b、gemma4:e4b、gemma4:26b、gemma4:31bの4つの Gemma 4 タグが公開されています。LM Studio も、完全なローカル推論のために GGUF とMLXの両方の形式でGemmaモデルをサポートしています。
まずはE2BまたはE4Bから始めて軽量なローカルループを構築し、RAM予算に余裕があり、より強力な推論モデルが必要な場合にのみ26Bまたは31Bに移行してください。
公式サイズ別の概算メモリ
Googleは、推論メモリの目安をE2B 9.6 GB BF16 / 3.2 GB Q4_0、E4B 15 GB / 5 GB、26B A4B 48 GB / 15.6 GB、31B 58.3 GB / 17.4 GBと記載しています。
一般的なローカルマシンを対象とする場合、4ビット形式のデプロイまたは小型のモデルサイズを選択することが、実行可能かどうかの境界線になることが一般的です。
公式 26B A4B GGUF の例
公式のggml-org Gemma 4 26B A4B IT GGUF ページでは、起動にllama-serverを推奨しており、Q4_K_Mは16.8 GB、Q8_0は26.9 GB、F16は50.5 GBと記載されています。
大規模なローカル Gemma 4 モデルが必要だが、Q8_0やフル16ビットのメモリ使用が困難な場合、Q4_K_Mが最も実用的なデフォルトの選択肢となります。
量子化による変化
パラメータ数が多く精度が高いほど一般的に能力は高くなりますが、処理サイクル、メモリ、電力のコストも高くなります。精度を下げるとこれらのコストは削減されますが、能力が低下する可能性があります。
量子化を使用してモデルをハードウェアに適合させてください。小型の GGUF ビルドはローカルでの実行を助けますが、それは無料のアップグレードではなく、デプロイのための妥協案であることを理解しておく必要があります。
Gemma 4 PyTorch ガイド
PyTorch ファーストのスタックから Gemma 4 を実行する
Gemma 4 の最短の Python パスは、PyTorch 上の Hugging Face Transformers です。torch と transformers をインストールし、Gemma 4 モデル ID を選択して、マルチモーダルやツール対応のワークフローに進む前に、まずはパイプラインベースのテキスト推論から始めましょう。
ランタイムのインストール
Google の Gemma 4 テキスト推論ガイドは、torch、accelerate、transformers、および会話処理用の dialog から始まります。
公式の Gemma 4 チェックポイントを選択する
Google の Gemma 4 の例では、4 つの公式な指示調整済み ID が示されています:google/gemma-4-E2B-it、google/gemma-4-E4B-it、google/gemma-4-26B-A4B-it、および google/gemma-4-31B-it。
テキスト生成から始める
最初のレスポンスを得るための最も簡単な方法として、task="text-generation"、device_map="auto"、dtype="auto" を指定した transformers.pipeline を使用します。
必要に応じてマルチモーダルやツールへ移行する
マルチモーダルや関数呼び出しのワークフローでは、AutoProcessor と AutoModelForMultimodalLM を使用し、ツール対応のプロンプト作成のために apply_chat_template を活用します。
より詳細な制御のためにネイティブ PyTorch を使用する
Google の PyTorch ガイドには、Kaggle 認証情報の設定、依存関係のインストール、gemma_pytorch のクローン、および直接的なチェックポイント制御による実験のためのマルチモーダルモデルクラスのロード方法が記載されています。
Gemma 4 モバイルデプロイメント
現在の Android スタックを通じて Gemma 4 をモバイルに導入する
Gemma 4 には現在、3 つの実用的なモバイル向けパスがあります。AICore プレビューデバイス上の ML Kit Prompt API、開発者向けの Android Studio ローカルモデルワークフロー、そしてモバイルや組み込みデバイス全体で低レベルのランタイム制御を可能にする LiteRT-LM です。
目的に合ったパスを選択する
Android アプリ体験を構築する場合は AICore 上の ML Kit Prompt API を、オフラインでのコーディング支援が必要な場合は Android Studio ローカルモデルを、より低レベルのランタイム制御が必要な場合は LiteRT-LM を使用してください。
AICore でオンデバイスのプロトタイプを作成する
Google の 2026 年 4 月のプレビューでは、AICore 対応デバイス上の Prompt API フロー内のモデル設定を通じて、Gemma 4 E2B または E4B をターゲットにできます。
デバイスの要件を確認する
プレビューモデルは、AICore 対応デバイス、および Google、MediaTek、Qualcomm の最新 AI アクセラレータで動作します。AI Edge Gallery は、AICore 非対応デバイスでの迅速なモデル確認に利用可能です。
開発者向けワークフローに Android Studio を使用する
Android Studio は現在、ローカルモデルのオプションとして Gemma 4 を推奨しています。Gemma E4B には 12 GB の RAM と 4 GB のストレージが必要で、Gemma 26B MoE には 24 GB の RAM と 17 GB のストレージが必要です。
より詳細なランタイム制御のために LiteRT-LM に切り替える
LiteRT-LM は、スマートフォンから組み込みシステムまでの言語モデルパイプライン用のクロスプラットフォームライブラリであり、Qualcomm AI Engine Direct や MediaTek NeuroPilot を含む CPU、GPU、NPU パスを備えています。
Gemma 4 vs Gemma 3
Gemma 3 から Gemma 4 へ移行する際の実際の変更点を確認する
この比較は、既存の Gemma 3 ワークフローを維持するか、Gemma 4 を中心に再構築するかを検討している開発者向けです。最も明確な違いは、コンテキスト長、制御フォーマット、マルチモーダルの範囲、および各ファミリーの最上位モデルにおけるベンチマークパフォーマンスに現れます。
リリースと主要サイズ
Gemma 4 は、エッジ優先の E モデルと、より大規模なワークステーションクラスのモデルという、より明確なデプロイメント層に合わせてファミリーを整理しています。
コンテキストウィンドウ
長いドキュメント、ツールのトレース、またはマルチステップの履歴において、Gemma 4 の大規模モデルは大幅に広い余裕を提供します。
マルチモーダル性
ユースケースが画像とテキストを超えて、動画、OCR 重視のフロー、または音声対応のエッジモデルに移行する場合、Gemma 4 はより広範なマルチモーダルファミリーとなります。
プロンプトと制御フォーマット
エージェントや構造化されたワークフローを構築するチームは、Gemma 4 でよりクリーンな制御インターフェースを利用できます。
最上位モデルのベンチマークスナップショット
推論、コーディング、または高難易度の QA のためにアップグレードする場合、最上位の Gemma 4 の飛躍は移行を正当化するのに十分な大きさです。
デプロイメントプロファイル
小規模なクラシックサイズがすでにスタックに適合している場合は Gemma 3 を使い続け、新しい制御機能、より大きなコンテキストを持つ最上位モデル、またはより強力なエッジ向けバリアントが必要な場合は Gemma 4 に移行してください。