2026年4月2日のGoogleによるGemma 4のリリースは、オープンソースAI開発者やローカルLLM愛好家にとっての状況を根本的に変えました。Gemini 3の研究基盤の上に構築され、寛容なApache 2.0ライセンスの下でリリースされたこのモデルファミリーは、前例のない推論能力とマルチモーダル機能を提供します。その真の可能性を引き出すには、Gemma 4 システムプロンプトガイドを理解することが不可欠です。なぜなら、このモデルには思考、行動、外部ツールの使用方法を規定する特定の制御トークンが導入されているからです。モバイルデバイスで軽量なE2Bモデルを実行する場合でも、サーバーで巨大な31B Denseバリアントを実行する場合でも、Gemma 4 システムプロンプトガイドをマスターすることで、AIペルソナの一貫性、プライバシー、そして高い効果を維持できます。
このガイドでは、新しいプロンプトフォーマットの標準を分解し、革命的な「思考モード」を探索し、ローカルハードウェア上で完全に動作するカスタムエージェントワークフローの構築方法を解説します。
Gemma 4 プロンプト階層の理解
Gemma 4は以前のバージョンのレガシーなフォーマットから脱却し、構造化されたターンベースのシステムを採用しています。この構造は、システム指示、ユーザー入力、モデルの応答を明確に区別しながら、マルチターンの会話を処理できるように設計されています。
Gemma 4 システムプロンプトガイドの核心は、5つの主要な制御トークンから始まります。これらのトークンはトークナイザー内で予約されており、「モデルのハルシネーション」やフォーマットの崩壊を防ぐために正確に使用する必要があります。
コア対話トークン
| トークン | 目的 | 使用例 |
|---|---|---|
| system | モデルのペルソナとルールを定義します。 | system\nあなたは親切なアシスタントです。 |
| user | 人間のユーザーからの入力を示します。 | user\nフランスの首都は何ですか? |
| model | モデルが生成した応答を示します。 | model\n首都はパリです。 |
| **< | turn>** | 特定の対話ターンの開始をマークします。 |
| **<turn | >** | 特定の対話ターンの終了をマークします。 |
💡 ヒント: システム指示は常に
<|turn>systemと<turn|>のデリミタで囲んでください。これにより、モデルはセッション全体を通してこれらの指示を優先するようになります。
思考モードと推論の有効化
2026年に導入された最も強力な機能の1つが、ネイティブの「思考モード(Thinking Mode)」です。システムプロンプトに特定のトークンを含めることで、最終的な回答を出す前にモデルに Chain-of-Thought (CoT: 思考の連鎖) 推論を行わせることができます。これは、複雑な数学、論理パズル、または多段階の計画に特に有用です。
これを有効にするには、システムターン内に <|think|> トークンを含める必要があります。
思考のワークフロー
思考が有効になると、モデルは実際の応答の前に、隠された「思考チャネル(thought channel)」でコンテンツを生成します。これは <|channel>thought トークンによって示されます。
<|turn>system
<|think|>あなたはプロの論理講師です。<turn|>
<|turn>user
xについて解きなさい: 2x + 10 = 20<turn|>
<|turn>model
<|channel>thought
両辺から10を引く... 2で割る... x = 5。
<channel|>xを解くには、まず両辺から10を引いて2x = 10にします。次に2で割ります。答えは5です。<turn|>
適応型思考効率
レイテンシと計算コストを節約したい開発者は、「LOW(低)」思考指示を使用できます。システムプロンプトでモデルに「効率的に考える」または「推論を簡潔に保つ」よう明示的に指示することで、テストでは思考トークンが約20%削減されることが示されています。
エージェント型ワークフローとツール利用
Gemma 4はネイティブな「ツール利用者」です。つまり、天気の確認、データベースへのクエリ、Pythonスクリプトの実行などの外部関数を呼び出し、その結果を使用して最終的な回答を出すようにプロンプトで指示できます。この「ハンドシェイク」は特定のツールトークンを通じて管理されます。
ツール利用ライフサイクルトークン
| トークンペア | 説明 |
|---|---|
| **< | tool> <tool |
| **< | tool_call> <tool_call |
| **< | tool_response> <tool_response |
エージェントを構築する際は、JSONスキーマを使用してシステムプロンプトにツール定義を提供する必要があります。モデルはツールを呼び出す必要があるときに生成を「停止(halt)」し、ローカルアプリケーションがコードを実行して結果をコンテキストウィンドウに戻せるようにします。
Open WebUI によるローカル実装
多くのユーザーにとって、Gemma 4 システムプロンプトガイドを実装する最も簡単な方法は、Open WebUIのようなグラフィカルインターフェースを使用することです。Dockerを介してローカルで動作するOpen WebUIでは、複雑なシステムプロンプトを保存して繰り返し使用できる「カスタムペルソナ」を作成できます。
ナレッジベースの構築
Open WebUIは「ナレッジベース」を許可することで、Gemma 4をさらに進化させます。すべてのチャットでドキュメントを再アップロードする代わりに、PDF、スプレッドシート、テキストファイルをインデックス化できます。モデルにプロンプトを出すと、RAG(検索拡張生成)を使用してローカルファイルを検索し、関連する「チャンク」をGemma 4に提供します。
- ファイルをアップロード: ワークスペースの「ナレッジ」セクションにドキュメントを追加します。
- チャットでタグ付け: チャットボックスで
#キーを使用して、ナレッジベースを選択します。 - プライベートにクエリ: データについて質問します。処理は100%マシンのローカルで行われます。
Gemma 4 のハードウェア要件
適切なモデルサイズの選択は、利用可能なVRAMとRAMに大きく依存します。Gemma 4はPer-Layer Embeddings (PLE) や Shared KV Caching などの高度な技術を使用しているため、以前の世代よりも効率的ですが、大規模なバリアントには依然としてかなりのリソースが必要です。
| モデルサイズ | パラメータ数 | 推奨RAM/VRAM | 最適なユースケース |
|---|---|---|---|
| E2B | 2.3B | 4GB - 8GB | モバイル, Raspberry Pi, IoT |
| E4B | 4.5B | 8GB - 12GB | ノートPC, エッジデバイス |
| 26B A4B | 26B (MoE) | 16GB - 24GB | 低レイテンシのサーバー利用 |
| 31B Dense | 31B | 32GB+ | 高品質な推論 |
警告: 31Bモデルを使用する場合は、4ビット量子化で実行するために、少なくとも16GBのVRAMを搭載した最新のGPU(RTX 4080や4090など)があることを確認してください。
システムプロンプトのベストプラクティス
セットアップを最大限に活用するために、2026年のプロンプトエンジニアリングの業界標準に従ってください。
- 役割を具体的にする: 「あなたはライターです」ではなく、「あなたはサイバーセキュリティのホワイトペーパーを専門とするプロのテクニカルエディターです」を使用します。
- 思考コンテキストの管理: 標準的な会話では、履歴をモデルに戻す前に、前のターンのモデルの「思考」を削除してください。これにより、コンテキストウィンドウが冗長な推論で埋まるのを防げます。
- 文字列デリミタの使用: ツールのパラメータを定義するときは、
<|'|>トークンを使用して文字列値を囲みます。これにより、テキスト文字列内のカンマや括弧などの特殊文字によってモデルが混乱するのを防ぎます。 - マルチモーダル統合: Gemma 4は「見て」「聞く」ことができます。画像を使用してプロンプトを出すときは、
<|image|>プレースホルダーを使用して、視覚データをテキストのどこで考慮すべきかをモデルに正確に伝えます。
より技術的なドキュメントについては、公式の Google AI for Developers ポータルにアクセスして、完全なAPI仕様を確認してください。
FAQ
Q: Gemma 4を商用プロジェクトに使用できますか?
A: はい。Gemma 4はApache 2.0ライセンスの下でリリースされており、使用制限や制限的なポリシーなしに、完全な商用利用、改変、配布が可能です。
Q: 「思考モード」が遅すぎる場合、どうすれば無効にできますか?
A: システムプロンプトから <|think|> トークンを削除するだけです。モデルが思考を生成し続ける場合は、プロンプトに空の思考チャネル(<|channel>thought<channel|>)を追加して、動作を安定させることができます。
Q: Gemma 4の最大コンテキストウィンドウはどれくらいですか?
A: 大規模モデル(26Bおよび31B)は最大256Kトークンをサポートし、小型のエッジモデル(E2BおよびE4B)は最大128Kトークンをサポートします。これにより、1つの Gemma 4 システムプロンプトガイド セッションに書籍全体やコードベースを含めることができます。
Q: Gemma 4を使用するのにインターネット接続は必要ですか?
A: いいえ。Gemma 4の主な利点の1つは、Ollama、LM Studio、Open WebUIなどのツールを使用して完全にオフラインで実行できることであり、データがプライベートで安全に保たれることが保証されます。