Gemma 4 コーディングテスト:Googleのオープンモデル・ベンチマーク 2026 - ベンチマーク

Gemma 4 コーディングテスト:Googleのオープンモデル・ベンチマーク 2026

ウェブ開発、3Dゲームエンジン、ローカルパフォーマンスを網羅した詳細なGemma 4コーディングテスト。26Bおよび31Bモデルが現実のシナリオでどのような実力を発揮するか検証します。

2026-04-03
Gemma Wiki チーム

Googleの最新オープンウェイトモデル群のリリースは、特にローカルLLMのパフォーマンスに関心を持つ開発者コミュニティに衝撃を与えました。今回の包括的なGemma 4 コーディングテストでは、ラインナップの中でも重量級の2つ、31B Dense(密)モデルと26B Mixture of Experts(MoE:混合エキスパート)モデルを評価します。これらのモデルは「バイトあたり」で最も有能なオープンモデルとして市場に投入されており、私たちのベンチマークでは、それらが真に複雑なソフトウェアエンジニアリングタスクを処理できるかどうかを確認することを目指しています。ReactベースのブラウザOSを構築する場合でも、3Dフライトシミュレーターを作成する場合でも、2026年のワークフローを最適化するためには、このGemma 4 コーディングテストのニュアンスを理解することが不可欠です。マルチモーダルなポートフォリオ生成からJavaScriptによる生のロジック処理まで、これらのモデルを限界まで追い込み、日常的なコーディング支援においてクローズドソースの巨人に取って代わることができるかどうかを検証します。

Gemma 4 ファミリー:技術仕様

Gemma 4 コーディングテストの結果に入る前に、これらのモデルの背後にあるアーキテクチャを理解することが重要です。Googleは4つの異なるサイズをリリースしましたが、本格的な開発においては26Bと31Bモデルが主な焦点となります。26Bモデルは、アクティブパラメータがわずか4BのMixture of Experts(MoE)アーキテクチャを採用しており、ローカルハードウェアにおいて非常に効率的です。一方、31B Denseモデルは、推論の深さを最大化するように設計されています。

モデルサイズアーキテクチャアクティブパラメータコンテキストウィンドウライセンス
Gemma 4 2BDense2.3B128KApache 2.0
Gemma 4 4BDense4.5B128KApache 2.0
Gemma 4 26BMoE4B256KApache 2.0
Gemma 4 31BDense31B256KApache 2.0

💡 ヒント: VRAMが限られている開発者にとって、26B MoEモデルはパフォーマンスの「スイートスポット」を提供します。高い推論能力を維持しながら、31B Denseモデルよりも大幅に高速に動作します。

ウェブ開発:ブラウザOSの構築

今回のGemma 4 コーディングテストで最も興味深かったセグメントの一つは、HTML、CSS、JavaScriptを使用して機能的な「ブラウザOS」を生成するようモデルに依頼したことです。このタスクは、モデルの状態管理能力、UIの美学、および複数コンポーネントにわたるロジックの処理能力をテストします。

26B MoEモデルは、当初は最小限の結果しか出しませんでした。しかし、「ネガティブ・リインフォースメント(美的選択に対する批判)」を与えると、見事に方向転換しました。2回目の反復では以下が含まれていました:

  • 半透明のウィンドウエフェクト。
  • 「ロケット船」のスタートメニュー。
  • スネークゲームや神経衰弱ゲームを含む機能的なアプリ。
  • ダイナミックなテーマエンジン(フォレスト、ミッドナイト、サンセットの各テーマ)。

クラウドAPI経由でテストした31B Denseモデルは、「Nova OS」と呼ばれる、同様だがより洗練された初期UIを生成しました。これには機能的な時計と、オートクリッカーのアップグレードロジックを備えた「Clicker Quest」ゲームが含まれていました。興味深いことに、反復的なプロンプトを通じて複雑な美的指示に従う能力においては、26Bモデルの方がフロントエンドのプロトタイピングに適した選択肢となりました。

3Dゲーム開発と物理演算

2026年のAIモデルには、単に「Hello World」を書く以上のことが期待されています。私たちはモデルに対し、WASDキーで操作できる3Dの地下鉄シーンを作成するよう命じました。

機能26B MoE の結果31B Dense の結果
移動滑らかなWASDロジック標準的なWASDロジック
ライティング基本的な明るさスライダー高度でリアルな投影
マテリアルプロシージャルテクスチャ光沢のある反射面
戦闘「Subway Protocol」FPS「Subway Survival」FPS

このGemma 4 コーディングテストは、これらの静止シーンをファーストパーソン・シューティング(FPS)に変換するよう依頼した際に、予想外の展開を見せました。両方のモデルが以下の実装に成功しました:

  1. 敵のスポーン: 無限に押し寄せる敵の波。
  2. 武器メカニクス: マズルフラッシュを備えた3D武器モデル。
  3. 高度な物理演算: 31Bモデルは、AI生成コードとしては驚くほど手応えのある武器の反動を実装しました。

⚠️ 警告: モデルは3Dゲームのボイラープレート生成には優れていますが、「ヘルス(体力)ロジック」には苦労することがよくあります。私たちのテストでは、敵を撃つことはできましたが、モデルがダメージを受ける関数を書き忘れたため、プレイヤーキャラクターは事実上無敵でした。

マルチモーダル機能:ワイヤーフレームからウェブサイトへ

Gemma 4はマルチモーダルであり、画像を「見て」コードに変換することができます。プロフェッショナルなポートフォリオの手書きワイヤーフレームを提供し、ハイエンドな実装を依頼しました。

26Bモデルは期待以上の成果を出し、「Levi Lapis」という架空のエンジニアのサイトを作成しました。単にレイアウトをコピーするだけでなく、ライブ推論シミュレーション機能を追加しました。これには、「フォワードパス」ボタンをクリックすると隠れユニットが発火するニューラルネットワークの視覚的表現が含まれていました。手書きのスケッチからこれほどの創造的な解釈ができることは、フロントエンド開発者にとってGemma 4 コーディングテストの結果が非常にポジティブであることを示しています。

複雑なアプリケーションのテスト:DAWとビデオエディタ

これらのモデルの論理的思考を真にストレスステストするため、単純なUIから離れ、複雑なデータ処理へと移行しました。Gemma 4にウェブベースのデジタル・オーディオ・ワークステーション(DAW)とビデオエディタを構築するよう依頼しました。

ウェブDAWテスト

モデルは、ピアノ、ドラムエンジン、EDMサンプラーを備えたUIの生成に成功しました。しかし、ロジックに関しては一長一短でした:

  • ドラム: 完全に機能(キック、スネア、ハイハット)。
  • ピアノ: UIは表示されましたが、音は鳴りませんでした。
  • BPM: 再生速度を正しく調整する機能的なスライダー。
  • 録音: ボタンは存在しましたが、実際にオーディオをキャプチャするバックエンドロジックが欠けていました。

ビデオエディタテスト

生成されたビデオエディタでは、メディアのインポートが可能で、タイムラインも備えていました。「C」キーでのクリップのカットや、スケーリングによるリサイズは機能しましたが、アンカーポイントが中心ではなく左上に誤って設定されていました。これは、Gemma 4が複雑なツールの「概念」は理解しているものの、座標幾何学や深い信号処理を修正するには依然として人間の監視が必要であることを示しています。

ローカルパフォーマンスと量子化

Gemma 4 コーディングテストの重要な部分は、ローカルのコンシューマー向けハードウェアでどのように動作するかです。ローカルテストにはDGX Sparkを使用しました。

  • 26B MoE: Q8量子化で完璧に動作しました。高速(約22〜28トークン/秒)を維持し、指示に正確に従いました。
  • 31B Dense: ローカルでの量子化において大きな障害に直面しました。Q4およびQ8では、モデルが「ハルシネーション(幻覚)」による文字を生成したり、誤った言語で応答したりすることが頻繁にありました。2026年時点では、量子化カーネルがさらに最適化されるまで、31Bモデルは高品質なFP16クラウドAPIまたは特殊なNIMサービス経由で実行することをお勧めします。

これらのモデルをローカルでデプロイするための最新のドキュメントについては、公式の Google AI Blog を参照するか、Hugging Faceの最新モデルカードを確認してください。

FAQ

Q: コーディングにおいて、Gemma 4はGPT-4よりも優れていますか?

A: 私たちのGemma 4 コーディングテストでは、UI生成や基本的なゲームロジックにおいてトップティアのモデルに匹敵することがわかりましたが、リアルタイムのオーディオ処理のような複雑なバックエンドアーキテクチャでは、まだわずかに及びません。しかし、オープンウェイトモデルとしての「バイトあたり」のパフォーマンスは業界をリードしています。

Q: Gemma 4 26Bモデルをローカルで動かすにはどのようなハードウェアが必要ですか?

A: アクティブパラメータが4BのみのMixture of Experts(MoE)モデルであるため、量子化にもよりますが、少なくとも16GB〜24GBのVRAMを搭載したミドルレンジのGPUがあれば、非常に高速に動作させることができます。

Q: Gemma 4はマルチモーダルなコーディングをサポートしていますか?

A: はい。テストで示したように、UIのワイヤーフレームや回路図の画像をアップロードすると、モデルがコンポーネントを識別し、対応するコード(HTML/CSSやArduino C++など)を生成できます。

Q: Gemma 4は商用利用無料ですか?

A: はい、Gemma 4ファミリーはApache 2.0ライセンスの下でリリースされており、クローズドソースAPIのようなトークンごとの料金なしで、商用利用、改変、配布が可能です。

Advertisement