오픈 멀티모달 모델 제품군

Gemma 4 Wiki

공식 Google 에코시스템 전반에 걸친 Gemma 4 모델 크기, 벤치마크, 프롬프팅, 함수 호출, 멀티모달 입력, 로컬 배포 및 파인튜닝 정보를 확인하세요.

공식 사이트
What's new in Gemma 4

Latest Updates

Discover the newest guides, tips, and content

Gemma 4란 무엇인가: 구글의 2026년 공개 AI 모델 완전 가이드

Apache 2.0 라이선스, 워크스테이션 및 엣지 모델, 네이티브 멀티모달 기능 등 구글의 Gemma 4 릴리스에 관한 모든 것을 살펴보세요.

2026년 4월 3일guide
Read more →
Gemma 4 PC: 로컬 AI 성능 및 설치 가이드 2026

PC에서 구글의 Gemma 4를 실행하는 방법을 알아보세요. E2B, 26B, 31B 모델의 벤치마크, 하드웨어 요구 사양, 로컬 AI 최적화 팁을 살펴봅니다.

2026년 4월 3일requirements
Read more →
Gemma 4 출시: Google의 새로운 오픈 모델 2026 전체 가이드

모델 변형, Apache 2.0 라이선스, 로컬 AI 개발을 위한 에이전틱 워크플로우 기능을 포함한 공식 Gemma 4 출시 소식을 살펴보세요.

2026년 4월 3일guide
Read more →
Gemma 4 요구 사양: 2026년 하드웨어 및 소프트웨어 가이드

워크스테이션 및 엣지 모델을 위한 공식 Gemma 4 요구 사양을 확인하세요. VRAM 필요량, GPU 호환성 및 배포 팁에 대해 알아봅니다.

2026년 4월 3일requirements
Read more →
Gemma 4 가이드: 2026년 구글의 오픈소스 AI 마스터하기

2026년 구글의 Gemma 4를 로컬에서 실행하는 방법, AIventure에서의 바이브 코딩(vibe-coding) 탐구, 게임 및 개발을 위한 성능 최적화 방법을 알아보세요.

2026년 4월 3일guide
Read more →
Gemma 4 코딩 테스트: 2026년 구글 오픈 모델 벤치마크

웹 개발, 3D 게임 엔진 및 로컬 성능을 다루는 심층 Gemma 4 코딩 테스트입니다. 26B 및 31B 모델이 실제 시나리오에서 어떤 성능을 보여주는지 확인해 보세요.

2026년 4월 3일benchmark
Read more →
Gemma 4 Windows: 2026년 로컬 AI 설치 완벽 가이드

Windows에서 Gemma 4를 설치하고 최적화하는 방법을 알아보세요. 하드웨어 요구 사항, MoE vs. Dense 모델 비교, 로컬 에이전트 워크플로우를 다루는 종합 가이드입니다.

2026년 4월 3일install
Read more →
Gemma 4 31B: Google의 2026년 오픈 모델 최종 가이드

획기적인 Gemma 4 31B 모델에 대해 알아보세요. 256k 컨텍스트 창, 멀티모달 게임 기능 및 로컬 배포 성능을 탐구합니다.

2026년 4월 3일models
Read more →
Gemma 4 Phone: 궁극의 모바일 AI 통합 가이드 2026

Gemma 4 휴대폰 통합의 힘을 살펴보세요. 2026년의 Effective 2B 및 4B 모델, 모바일 우선 에이전트 워크플로, 온디바이스 AI 성능에 대해 알아봅니다.

2026년 4월 3일requirements
Read more →
Gemma 4 설치: 2026년 로컬 설정 전체 가이드

일반 하드웨어에서 Gemma 4를 설치하는 방법을 알아보세요. 이 가이드는 Turbo Quant 최적화, Atomic Bot 설정 및 로컬 AI 구성을 다룹니다.

2026년 4월 3일install
Read more →
Gemma 4 출시일: 구글의 새로운 오픈 모델 2026에 대한 완전 가이드

구글이 Gemma 4를 공식 출시했습니다. Gemma 4 출시일, 모델 사양, 하드웨어 요구 사항 및 프로젝트에 이러한 오픈 소스 모델을 사용하는 방법을 살펴보세요.

2026년 4월 3일guide
Read more →
Gemma 4 설명: 구글의 새로운 AI 모델 2026 완전 가이드

구글 Gemma 4 시리즈에 대해 모두 알아보세요. 멀티모달 기능부터 로컬 하드웨어 요구 사항까지, Gemma 4에 대한 모든 설명을 담은 가이드입니다.

2026년 4월 3일guide
Read more →
Gemma 4 Ollama 업데이트: 구글의 새로운 2026 오픈 모델 실행 방법

대규모 Gemma 4 Ollama 업데이트를 살펴보세요. 에이전틱 워크플로우와 코딩을 위해 31B, 26B MoE, Effective 4B 모델을 로컬에 설치하는 방법을 알아봅니다.

2026년 4월 3일ollama
Read more →
Gemma 4 튜토리얼: 2026년 구글의 오픈 AI 모델 마스터하기

구글 Gemma 4 모델의 배포 및 파인튜닝 방법을 알아보세요. 멀티모달리티, MoE 아키텍처 및 2026년 로컬 환경 설정을 다루는 종합 튜토리얼입니다.

2026년 4월 3일guide
Read more →
Gemma 4 모델: Google의 2026년 오픈 AI 완전 가이드

Gemma 4 모델의 모든 기능을 살펴보세요. 26B MoE 및 31B Dense 변형, 게임 애플리케이션 및 성능 벤치마크에 대해 알아봅니다.

2026년 4월 3일models
Read more →
Gemma 4 성능: 2026년 가이드 및 벤치마크 총정리

혁신적인 Gemma 4 성능 지표를 살펴보세요. Google의 오픈 소스 AI 모델이 Turbo Quant 기술을 통해 소비자 하드웨어에서 로컬로 실행되는 방법을 알아봅니다.

2026년 4월 3일benchmark
Read more →
Gemma 4 E4B: Google 엣지 AI 모델 완전 가이드 2026

Google의 최신 엣지 AI 혁신인 Gemma 4 E4B 모델을 살펴보세요. 2026년을 위한 효과적인 파라미터, PLE 아키텍처 및 에이전트 기능에 대해 알아봅니다.

2026년 4월 3일models
Read more →
Gemma 4 E2B: 구글의 엣지 AI 모델 2026 완전 가이드

구글의 최신 엣지 최적화 AI 모델인 Gemma 4 E2B의 기능을 살펴보세요. 네이티브 멀티모달리티, 추론 기능 및 Apache 2.0 라이선스에 대해 알아봅니다.

2026년 4월 3일models
Read more →
Gemma 4 26b a4b: 구글의 2026년 오픈소스 추론 가이드

gemma 4 26b a4b 모델의 강력한 성능을 살펴보세요. 전문가 혼합(MoE) 아키텍처, GPT-5.4 대비 성능 벤치마크, 논리 최적화 팁에 대해 알아봅니다.

2026년 4월 3일models
Read more →
Gemma 4 리뷰: 구글의 새로운 오픈 모델 패밀리 가이드 2026

새로운 Apache 2.0 라이선스, 워크스테이션 및 엣지 모델, 네이티브 멀티모달 기능을 다루는 심층 Gemma 4 리뷰입니다. 2026년 최신 정보로 업데이트되었습니다.

2026년 4월 3일guide
Read more →
Gemma 4 26B 가이드: 2026년 구글 오픈 모델의 성능 탐구

Gemma 4 26B Mixture of Experts 모델에 대한 종합 가이드입니다. 2026년 기준 아키텍처, 로컬 성능 및 에이전트 역량에 대해 알아보세요.

2026년 4월 3일models
Read more →
Gemma 4 다운로드: 2026년 로컬 AI 전체 설치 가이드

Atomic Bot과 Openclaw를 사용하여 Google의 가장 강력한 오픈 소스 AI 모델인 Gemma 4를 다운로드하고 로컬에 설치하는 방법을 알아보세요.

2026년 4월 3일install
Read more →
Gemma 4 Ollama: 2026년 구글의 엣지 최적화 AI 로컬 실행 가이드

Ollama와 OpenClaw를 사용하여 Gemma 4 E4B를 설치하고 최적화하는 방법을 알아보세요. 레이어별 임베딩 기술을 활용한 로컬 AI 배포 완벽 가이드입니다.

2026년 4월 3일ollama
Read more →
Gemma 4 Linux: 로컬 설치 및 설정 가이드 2026

Linux 배포판에서 Gemma 4를 설치하고 최적화하는 방법을 알아보세요. Ollama 통합, 하드웨어 요구 사항 및 성능 튜닝을 위한 단계별 가이드입니다.

2026년 4월 3일install
Read more →
Gemma 4 vs Gemma 3: 구글의 차세대 오픈 모델 비교 2026

Gemma 4와 Gemma 3의 아키텍처 차이, 성능 벤치마크 및 에이전트 기능을 심층 분석합니다. 귀하의 하드웨어에 적합한 모델을 확인해 보세요.

2026년 4월 3일comparison
Read more →
Gemma 4 로컬 테스트: 성능 및 벤치마킹 가이드 2026

Gemma 4 로컬 테스트 결과를 상세히 살펴보세요. 구글의 최신 오픈 가중치 LLM에 대한 비전, 추론 및 하드웨어 성능을 분석합니다.

2026년 4월 3일benchmark
Read more →
Gemma 4 vs Qwen 3.6: 2026년 게임 및 개발자를 위한 최고의 AI 모델

Google의 Gemma 4와 Alibaba의 Qwen 3.6을 비교합니다. 2026년 로컬 게임 통합, 코딩 및 멀티모달 성능에서 어떤 모델이 우세한지 확인해 보세요.

2026년 4월 3일comparison
Read more →
Gemma 4 메모리 요구 사양: 2026년 하드웨어 완벽 가이드

로컬 배포를 위한 Gemma 4의 정확한 메모리 요구 사양을 알아보세요. 상세한 2026년 하드웨어 가이드를 통해 31B, 26B MoE 및 Edge 모델의 VRAM 요구 사항을 살펴봅니다.

2026년 4월 3일requirements
Read more →
Gemma 4 Ollama 설정: 2026년 구글의 가장 강력한 오픈 모델 실행하기

구글의 최신 오픈 소스 AI 모델을 로컬에서 실행하기 위한 Gemma 4 Ollama 전체 설정 방법을 알아보세요. 하드웨어, OpenClaw 통합 및 최적화에 대한 상세 가이드를 제공합니다.

2026년 4월 3일ollama
Read more →
Gemma 4 vs Gemini: 2026년 오픈 모델 성능 비교

구글의 Gemma 4 오픈 모델과 Gemini 독점 제품군을 비교해 보세요. 벤치마크, 에이전트 능력 및 로컬 하드웨어 요구 사항을 알아봅니다.

2026년 4월 3일comparison
Read more →

Gemma 4 리소스

로컬 설정부터 API 통합까지, Gemma 4를 시작하는 데 필요한 모든 것

빠른 시작

Gemma 4 튜토리얼

Gemma 4는 2026년 4월 2일에 E2B, E4B, 26B A4B, 31B의 네 가지 공식 크기로 출시되었습니다. 이 제품군은 Apache 2.0 라이선스 하에 오픈 가중치 배포를 위해 구축되었으며, 모바일 및 노트북급 하드웨어를 대상으로 하는 소형 에지 모델과 데스크톱, 워크스테이션 및 서버를 대상으로 하는 대형 모델로 구성됩니다.

1

네 가지 공식 Gemma 4 크기 이해하기

Gemma 4는 E2B, E4B, 26B A4B, 31B로 제공됩니다. E2B와 E4B는 텍스트, 이미지, 오디오 입력을 지원하며, 26B A4B와 31B는 텍스트 및 이미지 입력을 지원하고 더 큰 규모의 로컬 또는 서버 배포를 목표로 합니다.

2

하드웨어에 맞는 모델 선택하기

모바일, 에지 또는 노트북에 적합한 로컬 추론을 원할 때는 E2B 또는 E4B를 사용하세요. 더 강력한 범용 로컬 모델을 원한다면 26B A4B를 사용하고, 가장 큰 공식 Gemma 4 체크포인트를 원한다면 31B를 사용하세요.

3

시작 지점 선택하기

Gemma 4 26B A4B는 강력한 첫 경험을 위한 훌륭한 기본 선택지입니다. 가장 가벼운 시작을 원한다면 명령 조정(instruction-tuned) 에지 모델로 시작하고, 작업 부하에 더 많은 기능이 필요할 때 상위 모델로 이동하세요.

4

시도해 볼 방법 선택하기

Google AI Studio 및 Gemini API를 통해 호스팅된 Gemma 4를 사용해 보거나, 로컬 사용, 튜닝 및 맞춤형 배포를 위해 Hugging Face 또는 Kaggle에서 오픈 가중치를 다운로드하세요.

5

Gemma 4의 최적화 분야 파악하기

이 제품군은 추론, 코딩, 에이전트 워크플로 및 멀티모달 이해를 위해 구축되었습니다. 에지 모델은 128K 컨텍스트를 지원하며, 26B A4B 및 31B는 최대 256K 컨텍스트를 지원합니다.

Quick Tips

  • 명령 조정(-it) 변체는 채팅 및 어시스턴트 사용 사례에 가장 적합합니다.
  • E2B와 E4B는 로컬 실험을 위해 하드웨어 접근성이 가장 좋은 시작점입니다.
  • 26B A4B는 MoE 모델로, 비슷한 전체 크기의 밀집 모델보다 유효 추론 속도가 더 빠릅니다.
  • 모든 Gemma 4 가중치는 Apache 2.0 라이선스 하에 공개됩니다.
로컬 실행

Gemma 4 Ollama 설정

Ollama는 노트북이나 워크스테이션에서 Gemma 4를 실행하는 가장 빠른 방법 중 하나입니다. 기본 Ollama 흐름은 간단합니다. Ollama를 설치하고, Gemma 4를 가져오고(pull), 모델 목록을 확인하고, 하드웨어에 맞는 태그를 선택한 다음 CLI 또는 로컬 API에서 실행하면 됩니다.

1

Ollama 설치 및 확인

Windows, macOS 또는 Linux용 Ollama를 다운로드하여 설치하고, ollama --version 명령어로 설정을 확인합니다.

2

기본 Gemma 4 변체 가져오기

ollama pull gemma4를 사용하여 기본 Gemma 4 패키지를 다운로드한 다음, ollama list를 실행하여 로컬에서 사용 가능한지 확인합니다.

3

올바른 모델 태그 선택하기

가장 가벼운 에지 옵션은 gemma4:e2b를, 더 강력한 에지 기본값은 gemma4:e4b를, 26B A4B MoE 워크스테이션 모델은 gemma4:26b를, 전체 대형 모델은 gemma4:31b를 사용하세요.

4

각 태그의 사양 파악하기

Ollama 라이브러리 페이지에서 e2b는 7.2GB 및 128K 컨텍스트, e4b는 9.6GB 및 128K, 26b는 18GB 및 256K, 31b는 20GB 및 256K로 나열되어 있습니다.

5

첫 번째 프롬프트 실행하기

첫 번째 텍스트 테스트를 위해 ollama run gemma4 "안녕, 넌 무엇을 할 수 있니?"를 실행하세요. Ollama는 공식 가이드에 표시된 프롬프트 형식을 통해 이미지 입력도 지원합니다.

6

앱 통합을 위해 로컬 API 사용하기

Ollama는 http://localhost:11434/api/generate에서 로컬 웹 서비스를 제공하므로, 별도의 모델 서버를 설정하지 않고도 CLI 테스트에서 경량 로컬 애플리케이션으로 전환할 수 있습니다.

Quick Tips

  • E2B와 E4B는 저사양 하드웨어에서 로컬 실험을 위한 실용적인 첫 번째 선택입니다.
  • 26b 태그는 26B A4B MoE 모델을 대상으로 하며, 이는 비슷한 전체 크기의 밀집 모델보다 활성 연산량이 적습니다.
  • ollama list는 로컬에 다운로드된 모든 모델과 그 크기를 보여줍니다.
  • Ollama는 ollama run gemma4:e2b와 이미지 경로를 포함한 프롬프트 형식으로 이미지 입력을 지원합니다.
호스팅된 API

Gemma 4 API 가이드

Gemini API는 로컬 추론을 관리하지 않고도 빌드할 때 유용한 Gemma 4에 대한 호스팅된 액세스를 제공합니다. AI Studio 및 Gemini API의 호스팅된 Gemma 4 모델은 gemma-4-26b-a4b-it 및 gemma-4-31b-it입니다.

1

Google AI Studio에서 API 키 생성하기

Google AI Studio를 열고 Gemini API 키를 생성합니다. 신규 사용자는 기본 Google Cloud 프로젝트로 시작할 수 있으며, 기존 사용자는 Cloud 프로젝트를 가져와서 키를 생성할 수 있습니다.

2

환경 변수에 키 설정하기

Gemini SDK는 GEMINI_API_KEY 또는 GOOGLE_API_KEY를 자동으로 인식합니다. 둘 다 설정된 경우 GOOGLE_API_KEY가 우선순위를 갖습니다.

3

공식 SDK 설치하기

Python의 경우 google-genai를 설치하세요. JavaScript 및 TypeScript의 경우 @google/genai를 설치하세요. Google은 Go, Java, C#, Apps Script용 SDK 경로도 제공합니다.

4

호스팅된 Gemma 4 모델 ID 선택하기

호스팅된 Gemma 4의 경우, 더 빠른 MoE 대형 모델을 원하면 gemma-4-26b-a4b-it를, 플래그십 밀집 체크포인트를 원하면 gemma-4-31b-it를 사용하세요.

5

첫 번째 generateContent 요청 보내기

공식 예제에서는 모델 필드가 gemma-4-31b-it로 설정된 client.models.generate_content를 사용합니다. REST에서는 x-goog-api-key 헤더와 함께 generateContent 엔드포인트로 요청을 보냅니다.

6

AI Studio를 사용하여 테스트에서 코드로 전환하기

Google AI Studio를 사용하면 프롬프트, 모델 설정, 함수 호출 및 구조화된 출력을 실험한 다음, '코드 가져오기' 흐름을 통해 작동하는 코드를 내보낼 수 있습니다.

Quick Tips

  • AI Studio는 코드를 작성하기 전에 Gemma 4 프롬프트를 테스트하는 가장 빠른 방법입니다.
  • Gemini API는 채팅 및 긴 생성 사용 사례를 위해 스트리밍 응답을 지원합니다.
  • gemma-4-26b-a4b-it는 MoE 모델로, 일반적으로 31B보다 빠르고 비용 효율적입니다.
  • 함수 호출 및 구조화된 출력은 두 호스팅된 Gemma 4 모델 ID 모두에서 사용할 수 있습니다.
다운로드

Gemma 4 Hugging Face 다운로드

Hugging Face의 공식 Google 컬렉션에는 E2B, E4B, 26B A4B, 31B의 8가지 핵심 Gemma 4 체크포인트가 포함되어 있으며, 각각 기본 및 명령 조정 형태로 제공됩니다. 명령 조정(-it) 저장소는 채팅, 코딩 및 어시스턴트 경험을 위한 자연스러운 시작점입니다.

명령 조정

google/gemma-4-E2B-it

텍스트, 이미지, 오디오 입력 및 128K 컨텍스트를 지원하는 에지 체크포인트입니다. 빠른 로컬 어시스턴트 및 온디바이스 멀티모달 실험에 가장 적합합니다.

명령 조정

google/gemma-4-E4B-it

텍스트, 이미지, 오디오 입력 및 128K 컨텍스트를 지원하는 더 강력한 에지 체크포인트입니다. 워크스테이션급 하드웨어로 넘어가지 않고도 E2B보다 더 뛰어난 성능을 제공합니다.

명령 조정

google/gemma-4-26B-A4B-it

256K 컨텍스트 및 텍스트-이미지 입력을 지원하는 MoE 체크포인트입니다. 비슷한 전체 크기의 밀집 모델보다 유효 추론 속도가 빠르면서 대형 모델 수준의 품질을 제공합니다.

명령 조정

google/gemma-4-31B-it

256K 컨텍스트 및 텍스트-이미지 입력을 지원하는 플래그십 밀집 Gemma 4 체크포인트입니다. 가장 강력한 채팅, 추론, 코딩 및 에이전트 워크플로에 가장 적합합니다.

사전 학습됨

google/gemma-4-E2B

가장 작은 멀티모달 Gemma 4 모델을 연구, 조정 또는 미세 조정하려는 사용자를 위한 기본 에지 체크포인트입니다.

사전 학습됨

google/gemma-4-E4B

텍스트, 이미지, 오디오 입력을 유지하면서 다운스트림 명령 동작은 자체 튜닝 파이프라인에 맡기는 기본 에지 체크포인트입니다.

사전 학습됨

google/gemma-4-26B-A4B

기본 명령 조정 동작 없이 26B A4B 아키텍처를 원하는 맞춤형 조정을 위한 기본 MoE 대형 체크포인트입니다.

사전 학습됨

google/gemma-4-31B

자체 미세 조정 또는 정렬 단계 전에 가장 큰 공식 Gemma 4 파운데이션 모델을 원하는 팀을 위한 기본 31B 밀집 체크포인트입니다.

모델 비교

하드웨어에 적합한 Gemma 4 크기 선택하기

Gemma 4는 서로 다른 장단점을 가진 네 가지 크기로 제공됩니다. 가장 빠른 선택이 항상 가장 작은 모델은 아니며, 최고 품질의 선택이 항상 배포하기 가장 쉬운 것은 아닙니다.

Gemma 4는 두 개의 엣지 우선 Dense 모델, 하나의 효율적인 MoE 모델, 그리고 하나의 대형 Dense 모델로 제공됩니다. 대부분의 팀에게 실제 결정 기준은 품질뿐만 아니라 모델이 실행되는 위치(휴대폰, 노트북, 워크스테이션 또는 서버)입니다. 31B까지 가지 않고도 강력한 품질을 원할 때 실용적인 시작점은 26B A4B입니다.

Gemma 4 E2B

ArchitectureDense
Parameters2.3B 유효
Context128K 토큰
Memory (BF16/Q4)9.6 GB BF16 / 4.6 GB SFP8 / 3.2 GB Q4_0
Platform모바일 기기

오프라인 어시스턴트, 경량 멀티모달 앱, 엣지 배포

Gemma 4 E4B

ArchitectureDense
Parameters4.5B 유효
Context128K 토큰
Memory (BF16/Q4)15 GB BF16 / 7.5 GB SFP8 / 5 GB Q4_0
Platform모바일 및 노트북

더 강력한 로컬 코파일럿, 온디바이스 추론, 더 많은 여유 공간을 가진 멀티모달 앱

Gemma 4 26B A4B

ArchitectureMoE
Parameters총 25.2B, 활성 3.8B
Context256K 토큰
Memory (BF16/Q4)48 GB BF16 / 25 GB SFP8 / 15.6 GB Q4_0
Platform데스크톱 및 소형 서버

대부분의 팀을 위한 품질, 속도 및 긴 컨텍스트 작업의 최적의 균형

Gemma 4 31B

ArchitectureDense
Parameters30.7B
Context256K 토큰
Memory (BF16/Q4)58.3 GB BF16 / 30.4 GB SFP8 / 17.4 GB Q4_0
Platform대형 서버

Gemma 4 제품군 중 최고 수준의 추론, 코딩 및 멀티모달 품질

핵심 사양

빌드 전 실제로 중요한 Gemma 4 사양

대부분의 빌더에게 핵심 질문은 컨텍스트 길이, 모달리티, 언어 지원 범위, 라이선스 및 앱 수준 기능입니다. 이는 구현 선택, 호스팅 비용 및 제품 범위를 결정하는 사양입니다.

Gemma 4는 단순한 텍스트 모델 업데이트가 아닙니다. 이 제품군은 긴 컨텍스트, 멀티모달 입력, 사고 모드, 네이티브 시스템 프롬프트 및 함수 호출 지원을 하나의 오픈 가중치 라인업에 결합했습니다. 작은 모델은 오디오 입력을 추가하고, 큰 모델은 문서가 많거나 리포지토리 규모의 워크로드를 위해 컨텍스트를 256K까지 확장합니다.

출시

2026년 3월 31일

이는 현재 Gemma의 핵심 세대이며 Google이 현재 문서 및 출시 자료 전반에서 강조하는 모델입니다.

입력 및 출력

모든 모델: 텍스트 및 이미지 → 텍스트; E2B 및 E4B는 오디오 입력도 지원

모델 제품군을 바꾸지 않고도 텍스트 전용, 비전 및 경량 음성 이해 흐름을 구축할 수 있습니다.

최대 컨텍스트 윈도우

E2B 및 E4B에서 128K 토큰; 26B A4B 및 31B에서 256K 토큰

긴 문서, 긴 채팅 또는 다중 파일 코드 컨텍스트와 같은 대규모 프롬프트가 단일 요청에 들어갑니다.

언어 지원 범위

140개 이상의 언어

이는 다국어 제품, OCR 및 전 세계에 배포된 어시스턴트에게 중요합니다.

라이선스 및 가중치

오픈 가중치 및 책임 있는 상업적 사용을 지원하는 Apache 2.0 라이선스

라이선스 제약이 적은 자체 스택에서 Gemma 4를 튜닝, 배포 및 실행할 수 있습니다.

추론 및 제어

구성 가능한 사고 모드, 네이티브 시스템 역할 지원, 구조화된 JSON 출력 및 함수 호출

이러한 기능 덕분에 에이전트, 도구 사용 및 지침이 많은 애플리케이션에서 Gemma 4를 훨씬 쉽게 사용할 수 있습니다.

시각적 처리

가변 이미지 해상도 및 70, 140, 280, 560 또는 1120 토큰의 토큰 예산

OCR, UI 읽기, 차트 분석 또는 빠른 프레임 처리 작업 여부에 따라 이미지 세부 정보와 속도를 절충할 수 있습니다.

성능

공식 Gemma 4 벤치마크 스냅샷

이 점수는 추론, 코딩, 과학, 비전 및 긴 컨텍스트 검색 전반에서 각 Gemma 4 크기가 가장 강점을 보이는 부분을 보여줍니다. 이를 사용하여 모델 후보를 빠르게 선정한 다음, 해당 후보를 지연 시간 및 메모리 예산에 맞추십시오.

Gemma 4는 추론, 에이전트 워크플로, 코딩 및 멀티모달 이해를 위한 모델 제품군으로 포지셔닝되었습니다. 공식 벤치마크 표는 명확한 패턴을 보여줍니다. 31B가 앞서고, 26B A4B는 훨씬 더 효율적이면서도 놀라울 정도로 근접한 성능을 유지하며, E4B와 E2B는 소형 기기에 의미 있는 기능을 제공합니다.

MMLU Pro

지식 및 추론

85.2%
31B
82.6%
26B A4B
69.4%
E4B
60.0%
E2B

제품군 전반의 일반적인 고수준 추론 성능을 위한 최적의 빠른 비교 지표입니다.

AIME 2026 (no tools)

수학적 추론

89.2%
31B
88.3%
26B A4B
42.5%
E4B
37.5%
E2B

31B 및 26B A4B는 수학 비중이 높은 어시스턴트 및 계획 작업에 적합한 타겟입니다.

LiveCodeBench v6

경쟁 코딩

80.0%
31B
77.1%
26B A4B
52.0%
E4B
44.0%
E2B

코딩이 주요 사용 사례인 경우, 더 큰 두 모델은 엣지 모델과는 다른 계층에 있습니다.

GPQA Diamond

과학적 추론

84.3%
31B
82.3%
26B A4B
58.6%
E4B
43.4%
E2B

기술 및 전문가용 워크플로에 대한 강력한 신호입니다.

MMMU Pro

멀티모달 추론

76.9%
31B
73.8%
26B A4B
52.6%
E4B
44.2%
E2B

정확도가 점유 공간보다 중요할 때 비전 작업은 더 큰 모델로부터 큰 이점을 얻습니다.

MRCR v2 (128K, 8-needle)

긴 컨텍스트 검색

66.4%
31B
44.1%
26B A4B
25.4%
E4B
19.1%
E2B

대규모 문서 및 리포지토리 규모의 프롬프트 작성을 위해 31B는 가장 강력한 긴 컨텍스트 선택지입니다.

커스터마이징

실제 제품 작업을 위한 Gemma 4 파인튜닝 방법

프롬프팅만으로 충분하지 않고 특정 도메인, 워크플로우 또는 역할에서 Gemma 4가 더 나은 성능을 발휘하기를 원할 때 파인튜닝이 중요합니다. 실용적인 경로는 텍스트 작업을 위한 경량 어댑터 튜닝과 이미지 및 텍스트 작업을 위한 멀티모달 어댑터 튜닝입니다.

공식 Gemma 튜닝 문서는 단순한 규칙에 집중합니다. 모호한 개선이 아닌 정의된 작업을 위해 튜닝하십시오. 많은 빌더에게 QLoRA는 전체 모델 튜닝보다 하드웨어 요구 사항을 훨씬 낮게 유지하므로 가장 현실적인 시작점입니다.

1

좁고 명확한 튜닝 목표로 시작하기

고객 지원, text-to-SQL 또는 제품 설명 생성과 같이 기본 모델이 더 잘 수행해야 하는 작업이나 역할을 선택하세요. 작업이 구체적이고 반복적일 때 파인튜닝을 사용하세요.

2

튜닝 경로 선택하기

지시 및 생성 작업에는 텍스트 튜닝을 사용하고, 데이터셋에 이미지와 텍스트가 결합된 경우 비전 튜닝을 사용하세요. 텍스트 QLoRA 가이드는 text-to-SQL을, 비전 QLoRA 가이드는 이미지와 텍스트가 포함된 제품 설명을 보여줍니다.

3

현실적인 프레임워크 선택하기

Gemma 4는 LoRA를 포함한 Keras, Gemma 라이브러리, Hugging Face 기반 워크플로우, GKE 및 Vertex AI를 지원합니다. 많은 개발자에게 Hugging Face와 TRL이 가장 직접적인 경로입니다.

4

하드웨어에 맞는 워크플로우 맞추기

공식 텍스트 QLoRA 예제는 T4 16GB 설정을 기준으로 설계되었습니다. 비전 QLoRA 가이드는 NVIDIA L4 또는 16GB 이상의 메모리를 갖춘 A100과 같은 BF16 지원 GPU가 필요합니다.

5

효율성이 중요할 때 QLoRA 사용하기

QLoRA는 기본 모델을 4비트로 양자화된 상태로 유지하고, 원래 가중치를 고정한 채 추가된 LoRA 어댑터만 학습시킵니다. 이는 강력한 작업 성능을 유지하면서 메모리 사용량을 줄여줍니다.

6

올바른 형식으로 데이터 준비하기

원하는 동작과 직접 일치하는 데이터셋을 구축한 다음, TRL 및 SFTTrainer를 사용하여 대화형 학습 형식으로 구성하세요. 공식 텍스트 가이드는 대규모 합성 text-to-SQL 데이터셋을 사용합니다.

7

평가, 비교 및 배포하기

학습 후 기본 모델과 추론 결과를 비교하고, 작업 성능 향상을 확인한 다음 튜닝된 모델이나 어댑터를 배포하세요. 프레임워크 선택이 출력 형식에 영향을 미치므로 배포 형식을 조기에 결정하세요.

Quick Tips

  • 텍스트 작업에는 QLoRA와 T4급 GPU로 시작하세요. 작업 적응을 위해 전체 파인튜닝이 필요한 경우는 드뭅니다.
  • Gemma 4가 이미 이해하고 있는 지시 튜닝된 채팅 형식과 일치하도록 데이터셋 형식을 구성하세요.
  • 의미 있는 개선 신호를 얻으려면 평가 세트를 학습 데이터와 동일한 분포로 유지하세요.
  • MoE 모델인 26B A4B는 효율적인 활성 파라미터를 갖추고 있지만, 전체 파라미터 수는 학습 중 체크포인트 크기에 여전히 영향을 미칩니다.
  • 지시 작업의 경우 사전 학습된 베이스 모델 대신 Gemma 4 -it 체크포인트를 시작점으로 사용하세요.
프롬프팅

Gemma 4 프롬프트 가이드

Gemma 4는 네이티브 시스템 지시어, 멀티모달 플레이스홀더, 사고 및 도구 사용을 위한 내장 제어 기능이 포함된 새로운 턴 기반 프롬프트 형식을 도입합니다.

이 가이드는 공식 Gemma 4 형식을 실용적인 프롬프트 라이브러리로 변환합니다. 모든 상호작용을 턴으로 구성하고, 동작 및 전역 규칙에는 시스템 역할을 사용하며, 필요한 곳에 이미지 또는 오디오 플레이스홀더를 삽입하고, 작업에 실제로 도움이 될 때만 사고 또는 도구 사용을 활성화하세요.

핵심 채팅 골격

Gemma 4는 턴 마커로 감싸진 네이티브 시스템, 사용자 및 모델 역할을 사용합니다.

  • 전역 지침에 시스템 사용
  • 현재 요청에 사용자 사용
  • 생성 시작 지점으로 모델 사용
<|turn>system You are a helpful assistant.<turn|> <|turn>user Summarize the following article in 5 bullets.<turn|> <|turn>model

시스템 프롬프트 패턴

매번 반복하는 대신 하나의 시스템 턴에 안정적인 동작 규칙을 넣으세요.

  • 스타일, 범위 및 출력 형식에 적합
  • 네이티브 시스템 역할 지원은 Gemma 4부터 시작됩니다
  • 간결하고 작업에 구체적으로 유지하세요
<|turn>system You are a technical writer. Answer in clear English, use short paragraphs, and include one practical example.<turn|> <|turn>user Explain function calling for a beginner.<turn|> <|turn>model

멀티모달 플레이스홀더

이미지 및 오디오 임베딩이 삽입되어야 할 위치를 나타내기 위해 플레이스홀더 토큰을 사용하세요.

  • 이미지에는 <|image|> 사용
  • 오디오에는 <|audio|> 사용
  • 프로세서는 토큰화 후 플레이스홀더를 임베딩으로 교체합니다
<|turn>user Describe this image: <|image|> Then transcribe this clip: <|audio|><turn|> <|turn>model

사고 준비 프롬프트

사고 모드는 시스템 지시어 내부에 <|think|>를 배치하여 활성화됩니다.

  • 추론이 많이 필요한 작업에 활성화하세요
  • 단순한 직접 생성의 경우 비활성화 상태를 유지하세요
  • 사고와 기타 전역 지침 모두에 하나의 시스템 턴을 사용하세요
<|turn>system <|think|>You are a careful reasoning assistant.<turn|> <|turn>user Compare two pricing models and recommend one for a startup.<turn|> <|turn>model

도구 인식 프롬프트 구조

도구 선언은 시스템 턴에 속하며, 도구 호출 및 도구 응답은 전용 제어 토큰으로 처리됩니다.

  • API, 검색, 계산기 및 외부 데이터 조회에 유용합니다
  • 도구 사용은 일반 텍스트 흉내가 아닌 구조화된 방식입니다
  • 추론과 도구 사용은 동일한 턴에서 발생할 수 있습니다
도구 선언 토큰 블록을 사용하여 시스템 턴에서 도구를 정의한 다음, 평소와 같이 사용자 및 모델 턴을 설정하세요. Gemma 4는 구조화된 tool_call 및 tool_response 토큰으로 나머지를 처리합니다.
추론

Gemma 4 사고 모드

사고 모드를 사용하면 Gemma 4가 최종 답변 전에 추론 채널을 생성할 수 있으며, 프로세서는 애플리케이션 사용을 위해 두 부분을 분리할 수 있습니다.

사고 모드는 모호한 질문, 수학, 코딩, 도구 계획 및 멀티모달 분석과 같이 모델이 답변하기 전에 중간 추론의 이점을 얻을 수 있는 작업에 가장 적합합니다. Gemma 4에서는 채팅 템플릿 수준에서 이를 활성화하고, 추론을 실시간으로 스트리밍한 다음, 출력을 사고 블록과 사용자용 답변 블록으로 나눌 수 있습니다.

1

적합한 작업 선택하기

짧은 직접 답변보다 분해, 비교, 계획 또는 신중한 해석이 필요한 요청에 사고 모드를 사용하세요.

  • 적합한 사례: 수학, 코드 디버깅, 구조화된 의사 결정, 이미지 및 텍스트 추론
  • 단순한 재작성, 짧은 요약 또는 간단한 사실 확인에는 덜 필요함
  • 공식 예제는 텍스트 전용 및 이미지-텍스트 워크플로우를 모두 다룹니다
2

채팅 템플릿에서 사고 활성화하기

Hugging Face Transformers를 사용하는 경우 apply_chat_template()에서 enable_thinking=True로 설정하세요. 토큰 수준에서 Gemma 4는 시스템 턴에서 <|think|>를 사용합니다.

  • E2B 및 E4B: 사고 OFF는 단순한 사용자-모델 흐름을 사용하고, 사고 ON은 <|think|>가 포함된 시스템 턴을 추가합니다.
  • 26B A4B 및 31B: 공식 템플릿은 출력을 안정화하기 위해 사고가 꺼져 있을 때 빈 사고 토큰을 포함합니다.
  • 사고는 대화 수준에서 활성화되도록 설계되었습니다
3

결과 생성 및 분리하기

모델은 추론 채널을 먼저 내보내고 그 다음에 최종 답변을 내보낼 수 있습니다. TextStreamer로 스트리밍하고 parse_response()로 분리할 수 있습니다.

  • processor.parse_response()는 분리된 사고 및 답변 콘텐츠를 반환합니다
  • 이는 텍스트 프롬프트와 이미지-텍스트 프롬프트 모두에 작동합니다
  • 추론 채널에 도구 호출이 포함되어 턴이 에이전트 방식으로 동작할 수도 있습니다
4

멀티턴 채팅을 올바르게 처리하기

일반적인 멀티턴 대화의 경우, 히스토리를 다시 보내기 전에 이전 턴에서 생성된 사고를 제거하세요. 도구 호출 턴에서는 도구 사이클이 끝날 때까지 사고 흐름을 그대로 유지하세요.

  • 일반 채팅: 다음 턴 전에 이전 사고 블록을 제거
  • 도구 사용 예외: 동일한 턴 내의 함수 호출 사이에는 사고를 제거하지 않음
  • 이렇게 하면 에이전트 동작을 보존하면서 컨텍스트를 깨끗하게 유지할 수 있습니다
에이전트 워크플로우

Gemma 4 함수 호출 (Function Calling)

Gemma 4는 네이티브 구조화된 도구 사용을 지원하여, 모델이 일반 텍스트로 외부 작업을 흉내 내는 대신 함수를 요청할 수 있도록 합니다.

함수 호출은 모델 출력과 실제 애플리케이션 동작 사이의 실질적인 가교 역할을 합니다. Gemma 4에게 실시간 데이터를 추측하거나 작업을 시뮬레이션하도록 요청하는 대신, 도구를 정의하고 모델이 구조화된 호출을 생성하게 한 뒤, 앱에서 함수를 실행하고 그 결과를 다시 전달하여 모델이 깔끔한 자연어 답변으로 마무리할 수 있게 합니다.

1

도구를 명확하게 정의하기

수동 JSON 스키마 또는 스키마로 변환된 원시 Python 함수를 사용하여 apply_chat_template()을 통해 도구를 전달합니다.

  • 정밀한 중첩 파라미터가 필요한 경우 수동 JSON 스키마가 가장 좋습니다
  • 명확한 타입 힌트와 독스트링이 있는 간단한 도구의 경우 원시 Python 함수가 편리합니다
  • 도구 정의에는 이름, 설명, 파라미터 타입 및 필수 필드가 포함되어야 합니다
2

모델이 도구를 요청하도록 하기

Gemma 4는 사용자 프롬프트와 사용 가능한 도구를 수신하며, 도구가 필요할 때 일반 텍스트 대신 구조화된 함수 호출 객체를 반환합니다.

  • 도구 사용은 tool, tool_call, tool_response와 같은 전용 토큰으로 제어됩니다
  • 대표적인 예로 날씨 또는 검색 함수가 있습니다
  • 답변이 외부 상태나 시스템 작업에 의존하는 경우 일반 텍스트보다 이 방식이 더 좋습니다
3

앱에서 검증 및 실행하기

Gemma 4는 스스로 코드를 실행할 수 없습니다. 애플리케이션에서 함수 이름과 인수를 파싱하고 검증한 뒤, 실제 함수를 안전하게 실행해야 합니다.

  • 실행 전에 항상 함수 이름과 인수를 검증하십시오
  • 안전 장치 없이 생성된 코드에 의존하지 마십시오
  • 프로덕션 시스템의 경우, 동적 실행 대신 도구 이름을 승인된 핸들러에 매핑하십시오
4

최종 답변을 위해 도구 출력 반환하기

도구 결과를 채팅 기록에 다시 추가한 다음, Gemma 4가 최종 사용자 응답을 생성하도록 합니다.

  • 공식 워크플로우: 도구 정의, 모델 턴, 개발자 턴, 최종 응답
  • 이 패턴은 API, 실시간 조회, 계산기, 설정 업데이트 및 에이전트 루프에 적용됩니다
  • 모델이 최종 답변을 올바르게 근거 지을 수 있도록 도구 응답은 구조화된 상태를 유지해야 합니다
멀티모달

Gemma 4 멀티모달 가이드

Gemma 4는 모든 모델에서 텍스트와 이미지를 처리하고, 비디오를 프레임 단위로 지원하며, E2B 및 E4B에서 네이티브 오디오 지원을 추가합니다.

Gemma 4는 멀티모달 입력을 위해 구축되었습니다. 모든 모델이 이미지 및 비디오 스타일의 시각적 이해를 지원하며, 소형 모델은 오디오 입력을 추가로 지원합니다. 런타임에서는 토큰 예산을 사용하여 시각적 세부 사항과 속도 사이의 균형을 맞출 수 있습니다. 이로 인해 Gemma 4는 하나의 채팅 흐름 내에서 OCR, 캡셔닝, 객체 탐지, 음성 작업 및 혼합 미디어 프롬프트에 적합합니다.

이미지 이해

모든 Gemma 4 모델은 텍스트+이미지 워크플로우를 지원합니다.

  • 일반적인 작업: OCR, 객체 탐지, 시각적 질의응답, 이미지 캡셔닝
  • 하나의 프롬프트에서 여러 이미지에 걸친 추론을 지원합니다
  • 스크린샷, 문서, 제품 이미지 및 장면 분석에 가장 적합합니다

비디오 이해

모든 Gemma 4 모델은 비디오를 일련의 프레임으로 처리할 수 있습니다.

  • 장면 설명, 인간 상호작용 및 상황 요약에 유용합니다
  • 비디오는 메시지 배열의 콘텐츠 항목으로 전달됩니다
  • 지원되는 최대 비디오 길이는 초당 1프레임 기준 60초입니다

오디오 이해

오디오는 E2B 및 E4B 모델에서 사용할 수 있습니다.

  • 다국어 음성 인식, 음성 번역 및 일반적인 음성 이해를 지원합니다
  • 오디오 토큰 비용은 초당 25토큰입니다
  • 최대 오디오 길이는 30초입니다

시각적 토큰 예산

Gemma 4는 가변 해상도 이미지 처리를 도입하여 작업에 따라 속도 또는 세부 사항을 선택할 수 있습니다.

  • 지원되는 이미지 예산: 70, 140, 280, 560, 1120 토큰
  • 빠른 분류, 캡셔닝 및 비디오 프레임 분석을 위한 낮은 예산
  • OCR, 문서 파싱 및 작은 텍스트 읽기를 위한 높은 예산

입력 준비 규칙

프로세서가 대부분의 미디어 포맷팅을 처리하지만, 프로덕션에서는 몇 가지 제한 사항이 중요합니다.

  • 오디오는 모노, 16 kHz, float32여야 하며 [-1, 1]로 정규화되어야 합니다
  • 이미지 파일 지원 여부는 파일을 텐서로 변환하는 데 사용되는 프레임워크에 따라 다릅니다
  • 프롬프트 품질은 여전히 중요합니다: 구체적인 지침이 모호한 멀티모달 요청보다 성능이 뛰어납니다

모델 기능 구분

모바일 및 음성 중심 사용 사례에는 가장 작은 모델을 사용하고, 긴 컨텍스트를 가진 무거운 추론에는 더 큰 모델을 사용하십시오.

  • E2B 및 E4B: 128K 컨텍스트를 지원하는 오디오 지원 소형 모델
  • 26B A4B 및 31B: 256K 컨텍스트를 지원하는 추론 중심 대형 모델
  • 네 가지 공식 크기 모두 베이스 및 인스트럭션 튜닝 변체로 제공됩니다
로컬 배포

Gemma 4 GGUF 및 양자화

사용 중인 기기에 적합하면서도 가장 작은 Gemma 4 점유 공간을 선택하십시오

대부분의 로컬 설정에서 실질적인 결정은 E2B 또는 E4B를 유지할지, 아니면 26B A4B GGUF 빌드로 업그레이드할지 여부입니다. Google은 네 가지 공식 크기 전체에 대해 BF16, SFP8 및 4비트 스타일 배포 옵션에 대한 대략적인 메모리 요구 사항을 문서화했습니다.

공식 로컬 진입점

Google의 Ollama 가이드는 gemma4:e2b, gemma4:e4b, gemma4:26b, gemma4:31b의 네 가지 Gemma 4 태그를 공개합니다. LM Studio 또한 완전한 로컬 추론을 위해 GGUF 및 MLX 형식의 Gemma 모델을 지원합니다.

가벼운 로컬 루프를 위해 E2B 또는 E4B로 시작하고, RAM 예산이 충분하고 더 강력한 추론 모델을 원할 때만 26B 또는 31B로 이동하십시오.

공식 크기별 대략적인 메모리

Google은 대략적인 추론 메모리를 E2B 9.6 GB BF16 / 3.2 GB Q4_0, E4B 15 GB / 5 GB, 26B A4B 48 GB / 15.6 GB, 31B 58.3 GB / 17.4 GB로 나열합니다.

대상이 일반적인 로컬 기기라면, 4비트 스타일 배포 또는 더 작은 모델 크기가 실행 가능 여부를 결정하는 기준이 됩니다.

공식 26B A4B GGUF 예시

공식 ggml-org Gemma 4 26B A4B IT GGUF 페이지는 시작을 위해 llama-server를 권장하며 Q4_K_M 16.8 GB, Q8_0 26.9 GB, F16 50.5 GB를 나열합니다.

Q4_K_M은 대형 로컬 Gemma 4 모델을 원하지만 Q8_0 또는 전체 16비트 메모리 사용을 감당할 수 없는 경우 가장 실질적인 기본값입니다.

양자화가 변화시키는 것

파라미터 수가 많고 정밀도가 높을수록 일반적으로 더 유능하지만, 더 많은 처리 사이클, 메모리 및 전력이 소모됩니다. 낮은 정밀도는 이러한 비용을 줄여주지만 성능이 저하될 수 있습니다.

양자화를 사용하여 모델을 하드웨어에 맞추십시오. 더 작은 GGUF 빌드는 로컬 실행에 도움이 되지만, 이는 무료 업그레이드가 아닌 배포상의 절충안입니다.

Python 워크플로

Gemma 4 PyTorch 가이드

PyTorch 우선 스택에서 Gemma 4 실행하기

Gemma 4를 위한 가장 빠른 Python 경로는 PyTorch 기반의 Hugging Face Transformers를 사용하는 것입니다. torch와 transformers를 설치하고, Gemma 4 모델 ID를 선택한 후, 멀티모달 또는 도구 지원 워크플로로 넘어가기 전에 파이프라인 기반 텍스트 추론부터 시작하세요.

1

런타임 설치

Google의 Gemma 4 텍스트 추론 가이드는 대화 처리를 위한 dialog와 함께 torch, accelerate, transformers 설치로 시작합니다.

pip install torch accelerate pip install transformers pip install dialog
2

공식 Gemma 4 체크포인트 선택

Google의 Gemma 4 예제는 네 가지 공식 지시어 튜닝(instruction-tuned) ID를 보여줍니다: google/gemma-4-E2B-it, google/gemma-4-E4B-it, google/gemma-4-26B-A4B-it, google/gemma-4-31B-it.

MODEL_ID = "google/gemma-4-E2B-it"
3

텍스트 생성으로 시작하기

첫 번째 응답을 얻는 가장 빠른 방법으로 task="text-generation", device_map="auto", dtype="auto" 설정과 함께 transformers.pipeline을 사용하세요.

from transformers import pipeline txt_pipe = pipeline( task="text-generation", model=MODEL_ID, device_map="auto", dtype="auto" )
4

필요에 따라 멀티모달 및 도구 활용으로 확장

멀티모달 및 함수 호출 워크플로의 경우, 도구 인식 프롬프팅을 위해 apply_chat_template과 함께 AutoProcessor 및 AutoModelForMultimodalLM을 사용하세요.

from transformers import AutoProcessor, AutoModelForMultimodalLM model = AutoModelForMultimodalLM.from_pretrained( MODEL_ID, dtype="auto", device_map="auto") processor = AutoProcessor.from_pretrained(MODEL_ID)
5

더 세밀한 제어를 위해 네이티브 PyTorch 사용

Google의 PyTorch 가이드는 직접적인 체크포인트 제어를 통한 실험을 위해 Kaggle 자격 증명 설정, 종속성 설치, gemma_pytorch 클로닝 및 멀티모달 모델 클래스 로딩 방법을 설명합니다.

pip install -q -U torch immutabledict sentencepiece git clone https://github.com/google/gemma_pytorch.git
온디바이스 AI

Gemma 4 모바일 배포

현재 Android 스택을 통해 모바일에 Gemma 4 탑재하기

Gemma 4는 이제 세 가지 실용적인 모바일용 경로를 제공합니다: AICore 프리뷰 기기의 ML Kit Prompt API, 개발자용 Android Studio 로컬 모델 워크플로, 그리고 모바일 및 임베디드 기기 전반의 하위 수준 런타임 제어를 위한 LiteRT-LM입니다.

1

목표에 맞는 경로 선택

Android 앱 경험을 구축 중이라면 AICore의 ML Kit Prompt API를, 오프라인 코딩 지원을 원한다면 Android Studio 로컬 모델을, 하위 수준의 런타임 제어가 필요하다면 LiteRT-LM을 사용하세요.

Path by use case: - App feature prototype: ML Kit Prompt API + AICore - Local coding workflow: Android Studio local model - Custom runtime control: LiteRT-LM
2

AICore로 온디바이스 프로토타입 제작

Google의 2026년 4월 프리뷰를 통해 AICore 지원 기기의 Prompt API 흐름 내에서 모델 기본 설정 설정을 통해 Gemma 4 E2B 또는 E4B를 타겟팅할 수 있습니다.

val previewFullConfig = generationConfig { modelConfig = ModelConfig { releaseTrack = ModelReleaseTrack.PREVIEW preference = ModelPreference.FULL } }
3

기기 요구 사항 확인

프리뷰 모델은 AICore 지원 기기와 Google, MediaTek, Qualcomm의 최신 AI 가속기에서 실행됩니다. AICore 미지원 기기에서의 빠른 모델 확인을 위해 AI Edge Gallery를 사용할 수 있습니다.

Testing options: - AICore-enabled phone for preview models - AI Edge Gallery for quick model checks - High-end Android hardware (Pixel 8, Samsung S23+)
4

개발자 워크플로를 위해 Android Studio 사용

Android Studio는 현재 Gemma 4를 로컬 모델 옵션으로 권장합니다. Gemma E4B는 12GB RAM과 4GB 저장 공간이 필요하며, Gemma 26B MoE는 24GB RAM과 17GB 저장 공간이 필요합니다.

Settings > Tools > AI > Model Providers
5

더 깊은 런타임 제어를 위해 LiteRT-LM으로 전환

LiteRT-LM은 휴대폰부터 임베디드 시스템까지 언어 모델 파이프라인을 위한 크로스 플랫폼 라이브러리로, Qualcomm AI Engine Direct 및 MediaTek NeuroPilot을 포함한 CPU, GPU, NPU 경로를 지원합니다.

LiteRT-LM supports: - CPU / GPU execution - Qualcomm AI Engine Direct - MediaTek NeuroPilot
모델 비교

Gemma 4 vs Gemma 3

Gemma 3에서 Gemma 4로 전환할 때 실제로 무엇이 바뀌는지 확인하세요

이 비교는 기존 Gemma 3 워크플로를 유지할지 아니면 Gemma 4를 중심으로 재구축할지 결정하려는 개발자를 위한 것입니다. 가장 뚜렷한 차이점은 컨텍스트 길이, 제어 형식, 멀티모달 범위 및 각 제품군의 최상위 모델 벤치마크 성능에서 나타납니다.

출시 및 핵심 크기

Gemma 4
2026년 3월 31일 E2B, E4B, 26B A4B, 31B 크기로 출시되었습니다.
Gemma 3
2025년 3월 10일 1B, 4B, 12B, 27B 크기로 출시되었으며, 2025년 8월 14일에 270M이 추가되었습니다.

Gemma 4는 엣지 우선 E-모델과 더 큰 워크스테이션급 모델로 배포 계층을 더 명확하게 정리했습니다.

컨텍스트 윈도우

Gemma 4
E2B 및 E4B는 최대 128K 컨텍스트를 지원하며, 26B A4B 및 31B는 최대 256K를 지원합니다.
Gemma 3
4B, 12B, 27B는 128K 컨텍스트를 지원하며, 1B 및 270M은 32K를 지원합니다.

긴 문서, 도구 추적 또는 다단계 기록의 경우, Gemma 4의 더 큰 모델은 훨씬 더 많은 여유 공간을 제공합니다.

멀티모달리티

Gemma 4
E2B 및 E4B에서 이미지, 비디오, 텍스트-이미지 교차 구성 및 네이티브 오디오 입력을 지원합니다.
Gemma 3
핵심 모델은 텍스트 및 이미지 입력과 텍스트 출력을 지원합니다.

사용 사례가 이미지-텍스트를 넘어 비디오, OCR 중심 흐름 또는 오디오 지원 엣지 모델로 확장된다면 Gemma 4가 더 넓은 멀티모달 제품군입니다.

프롬프트 및 제어 형식

Gemma 4
네이티브 시스템 역할(system-role) 지원과 도구, 추론, 이미지 및 오디오를 위한 특수 제어 토큰이 추가되었습니다.
Gemma 3
기존 형식은 사용자/모델 턴을 사용하며, 별도의 시스템 역할은 지원되지 않습니다.

에이전트나 구조화된 워크플로를 구축하는 팀은 Gemma 4에서 더 깔끔한 제어 인터페이스를 얻을 수 있습니다.

최상위 벤치마크 스냅샷

Gemma 4
Gemma 4 31B: MMLU Pro 85.2, AIME 2026 89.2, LiveCodeBench v6 80.0, GPQA Diamond 84.3.
Gemma 3
Gemma 3 27B (추론 제외): MMLU Pro 67.6, AIME 2026 20.8, LiveCodeBench v6 29.1, GPQA Diamond 42.4.

추론, 코딩 또는 고난도 QA를 위해 업그레이드하는 경우, 최상위 Gemma 4의 성능 향상은 마이그레이션을 정당화할 만큼 큽니다.

배포 프로필

Gemma 4
효율적인 로컬 및 온디바이스 사용을 위한 E2B 및 E4B, 소비자용 GPU 또는 워크스테이션 시나리오를 위한 26B A4B 및 31B.
Gemma 3
1B 및 4B와 같은 소형 클래식 크기에서 여전히 강력하며, 주요 대형 변체에서 27B 최상위 모델과 128K 컨텍스트를 제공합니다.

소형 클래식 크기가 이미 스택에 적합하다면 Gemma 3를 유지하고, 새로운 제어 기능, 더 큰 컨텍스트의 최상위 모델 또는 더 강력한 엣지 지향 변체를 원한다면 Gemma 4로 이동하세요.