오픈 멀티모달 모델 제품군

Gemma 4 Wiki

공식 Google 에코시스템 전반에 걸친 Gemma 4 모델 크기, 벤치마크, 프롬프팅, 함수 호출, 멀티모달 입력, 로컬 배포 및 파인튜닝 정보를 확인하세요.

공식 사이트

4억 이상

총 다운로드 수

10만 이상

커뮤니티 변형 모델

140개 이상

지원 언어

256K

최대 컨텍스트

Latest Updates

Discover the newest guides, tips, and content

gemma 4 local: 오프라인 AI 설정 및 게이밍 워크플로 가이드 2026

2026년에 모드 기획, 공략 초안 작성, 코딩 보조 같은 비공개 오프라인 게이밍 작업을 위해 내 PC에서 Gemma 4를 실행하는 방법을 알아보세요.

2026년 5월 4일ollama

Mac에서 Gemma 4: 2026 완전 로컬 설치, 튜닝, 활용 가이드

2026년 Mac에서 Gemma 4를 설치, 실행, 최적화하는 방법을 실용적인 모델 선택, 성능 팁, 문제 해결 단계와 함께 알아보세요.

2026년 5월 4일install

Gemma 4 코딩: 2026 완전한 로컬 VS Code 설정 및 워크플로 가이드

Ollama와 Continue를 사용해 VS Code 내부에서 Gemma 4를 로컬 코딩용으로 실행하는 방법을 알아보세요. 2026년 기준 설정 단계, 권한 튜닝, 성능 기대치, 문제 해결까지 포함합니다.

2026년 5월 4일benchmark

Gemma 4 API 가격: 2026년 게임 개발 팀을 위한 비용 분석

게임 스튜디오를 위한 로컬 vs 호스팅 비용, 예산 공식, 배포 선택지를 포함한 실전형 2026 Gemma 4 API 가격 가이드.

2026년 5월 4일models

gemma 4 라이선스: 크리에이터, 모딩, 상업적 사용 가이드 2026

실무 중심의 컴플라이언스 체크리스트와 배포 팁을 통해 2026년에 gemma 4 라이선스가 게임 스튜디오, 모더, 콘텐츠 크리에이터에게 어떤 영향을 주는지 알아보세요.

2026년 5월 4일models

gemma 4 api: 2026 크리에이터를 위한 완전한 설정 및 최적화 가이드

2026년 게임 워크플로, AI NPC, 모드 도구, 멀티모달 파이프라인을 위해 gemma 4 api를 설정, 테스트, 최적화하는 방법을 알아보세요.

2026년 5월 4일install

gemma 4 cloud: 로컬 우선 설정 및 게이밍 워크플로우 가이드 2026

실전 설정 단계와 트레이드오프 분석을 통해 gemma 4 cloud 워크플로우를 게임 작업, 모딩 지원, 오프라인 AI 코딩에 활용하는 방법을 알아보세요.

2026년 5월 4일guide

gemma 4 cli: 로컬 AI 설정 및 게임 개발 워크플로우 가이드 2026

2026년 게임 작문, 코딩, 라이브 디자인 워크플로우를 위해 gemma 4 cli를 설치, 구성, 최적화하는 방법을 알아보세요.

2026년 5월 4일install

Gemma 4 Agent: 오프라인 AI 설정 및 게이머 워크플로우 가이드 2026

2026년에 게이밍 워크플로우, 모딩 지원, 로그 분석, 오프라인 AI 보조를 위해 Gemma 4 에이전트를 로컬에 설정하는 방법을 알아보세요.

2026년 5월 4일guide

gemma 4 파인 튜닝: 2026년 노코드 Unsloth Studio 워크플로우 튜토리얼

2026년 GPU 설정과 데이터셋 매핑부터 내보내기 및 평가까지, Unsloth Studio를 활용한 실용적인 gemma 4 파인 튜닝 워크플로우를 배워보세요.

2026년 5월 4일guide

gemma 4 function calling: 2026 모바일 게임 명령 시스템 가이드

2026년 프로덕션을 위한 gemma 4 function calling 패턴, 도구 스키마, 튜닝 워크플로, QA 단계로 온디바이스 게임 액션을 빠르게 구축하세요.

2026년 5월 4일guide

Gemma 4 로컬 Mac: 2026 실전 설정, 성능, 워크플로우 가이드

Mac에서 Gemma 4를 로컬로 실행하고, 코딩 에이전트에 연결하고, 성능을 튜닝해 2026년 기준 신뢰할 수 있는 무(無)-API 워크플로우를 구축하는 방법을 알아보세요.

2026년 5월 3일requirements

gemma 4 31b 4비트 VRAM 사용량: 실제 하드웨어 가이드 및 벤치마크 2026

로컬 AI 워크플로를 위한 메모리 계산, GPU 적합성 점검, 속도 기대치, 튜닝 팁을 포함한 gemma 4 31b 4비트 VRAM 사용량에 대한 실전 2026 가이드.

2026년 5월 3일requirements

gemma 4 31b required vram: 2026년 실전 GPU 메모리 가이드

2026년 로컬 사용 기준으로 Gemma 4 31B에 4비트, 6비트, 8비트 설정별로 실제 얼마나 많은 VRAM이 필요한지, 그리고 컨텍스트·속도·오프로딩 팁까지 확인해 보세요.

2026년 5월 3일requirements

gemma 4 a4b: 로컬 AI 설정 및 게임 워크플로우 가이드 2026

2026년 게임 프로젝트에서 gemma 4 a4b를 활용하는 방법을 알아보세요. 로컬 설정과 모델 크기 선택부터 실전 게임 내/스튜디오 워크플로우까지 다룹니다.

2026년 5월 3일models

gemma 4 코딩 성능: 2026년 게임 개발자를 위한 실전 벤치마크

2026년 게임 프로토타이핑, UI 시스템, 로컬 AI 워크플로를 위한 Gemma 4의 코딩 속도, 품질, 비용에 대한 실용 가이드.

2026년 5월 3일benchmark

Gemma 4 INT4: 크리에이터를 위한 로컬 AI 설정 및 게임 워크플로 가이드 2026

2026년 게임 워크플로를 위해 Gemma 4 INT4를 로컬에서 실행하는 방법을 알아보세요. 하드웨어 계획과 설치 단계부터 성능 튜닝, 크리에이터를 위한 실전 활용 사례까지 다룹니다.

2026년 5월 3일models

Gemma4 Transformers: 2026 로컬 설정, 튜닝 및 워크플로 가이드

개인정보 보호와 오프라인 AI 워크플로를 위해 Gemma4 Transformers를 로컬에서 실행하는 방법을 알아보세요. 설정 단계, 모델 크기 선택, 튜닝 팁, 크리에이터를 위한 실용적인 활용 사례를 포함합니다.

2026년 5월 3일install

gemma 4 벤치마크 점수: 전체 모델 비교 및 하드웨어 가이드 2026

2026년에 올바른 Gemma 4 버전을 고를 수 있도록, gemma 4 벤치마크 점수, 모델 순위, VRAM 요구량, 설정 팁을 실용적으로 정리했습니다.

2026년 5월 3일benchmark

Gemma4 9B: 크리에이터를 위한 로컬 AI 설정 및 게이밍 워크플로우 가이드 2026

하드웨어 목표, 성능 튜닝, 그리고 2026년 실전 워크플로우와 함께 Gemma4 9B를 게이밍, 모딩, 스크립팅 작업에 로컬로 실행하는 방법을 알아보세요.

2026년 5월 3일models

gemma 4 chat template: 2026 OpenCode 설정, 수정, 워크플로우 가이드

OpenCode 및 Claude Code 스타일 하네스를 포함해, 2026년 도구 호출 워크플로우를 위한 gemma 4 chat template를 설정, 디버깅, 최적화하는 방법을 알아보세요.

2026년 5월 3일models

gemma 4 31b benchmark coding: 2026 게임 개발 팀을 위한 성능 가이드

게임 스튜디오를 위한 gemma 4 31b benchmark coding의 실전 2026 가이드로, 벤치마크 맥락, 하드웨어 계획, 워크플로 설정, 코딩 작업 전략을 다룹니다.

2026년 5월 3일benchmark

Ollama MLX Gemma4: 2026년 완전한 로컬 AI 설정 및 튜닝 가이드

2026년에 게임 워크플로, 모딩 지원, 이미지 분석, 빠른 멀티모달 프롬프트를 위해 Ollama MLX Gemma4를 로컬에서 실행하는 방법을 알아보세요.

2026년 5월 3일ollama

gemma 4 비전 기능: 2026 로컬 멀티모달 워크플로우 가이드

게임 도구 및 콘텐츠 파이프라인을 위한 로컬 AI 워크플로우에서 감지, 카운팅, 장면 추론에 gemma 4 비전 기능을 활용하는 방법을 알아보세요.

2026년 5월 3일models

Gemma4 31B 요구사항: 로컬 하드웨어 및 설정 가이드 2026

VRAM, RAM, 스토리지, 컨텍스트 길이, 그리고 2026년 기준 단계별 로컬 배포 체크리스트를 포함한 Gemma4 31B 요구사항의 실전형 분석.

2026년 5월 3일requirements

gemma 4 vllm 지원: 2026 완전한 설정, 벤치마크, 문제 해결

로컬 테스트부터 프로덕션 배포까지, 게임 워크플로에서 빠르고 확장 가능한 추론을 위해 gemma 4 vllm 지원을 활성화하는 방법을 알아보세요.

2026년 5월 3일install

gemma 4 awq: 로컬 AI 설정 및 게이머 워크플로우 가이드 2026

PC와 스마트폰에서 gemma 4 awq를 로컬·프라이빗·오프라인 게임 워크플로우에 활용하는 방법을 알아보세요. 하드웨어 선택, 설정, 실전 최적화 팁까지 담았습니다.

2026년 5월 3일models

Gemma 4 31B GPU: 2026년 최고의 그래픽카드, 벤치마크, 설정 가이드

Gemma 4 31B GPU 워크로드를 위한 RTX 3090, 4090, 5090 성능을 비교해보세요. 2026년 빠른 로컬 추론을 위한 VRAM 목표치, 튜닝 설정, 실전 세팅 팁을 알아보세요.

2026년 5월 3일requirements

gemma 4 swe bench pro: 2026년 개발팀을 위한 실전 성능 가이드

SWE-bench Pro 스타일 워크플로, 로컬 코딩 에이전트, 게임 스튜디오 개발 파이프라인에서 Gemma 4를 평가하기 위한 2026년 실전 가이드입니다.

2026년 5월 3일benchmark

gemma 4 abliterated: 로컬 AI 설정, 벤치마크, 그리고 게이머 워크플로우 2026

게이머와 크리에이터를 위한 실전형 2026 Gemma 4 가이드: 모델 크기, PC/폰 로컬 설정, 성능 기대치, 그리고 스마트한 워크플로우.

2026년 5월 3일models

Gemma 4 리소스

로컬 설정부터 API 통합까지, Gemma 4를 시작하는 데 필요한 모든 것

빠른 시작

Gemma 4 튜토리얼

Gemma 4는 2026년 4월 2일에 E2B, E4B, 26B A4B, 31B의 네 가지 공식 크기로 출시되었습니다. 이 제품군은 Apache 2.0 라이선스 하에 오픈 가중치 배포를 위해 구축되었으며, 모바일 및 노트북급 하드웨어를 대상으로 하는 소형 에지 모델과 데스크톱, 워크스테이션 및 서버를 대상으로 하는 대형 모델로 구성됩니다.

네 가지 공식 Gemma 4 크기 이해하기

Gemma 4는 E2B, E4B, 26B A4B, 31B로 제공됩니다. E2B와 E4B는 텍스트, 이미지, 오디오 입력을 지원하며, 26B A4B와 31B는 텍스트 및 이미지 입력을 지원하고 더 큰 규모의 로컬 또는 서버 배포를 목표로 합니다.

하드웨어에 맞는 모델 선택하기

모바일, 에지 또는 노트북에 적합한 로컬 추론을 원할 때는 E2B 또는 E4B를 사용하세요. 더 강력한 범용 로컬 모델을 원한다면 26B A4B를 사용하고, 가장 큰 공식 Gemma 4 체크포인트를 원한다면 31B를 사용하세요.

시작 지점 선택하기

Gemma 4 26B A4B는 강력한 첫 경험을 위한 훌륭한 기본 선택지입니다. 가장 가벼운 시작을 원한다면 명령 조정(instruction-tuned) 에지 모델로 시작하고, 작업 부하에 더 많은 기능이 필요할 때 상위 모델로 이동하세요.

시도해 볼 방법 선택하기

Google AI Studio 및 Gemini API를 통해 호스팅된 Gemma 4를 사용해 보거나, 로컬 사용, 튜닝 및 맞춤형 배포를 위해 Hugging Face 또는 Kaggle에서 오픈 가중치를 다운로드하세요.

Gemma 4의 최적화 분야 파악하기

이 제품군은 추론, 코딩, 에이전트 워크플로 및 멀티모달 이해를 위해 구축되었습니다. 에지 모델은 128K 컨텍스트를 지원하며, 26B A4B 및 31B는 최대 256K 컨텍스트를 지원합니다.

Quick Tips

명령 조정(-it) 변체는 채팅 및 어시스턴트 사용 사례에 가장 적합합니다.
E2B와 E4B는 로컬 실험을 위해 하드웨어 접근성이 가장 좋은 시작점입니다.
26B A4B는 MoE 모델로, 비슷한 전체 크기의 밀집 모델보다 유효 추론 속도가 더 빠릅니다.
모든 Gemma 4 가중치는 Apache 2.0 라이선스 하에 공개됩니다.

로컬 실행

Gemma 4 Ollama 설정

Ollama는 노트북이나 워크스테이션에서 Gemma 4를 실행하는 가장 빠른 방법 중 하나입니다. 기본 Ollama 흐름은 간단합니다. Ollama를 설치하고, Gemma 4를 가져오고(pull), 모델 목록을 확인하고, 하드웨어에 맞는 태그를 선택한 다음 CLI 또는 로컬 API에서 실행하면 됩니다.

Ollama 설치 및 확인

Windows, macOS 또는 Linux용 Ollama를 다운로드하여 설치하고, ollama --version 명령어로 설정을 확인합니다.

기본 Gemma 4 변체 가져오기

ollama pull gemma4를 사용하여 기본 Gemma 4 패키지를 다운로드한 다음, ollama list를 실행하여 로컬에서 사용 가능한지 확인합니다.

올바른 모델 태그 선택하기

가장 가벼운 에지 옵션은 gemma4:e2b를, 더 강력한 에지 기본값은 gemma4:e4b를, 26B A4B MoE 워크스테이션 모델은 gemma4:26b를, 전체 대형 모델은 gemma4:31b를 사용하세요.

각 태그의 사양 파악하기

Ollama 라이브러리 페이지에서 e2b는 7.2GB 및 128K 컨텍스트, e4b는 9.6GB 및 128K, 26b는 18GB 및 256K, 31b는 20GB 및 256K로 나열되어 있습니다.

첫 번째 프롬프트 실행하기

첫 번째 텍스트 테스트를 위해 ollama run gemma4 "안녕, 넌 무엇을 할 수 있니?"를 실행하세요. Ollama는 공식 가이드에 표시된 프롬프트 형식을 통해 이미지 입력도 지원합니다.

앱 통합을 위해 로컬 API 사용하기

Ollama는 http://localhost:11434/api/generate에서 로컬 웹 서비스를 제공하므로, 별도의 모델 서버를 설정하지 않고도 CLI 테스트에서 경량 로컬 애플리케이션으로 전환할 수 있습니다.

Quick Tips

E2B와 E4B는 저사양 하드웨어에서 로컬 실험을 위한 실용적인 첫 번째 선택입니다.
26b 태그는 26B A4B MoE 모델을 대상으로 하며, 이는 비슷한 전체 크기의 밀집 모델보다 활성 연산량이 적습니다.
ollama list는 로컬에 다운로드된 모든 모델과 그 크기를 보여줍니다.
Ollama는 ollama run gemma4:e2b와 이미지 경로를 포함한 프롬프트 형식으로 이미지 입력을 지원합니다.

호스팅된 API

Gemma 4 API 가이드

Gemini API는 로컬 추론을 관리하지 않고도 빌드할 때 유용한 Gemma 4에 대한 호스팅된 액세스를 제공합니다. AI Studio 및 Gemini API의 호스팅된 Gemma 4 모델은 gemma-4-26b-a4b-it 및 gemma-4-31b-it입니다.

Google AI Studio에서 API 키 생성하기

Google AI Studio를 열고 Gemini API 키를 생성합니다. 신규 사용자는 기본 Google Cloud 프로젝트로 시작할 수 있으며, 기존 사용자는 Cloud 프로젝트를 가져와서 키를 생성할 수 있습니다.

환경 변수에 키 설정하기

Gemini SDK는 GEMINI_API_KEY 또는 GOOGLE_API_KEY를 자동으로 인식합니다. 둘 다 설정된 경우 GOOGLE_API_KEY가 우선순위를 갖습니다.

공식 SDK 설치하기

Python의 경우 google-genai를 설치하세요. JavaScript 및 TypeScript의 경우 @google/genai를 설치하세요. Google은 Go, Java, C#, Apps Script용 SDK 경로도 제공합니다.

호스팅된 Gemma 4 모델 ID 선택하기

호스팅된 Gemma 4의 경우, 더 빠른 MoE 대형 모델을 원하면 gemma-4-26b-a4b-it를, 플래그십 밀집 체크포인트를 원하면 gemma-4-31b-it를 사용하세요.

첫 번째 generateContent 요청 보내기

공식 예제에서는 모델 필드가 gemma-4-31b-it로 설정된 client.models.generate_content를 사용합니다. REST에서는 x-goog-api-key 헤더와 함께 generateContent 엔드포인트로 요청을 보냅니다.

AI Studio를 사용하여 테스트에서 코드로 전환하기

Google AI Studio를 사용하면 프롬프트, 모델 설정, 함수 호출 및 구조화된 출력을 실험한 다음, '코드 가져오기' 흐름을 통해 작동하는 코드를 내보낼 수 있습니다.

Quick Tips

AI Studio는 코드를 작성하기 전에 Gemma 4 프롬프트를 테스트하는 가장 빠른 방법입니다.
Gemini API는 채팅 및 긴 생성 사용 사례를 위해 스트리밍 응답을 지원합니다.
gemma-4-26b-a4b-it는 MoE 모델로, 일반적으로 31B보다 빠르고 비용 효율적입니다.
함수 호출 및 구조화된 출력은 두 호스팅된 Gemma 4 모델 ID 모두에서 사용할 수 있습니다.

다운로드

Gemma 4 Hugging Face 다운로드

Hugging Face의 공식 Google 컬렉션에는 E2B, E4B, 26B A4B, 31B의 8가지 핵심 Gemma 4 체크포인트가 포함되어 있으며, 각각 기본 및 명령 조정 형태로 제공됩니다. 명령 조정(-it) 저장소는 채팅, 코딩 및 어시스턴트 경험을 위한 자연스러운 시작점입니다.

명령 조정

google/gemma-4-E2B-it

텍스트, 이미지, 오디오 입력 및 128K 컨텍스트를 지원하는 에지 체크포인트입니다. 빠른 로컬 어시스턴트 및 온디바이스 멀티모달 실험에 가장 적합합니다.

명령 조정

google/gemma-4-E4B-it

텍스트, 이미지, 오디오 입력 및 128K 컨텍스트를 지원하는 더 강력한 에지 체크포인트입니다. 워크스테이션급 하드웨어로 넘어가지 않고도 E2B보다 더 뛰어난 성능을 제공합니다.

명령 조정

google/gemma-4-26B-A4B-it

256K 컨텍스트 및 텍스트-이미지 입력을 지원하는 MoE 체크포인트입니다. 비슷한 전체 크기의 밀집 모델보다 유효 추론 속도가 빠르면서 대형 모델 수준의 품질을 제공합니다.

명령 조정

google/gemma-4-31B-it

256K 컨텍스트 및 텍스트-이미지 입력을 지원하는 플래그십 밀집 Gemma 4 체크포인트입니다. 가장 강력한 채팅, 추론, 코딩 및 에이전트 워크플로에 가장 적합합니다.

사전 학습됨

google/gemma-4-E2B

가장 작은 멀티모달 Gemma 4 모델을 연구, 조정 또는 미세 조정하려는 사용자를 위한 기본 에지 체크포인트입니다.

사전 학습됨

google/gemma-4-E4B

텍스트, 이미지, 오디오 입력을 유지하면서 다운스트림 명령 동작은 자체 튜닝 파이프라인에 맡기는 기본 에지 체크포인트입니다.

사전 학습됨

google/gemma-4-26B-A4B

기본 명령 조정 동작 없이 26B A4B 아키텍처를 원하는 맞춤형 조정을 위한 기본 MoE 대형 체크포인트입니다.

사전 학습됨

google/gemma-4-31B

자체 미세 조정 또는 정렬 단계 전에 가장 큰 공식 Gemma 4 파운데이션 모델을 원하는 팀을 위한 기본 31B 밀집 체크포인트입니다.

Browse Official Gemma 4 Collection Hugging Face Blog Post

모델 비교

하드웨어에 적합한 Gemma 4 크기 선택하기

Gemma 4는 서로 다른 장단점을 가진 네 가지 크기로 제공됩니다. 가장 빠른 선택이 항상 가장 작은 모델은 아니며, 최고 품질의 선택이 항상 배포하기 가장 쉬운 것은 아닙니다.

Gemma 4는 두 개의 엣지 우선 Dense 모델, 하나의 효율적인 MoE 모델, 그리고 하나의 대형 Dense 모델로 제공됩니다. 대부분의 팀에게 실제 결정 기준은 품질뿐만 아니라 모델이 실행되는 위치(휴대폰, 노트북, 워크스테이션 또는 서버)입니다. 31B까지 가지 않고도 강력한 품질을 원할 때 실용적인 시작점은 26B A4B입니다.

Gemma 4 E2B

ArchitectureDense

Parameters2.3B 유효

Context128K 토큰

Memory (BF16/Q4)9.6 GB BF16 / 4.6 GB SFP8 / 3.2 GB Q4_0

Platform모바일 기기

오프라인 어시스턴트, 경량 멀티모달 앱, 엣지 배포

Gemma 4 E4B

ArchitectureDense

Parameters4.5B 유효

Context128K 토큰

Memory (BF16/Q4)15 GB BF16 / 7.5 GB SFP8 / 5 GB Q4_0

Platform모바일 및 노트북

더 강력한 로컬 코파일럿, 온디바이스 추론, 더 많은 여유 공간을 가진 멀티모달 앱

Gemma 4 26B A4B

ArchitectureMoE

Parameters총 25.2B, 활성 3.8B

Context256K 토큰

Memory (BF16/Q4)48 GB BF16 / 25 GB SFP8 / 15.6 GB Q4_0

Platform데스크톱 및 소형 서버

대부분의 팀을 위한 품질, 속도 및 긴 컨텍스트 작업의 최적의 균형

Gemma 4 31B

ArchitectureDense

Parameters30.7B

Context256K 토큰

Memory (BF16/Q4)58.3 GB BF16 / 30.4 GB SFP8 / 17.4 GB Q4_0

Platform대형 서버

Gemma 4 제품군 중 최고 수준의 추론, 코딩 및 멀티모달 품질

핵심 사양

빌드 전 실제로 중요한 Gemma 4 사양

대부분의 빌더에게 핵심 질문은 컨텍스트 길이, 모달리티, 언어 지원 범위, 라이선스 및 앱 수준 기능입니다. 이는 구현 선택, 호스팅 비용 및 제품 범위를 결정하는 사양입니다.

Gemma 4는 단순한 텍스트 모델 업데이트가 아닙니다. 이 제품군은 긴 컨텍스트, 멀티모달 입력, 사고 모드, 네이티브 시스템 프롬프트 및 함수 호출 지원을 하나의 오픈 가중치 라인업에 결합했습니다. 작은 모델은 오디오 입력을 추가하고, 큰 모델은 문서가 많거나 리포지토리 규모의 워크로드를 위해 컨텍스트를 256K까지 확장합니다.

출시

2026년 3월 31일

이는 현재 Gemma의 핵심 세대이며 Google이 현재 문서 및 출시 자료 전반에서 강조하는 모델입니다.

입력 및 출력

모든 모델: 텍스트 및 이미지 → 텍스트; E2B 및 E4B는 오디오 입력도 지원

모델 제품군을 바꾸지 않고도 텍스트 전용, 비전 및 경량 음성 이해 흐름을 구축할 수 있습니다.

최대 컨텍스트 윈도우

E2B 및 E4B에서 128K 토큰; 26B A4B 및 31B에서 256K 토큰

긴 문서, 긴 채팅 또는 다중 파일 코드 컨텍스트와 같은 대규모 프롬프트가 단일 요청에 들어갑니다.

언어 지원 범위

140개 이상의 언어

이는 다국어 제품, OCR 및 전 세계에 배포된 어시스턴트에게 중요합니다.

라이선스 및 가중치

오픈 가중치 및 책임 있는 상업적 사용을 지원하는 Apache 2.0 라이선스

라이선스 제약이 적은 자체 스택에서 Gemma 4를 튜닝, 배포 및 실행할 수 있습니다.

추론 및 제어

구성 가능한 사고 모드, 네이티브 시스템 역할 지원, 구조화된 JSON 출력 및 함수 호출

이러한 기능 덕분에 에이전트, 도구 사용 및 지침이 많은 애플리케이션에서 Gemma 4를 훨씬 쉽게 사용할 수 있습니다.

시각적 처리

가변 이미지 해상도 및 70, 140, 280, 560 또는 1120 토큰의 토큰 예산

OCR, UI 읽기, 차트 분석 또는 빠른 프레임 처리 작업 여부에 따라 이미지 세부 정보와 속도를 절충할 수 있습니다.

성능

공식 Gemma 4 벤치마크 스냅샷

이 점수는 추론, 코딩, 과학, 비전 및 긴 컨텍스트 검색 전반에서 각 Gemma 4 크기가 가장 강점을 보이는 부분을 보여줍니다. 이를 사용하여 모델 후보를 빠르게 선정한 다음, 해당 후보를 지연 시간 및 메모리 예산에 맞추십시오.

Gemma 4는 추론, 에이전트 워크플로, 코딩 및 멀티모달 이해를 위한 모델 제품군으로 포지셔닝되었습니다. 공식 벤치마크 표는 명확한 패턴을 보여줍니다. 31B가 앞서고, 26B A4B는 훨씬 더 효율적이면서도 놀라울 정도로 근접한 성능을 유지하며, E4B와 E2B는 소형 기기에 의미 있는 기능을 제공합니다.

벤치마크	작업 중점	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 E4B	Gemma 4 E2B
MMLU Pro	지식 및 추론	85.2%	82.6%	69.4%	60.0%
AIME 2026 (no tools)	수학적 추론	89.2%	88.3%	42.5%	37.5%
LiveCodeBench v6	경쟁 코딩	80.0%	77.1%	52.0%	44.0%
GPQA Diamond	과학적 추론	84.3%	82.3%	58.6%	43.4%
MMMU Pro	멀티모달 추론	76.9%	73.8%	52.6%	44.2%
MRCR v2 (128K, 8-needle)	긴 컨텍스트 검색	66.4%	44.1%	25.4%	19.1%

MMLU Pro

지식 및 추론

85.2%

31B

82.6%

26B A4B

69.4%

E4B

60.0%

E2B

제품군 전반의 일반적인 고수준 추론 성능을 위한 최적의 빠른 비교 지표입니다.

AIME 2026 (no tools)

수학적 추론

89.2%

31B

88.3%

26B A4B

42.5%

E4B

37.5%

E2B

31B 및 26B A4B는 수학 비중이 높은 어시스턴트 및 계획 작업에 적합한 타겟입니다.

LiveCodeBench v6

경쟁 코딩

80.0%

31B

77.1%

26B A4B

52.0%

E4B

44.0%

E2B

코딩이 주요 사용 사례인 경우, 더 큰 두 모델은 엣지 모델과는 다른 계층에 있습니다.

GPQA Diamond

과학적 추론

84.3%

31B

82.3%

26B A4B

58.6%

E4B

43.4%

E2B

기술 및 전문가용 워크플로에 대한 강력한 신호입니다.

MMMU Pro

멀티모달 추론

76.9%

31B

73.8%

26B A4B

52.6%

E4B

44.2%

E2B

정확도가 점유 공간보다 중요할 때 비전 작업은 더 큰 모델로부터 큰 이점을 얻습니다.

MRCR v2 (128K, 8-needle)

긴 컨텍스트 검색

66.4%

31B

44.1%

26B A4B

25.4%

E4B

19.1%

E2B

대규모 문서 및 리포지토리 규모의 프롬프트 작성을 위해 31B는 가장 강력한 긴 컨텍스트 선택지입니다.

커스터마이징

실제 제품 작업을 위한 Gemma 4 파인튜닝 방법

프롬프팅만으로 충분하지 않고 특정 도메인, 워크플로우 또는 역할에서 Gemma 4가 더 나은 성능을 발휘하기를 원할 때 파인튜닝이 중요합니다. 실용적인 경로는 텍스트 작업을 위한 경량 어댑터 튜닝과 이미지 및 텍스트 작업을 위한 멀티모달 어댑터 튜닝입니다.

공식 Gemma 튜닝 문서는 단순한 규칙에 집중합니다. 모호한 개선이 아닌 정의된 작업을 위해 튜닝하십시오. 많은 빌더에게 QLoRA는 전체 모델 튜닝보다 하드웨어 요구 사항을 훨씬 낮게 유지하므로 가장 현실적인 시작점입니다.

좁고 명확한 튜닝 목표로 시작하기

고객 지원, text-to-SQL 또는 제품 설명 생성과 같이 기본 모델이 더 잘 수행해야 하는 작업이나 역할을 선택하세요. 작업이 구체적이고 반복적일 때 파인튜닝을 사용하세요.

튜닝 경로 선택하기

지시 및 생성 작업에는 텍스트 튜닝을 사용하고, 데이터셋에 이미지와 텍스트가 결합된 경우 비전 튜닝을 사용하세요. 텍스트 QLoRA 가이드는 text-to-SQL을, 비전 QLoRA 가이드는 이미지와 텍스트가 포함된 제품 설명을 보여줍니다.

현실적인 프레임워크 선택하기

Gemma 4는 LoRA를 포함한 Keras, Gemma 라이브러리, Hugging Face 기반 워크플로우, GKE 및 Vertex AI를 지원합니다. 많은 개발자에게 Hugging Face와 TRL이 가장 직접적인 경로입니다.

하드웨어에 맞는 워크플로우 맞추기

공식 텍스트 QLoRA 예제는 T4 16GB 설정을 기준으로 설계되었습니다. 비전 QLoRA 가이드는 NVIDIA L4 또는 16GB 이상의 메모리를 갖춘 A100과 같은 BF16 지원 GPU가 필요합니다.

효율성이 중요할 때 QLoRA 사용하기

QLoRA는 기본 모델을 4비트로 양자화된 상태로 유지하고, 원래 가중치를 고정한 채 추가된 LoRA 어댑터만 학습시킵니다. 이는 강력한 작업 성능을 유지하면서 메모리 사용량을 줄여줍니다.

올바른 형식으로 데이터 준비하기

원하는 동작과 직접 일치하는 데이터셋을 구축한 다음, TRL 및 SFTTrainer를 사용하여 대화형 학습 형식으로 구성하세요. 공식 텍스트 가이드는 대규모 합성 text-to-SQL 데이터셋을 사용합니다.

평가, 비교 및 배포하기

학습 후 기본 모델과 추론 결과를 비교하고, 작업 성능 향상을 확인한 다음 튜닝된 모델이나 어댑터를 배포하세요. 프레임워크 선택이 출력 형식에 영향을 미치므로 배포 형식을 조기에 결정하세요.

Quick Tips

텍스트 작업에는 QLoRA와 T4급 GPU로 시작하세요. 작업 적응을 위해 전체 파인튜닝이 필요한 경우는 드뭅니다.
Gemma 4가 이미 이해하고 있는 지시 튜닝된 채팅 형식과 일치하도록 데이터셋 형식을 구성하세요.
의미 있는 개선 신호를 얻으려면 평가 세트를 학습 데이터와 동일한 분포로 유지하세요.
MoE 모델인 26B A4B는 효율적인 활성 파라미터를 갖추고 있지만, 전체 파라미터 수는 학습 중 체크포인트 크기에 여전히 영향을 미칩니다.
지시 작업의 경우 사전 학습된 베이스 모델 대신 Gemma 4 -it 체크포인트를 시작점으로 사용하세요.

프롬프팅

Gemma 4 프롬프트 가이드

Gemma 4는 네이티브 시스템 지시어, 멀티모달 플레이스홀더, 사고 및 도구 사용을 위한 내장 제어 기능이 포함된 새로운 턴 기반 프롬프트 형식을 도입합니다.

이 가이드는 공식 Gemma 4 형식을 실용적인 프롬프트 라이브러리로 변환합니다. 모든 상호작용을 턴으로 구성하고, 동작 및 전역 규칙에는 시스템 역할을 사용하며, 필요한 곳에 이미지 또는 오디오 플레이스홀더를 삽입하고, 작업에 실제로 도움이 될 때만 사고 또는 도구 사용을 활성화하세요.

핵심 채팅 골격

Gemma 4는 턴 마커로 감싸진 네이티브 시스템, 사용자 및 모델 역할을 사용합니다.

전역 지침에 시스템 사용
현재 요청에 사용자 사용
생성 시작 지점으로 모델 사용

<|turn>system You are a helpful assistant.<turn|> <|turn>user Summarize the following article in 5 bullets.<turn|> <|turn>model

시스템 프롬프트 패턴

매번 반복하는 대신 하나의 시스템 턴에 안정적인 동작 규칙을 넣으세요.

스타일, 범위 및 출력 형식에 적합
네이티브 시스템 역할 지원은 Gemma 4부터 시작됩니다
간결하고 작업에 구체적으로 유지하세요

<|turn>system You are a technical writer. Answer in clear English, use short paragraphs, and include one practical example.<turn|> <|turn>user Explain function calling for a beginner.<turn|> <|turn>model

멀티모달 플레이스홀더

이미지 및 오디오 임베딩이 삽입되어야 할 위치를 나타내기 위해 플레이스홀더 토큰을 사용하세요.

이미지에는 <|image|> 사용
오디오에는 <|audio|> 사용
프로세서는 토큰화 후 플레이스홀더를 임베딩으로 교체합니다

사고 준비 프롬프트

사고 모드는 시스템 지시어 내부에 <|think|>를 배치하여 활성화됩니다.

추론이 많이 필요한 작업에 활성화하세요
단순한 직접 생성의 경우 비활성화 상태를 유지하세요
사고와 기타 전역 지침 모두에 하나의 시스템 턴을 사용하세요

도구 인식 프롬프트 구조

도구 선언은 시스템 턴에 속하며, 도구 호출 및 도구 응답은 전용 제어 토큰으로 처리됩니다.

API, 검색, 계산기 및 외부 데이터 조회에 유용합니다
도구 사용은 일반 텍스트 흉내가 아닌 구조화된 방식입니다
추론과 도구 사용은 동일한 턴에서 발생할 수 있습니다

도구 선언 토큰 블록을 사용하여 시스템 턴에서 도구를 정의한 다음, 평소와 같이 사용자 및 모델 턴을 설정하세요. Gemma 4는 구조화된 tool_call 및 tool_response 토큰으로 나머지를 처리합니다.

추론

Gemma 4 사고 모드

사고 모드를 사용하면 Gemma 4가 최종 답변 전에 추론 채널을 생성할 수 있으며, 프로세서는 애플리케이션 사용을 위해 두 부분을 분리할 수 있습니다.

사고 모드는 모호한 질문, 수학, 코딩, 도구 계획 및 멀티모달 분석과 같이 모델이 답변하기 전에 중간 추론의 이점을 얻을 수 있는 작업에 가장 적합합니다. Gemma 4에서는 채팅 템플릿 수준에서 이를 활성화하고, 추론을 실시간으로 스트리밍한 다음, 출력을 사고 블록과 사용자용 답변 블록으로 나눌 수 있습니다.

적합한 작업 선택하기

짧은 직접 답변보다 분해, 비교, 계획 또는 신중한 해석이 필요한 요청에 사고 모드를 사용하세요.

적합한 사례: 수학, 코드 디버깅, 구조화된 의사 결정, 이미지 및 텍스트 추론
단순한 재작성, 짧은 요약 또는 간단한 사실 확인에는 덜 필요함
공식 예제는 텍스트 전용 및 이미지-텍스트 워크플로우를 모두 다룹니다

채팅 템플릿에서 사고 활성화하기

Hugging Face Transformers를 사용하는 경우 apply_chat_template()에서 enable_thinking=True로 설정하세요. 토큰 수준에서 Gemma 4는 시스템 턴에서 <|think|>를 사용합니다.

E2B 및 E4B: 사고 OFF는 단순한 사용자-모델 흐름을 사용하고, 사고 ON은 <|think|>가 포함된 시스템 턴을 추가합니다.
26B A4B 및 31B: 공식 템플릿은 출력을 안정화하기 위해 사고가 꺼져 있을 때 빈 사고 토큰을 포함합니다.
사고는 대화 수준에서 활성화되도록 설계되었습니다

결과 생성 및 분리하기

모델은 추론 채널을 먼저 내보내고 그 다음에 최종 답변을 내보낼 수 있습니다. TextStreamer로 스트리밍하고 parse_response()로 분리할 수 있습니다.

processor.parse_response()는 분리된 사고 및 답변 콘텐츠를 반환합니다
이는 텍스트 프롬프트와 이미지-텍스트 프롬프트 모두에 작동합니다
추론 채널에 도구 호출이 포함되어 턴이 에이전트 방식으로 동작할 수도 있습니다

멀티턴 채팅을 올바르게 처리하기

일반적인 멀티턴 대화의 경우, 히스토리를 다시 보내기 전에 이전 턴에서 생성된 사고를 제거하세요. 도구 호출 턴에서는 도구 사이클이 끝날 때까지 사고 흐름을 그대로 유지하세요.

일반 채팅: 다음 턴 전에 이전 사고 블록을 제거
도구 사용 예외: 동일한 턴 내의 함수 호출 사이에는 사고를 제거하지 않음
이렇게 하면 에이전트 동작을 보존하면서 컨텍스트를 깨끗하게 유지할 수 있습니다

에이전트 워크플로우

Gemma 4 함수 호출 (Function Calling)

Gemma 4는 네이티브 구조화된 도구 사용을 지원하여, 모델이 일반 텍스트로 외부 작업을 흉내 내는 대신 함수를 요청할 수 있도록 합니다.

함수 호출은 모델 출력과 실제 애플리케이션 동작 사이의 실질적인 가교 역할을 합니다. Gemma 4에게 실시간 데이터를 추측하거나 작업을 시뮬레이션하도록 요청하는 대신, 도구를 정의하고 모델이 구조화된 호출을 생성하게 한 뒤, 앱에서 함수를 실행하고 그 결과를 다시 전달하여 모델이 깔끔한 자연어 답변으로 마무리할 수 있게 합니다.

도구를 명확하게 정의하기

수동 JSON 스키마 또는 스키마로 변환된 원시 Python 함수를 사용하여 apply_chat_template()을 통해 도구를 전달합니다.

정밀한 중첩 파라미터가 필요한 경우 수동 JSON 스키마가 가장 좋습니다
명확한 타입 힌트와 독스트링이 있는 간단한 도구의 경우 원시 Python 함수가 편리합니다
도구 정의에는 이름, 설명, 파라미터 타입 및 필수 필드가 포함되어야 합니다

모델이 도구를 요청하도록 하기

Gemma 4는 사용자 프롬프트와 사용 가능한 도구를 수신하며, 도구가 필요할 때 일반 텍스트 대신 구조화된 함수 호출 객체를 반환합니다.

도구 사용은 tool, tool_call, tool_response와 같은 전용 토큰으로 제어됩니다
대표적인 예로 날씨 또는 검색 함수가 있습니다
답변이 외부 상태나 시스템 작업에 의존하는 경우 일반 텍스트보다 이 방식이 더 좋습니다

앱에서 검증 및 실행하기

Gemma 4는 스스로 코드를 실행할 수 없습니다. 애플리케이션에서 함수 이름과 인수를 파싱하고 검증한 뒤, 실제 함수를 안전하게 실행해야 합니다.

실행 전에 항상 함수 이름과 인수를 검증하십시오
안전 장치 없이 생성된 코드에 의존하지 마십시오
프로덕션 시스템의 경우, 동적 실행 대신 도구 이름을 승인된 핸들러에 매핑하십시오

최종 답변을 위해 도구 출력 반환하기

도구 결과를 채팅 기록에 다시 추가한 다음, Gemma 4가 최종 사용자 응답을 생성하도록 합니다.

공식 워크플로우: 도구 정의, 모델 턴, 개발자 턴, 최종 응답
이 패턴은 API, 실시간 조회, 계산기, 설정 업데이트 및 에이전트 루프에 적용됩니다
모델이 최종 답변을 올바르게 근거 지을 수 있도록 도구 응답은 구조화된 상태를 유지해야 합니다

멀티모달

Gemma 4 멀티모달 가이드

Gemma 4는 모든 모델에서 텍스트와 이미지를 처리하고, 비디오를 프레임 단위로 지원하며, E2B 및 E4B에서 네이티브 오디오 지원을 추가합니다.

Gemma 4는 멀티모달 입력을 위해 구축되었습니다. 모든 모델이 이미지 및 비디오 스타일의 시각적 이해를 지원하며, 소형 모델은 오디오 입력을 추가로 지원합니다. 런타임에서는 토큰 예산을 사용하여 시각적 세부 사항과 속도 사이의 균형을 맞출 수 있습니다. 이로 인해 Gemma 4는 하나의 채팅 흐름 내에서 OCR, 캡셔닝, 객체 탐지, 음성 작업 및 혼합 미디어 프롬프트에 적합합니다.

이미지 이해

모든 Gemma 4 모델은 텍스트+이미지 워크플로우를 지원합니다.

일반적인 작업: OCR, 객체 탐지, 시각적 질의응답, 이미지 캡셔닝
하나의 프롬프트에서 여러 이미지에 걸친 추론을 지원합니다
스크린샷, 문서, 제품 이미지 및 장면 분석에 가장 적합합니다

비디오 이해

모든 Gemma 4 모델은 비디오를 일련의 프레임으로 처리할 수 있습니다.

장면 설명, 인간 상호작용 및 상황 요약에 유용합니다
비디오는 메시지 배열의 콘텐츠 항목으로 전달됩니다
지원되는 최대 비디오 길이는 초당 1프레임 기준 60초입니다

오디오 이해

오디오는 E2B 및 E4B 모델에서 사용할 수 있습니다.

다국어 음성 인식, 음성 번역 및 일반적인 음성 이해를 지원합니다
오디오 토큰 비용은 초당 25토큰입니다
최대 오디오 길이는 30초입니다

시각적 토큰 예산

Gemma 4는 가변 해상도 이미지 처리를 도입하여 작업에 따라 속도 또는 세부 사항을 선택할 수 있습니다.

지원되는 이미지 예산: 70, 140, 280, 560, 1120 토큰
빠른 분류, 캡셔닝 및 비디오 프레임 분석을 위한 낮은 예산
OCR, 문서 파싱 및 작은 텍스트 읽기를 위한 높은 예산

입력 준비 규칙

프로세서가 대부분의 미디어 포맷팅을 처리하지만, 프로덕션에서는 몇 가지 제한 사항이 중요합니다.

오디오는 모노, 16 kHz, float32여야 하며 [-1, 1]로 정규화되어야 합니다
이미지 파일 지원 여부는 파일을 텐서로 변환하는 데 사용되는 프레임워크에 따라 다릅니다
프롬프트 품질은 여전히 중요합니다: 구체적인 지침이 모호한 멀티모달 요청보다 성능이 뛰어납니다

모델 기능 구분

모바일 및 음성 중심 사용 사례에는 가장 작은 모델을 사용하고, 긴 컨텍스트를 가진 무거운 추론에는 더 큰 모델을 사용하십시오.

E2B 및 E4B: 128K 컨텍스트를 지원하는 오디오 지원 소형 모델
26B A4B 및 31B: 256K 컨텍스트를 지원하는 추론 중심 대형 모델
네 가지 공식 크기 모두 베이스 및 인스트럭션 튜닝 변체로 제공됩니다

로컬 배포

Gemma 4 GGUF 및 양자화

사용 중인 기기에 적합하면서도 가장 작은 Gemma 4 점유 공간을 선택하십시오

대부분의 로컬 설정에서 실질적인 결정은 E2B 또는 E4B를 유지할지, 아니면 26B A4B GGUF 빌드로 업그레이드할지 여부입니다. Google은 네 가지 공식 크기 전체에 대해 BF16, SFP8 및 4비트 스타일 배포 옵션에 대한 대략적인 메모리 요구 사항을 문서화했습니다.

공식 로컬 진입점

Google의 Ollama 가이드는 gemma4:e2b, gemma4:e4b, gemma4:26b, gemma4:31b의 네 가지 Gemma 4 태그를 공개합니다. LM Studio 또한 완전한 로컬 추론을 위해 GGUF 및 MLX 형식의 Gemma 모델을 지원합니다.

가벼운 로컬 루프를 위해 E2B 또는 E4B로 시작하고, RAM 예산이 충분하고 더 강력한 추론 모델을 원할 때만 26B 또는 31B로 이동하십시오.

공식 크기별 대략적인 메모리

Google은 대략적인 추론 메모리를 E2B 9.6 GB BF16 / 3.2 GB Q4_0, E4B 15 GB / 5 GB, 26B A4B 48 GB / 15.6 GB, 31B 58.3 GB / 17.4 GB로 나열합니다.

대상이 일반적인 로컬 기기라면, 4비트 스타일 배포 또는 더 작은 모델 크기가 실행 가능 여부를 결정하는 기준이 됩니다.

공식 26B A4B GGUF 예시

공식 ggml-org Gemma 4 26B A4B IT GGUF 페이지는 시작을 위해 llama-server를 권장하며 Q4_K_M 16.8 GB, Q8_0 26.9 GB, F16 50.5 GB를 나열합니다.

Q4_K_M은 대형 로컬 Gemma 4 모델을 원하지만 Q8_0 또는 전체 16비트 메모리 사용을 감당할 수 없는 경우 가장 실질적인 기본값입니다.

양자화가 변화시키는 것

파라미터 수가 많고 정밀도가 높을수록 일반적으로 더 유능하지만, 더 많은 처리 사이클, 메모리 및 전력이 소모됩니다. 낮은 정밀도는 이러한 비용을 줄여주지만 성능이 저하될 수 있습니다.

양자화를 사용하여 모델을 하드웨어에 맞추십시오. 더 작은 GGUF 빌드는 로컬 실행에 도움이 되지만, 이는 무료 업그레이드가 아닌 배포상의 절충안입니다.

Python 워크플로

Gemma 4 PyTorch 가이드

PyTorch 우선 스택에서 Gemma 4 실행하기

Gemma 4를 위한 가장 빠른 Python 경로는 PyTorch 기반의 Hugging Face Transformers를 사용하는 것입니다. torch와 transformers를 설치하고, Gemma 4 모델 ID를 선택한 후, 멀티모달 또는 도구 지원 워크플로로 넘어가기 전에 파이프라인 기반 텍스트 추론부터 시작하세요.

런타임 설치

Google의 Gemma 4 텍스트 추론 가이드는 대화 처리를 위한 dialog와 함께 torch, accelerate, transformers 설치로 시작합니다.

pip install torch accelerate pip install transformers pip install dialog

공식 Gemma 4 체크포인트 선택

Google의 Gemma 4 예제는 네 가지 공식 지시어 튜닝(instruction-tuned) ID를 보여줍니다: google/gemma-4-E2B-it, google/gemma-4-E4B-it, google/gemma-4-26B-A4B-it, google/gemma-4-31B-it.

MODEL_ID = "google/gemma-4-E2B-it"

텍스트 생성으로 시작하기

첫 번째 응답을 얻는 가장 빠른 방법으로 task="text-generation", device_map="auto", dtype="auto" 설정과 함께 transformers.pipeline을 사용하세요.

from transformers import pipeline txt_pipe = pipeline( task="text-generation", model=MODEL_ID, device_map="auto", dtype="auto" )

필요에 따라 멀티모달 및 도구 활용으로 확장

멀티모달 및 함수 호출 워크플로의 경우, 도구 인식 프롬프팅을 위해 apply_chat_template과 함께 AutoProcessor 및 AutoModelForMultimodalLM을 사용하세요.

from transformers import AutoProcessor, AutoModelForMultimodalLM model = AutoModelForMultimodalLM.from_pretrained( MODEL_ID, dtype="auto", device_map="auto") processor = AutoProcessor.from_pretrained(MODEL_ID)

더 세밀한 제어를 위해 네이티브 PyTorch 사용

Google의 PyTorch 가이드는 직접적인 체크포인트 제어를 통한 실험을 위해 Kaggle 자격 증명 설정, 종속성 설치, gemma_pytorch 클로닝 및 멀티모달 모델 클래스 로딩 방법을 설명합니다.

pip install -q -U torch immutabledict sentencepiece git clone https://github.com/google/gemma_pytorch.git

온디바이스 AI

Gemma 4 모바일 배포

현재 Android 스택을 통해 모바일에 Gemma 4 탑재하기

Gemma 4는 이제 세 가지 실용적인 모바일용 경로를 제공합니다: AICore 프리뷰 기기의 ML Kit Prompt API, 개발자용 Android Studio 로컬 모델 워크플로, 그리고 모바일 및 임베디드 기기 전반의 하위 수준 런타임 제어를 위한 LiteRT-LM입니다.

목표에 맞는 경로 선택

Android 앱 경험을 구축 중이라면 AICore의 ML Kit Prompt API를, 오프라인 코딩 지원을 원한다면 Android Studio 로컬 모델을, 하위 수준의 런타임 제어가 필요하다면 LiteRT-LM을 사용하세요.

Path by use case: - App feature prototype: ML Kit Prompt API + AICore - Local coding workflow: Android Studio local model - Custom runtime control: LiteRT-LM

AICore로 온디바이스 프로토타입 제작

Google의 2026년 4월 프리뷰를 통해 AICore 지원 기기의 Prompt API 흐름 내에서 모델 기본 설정 설정을 통해 Gemma 4 E2B 또는 E4B를 타겟팅할 수 있습니다.

val previewFullConfig = generationConfig { modelConfig = ModelConfig { releaseTrack = ModelReleaseTrack.PREVIEW preference = ModelPreference.FULL } }

기기 요구 사항 확인

프리뷰 모델은 AICore 지원 기기와 Google, MediaTek, Qualcomm의 최신 AI 가속기에서 실행됩니다. AICore 미지원 기기에서의 빠른 모델 확인을 위해 AI Edge Gallery를 사용할 수 있습니다.

Testing options: - AICore-enabled phone for preview models - AI Edge Gallery for quick model checks - High-end Android hardware (Pixel 8, Samsung S23+)

개발자 워크플로를 위해 Android Studio 사용

Android Studio는 현재 Gemma 4를 로컬 모델 옵션으로 권장합니다. Gemma E4B는 12GB RAM과 4GB 저장 공간이 필요하며, Gemma 26B MoE는 24GB RAM과 17GB 저장 공간이 필요합니다.

Settings > Tools > AI > Model Providers

더 깊은 런타임 제어를 위해 LiteRT-LM으로 전환

LiteRT-LM은 휴대폰부터 임베디드 시스템까지 언어 모델 파이프라인을 위한 크로스 플랫폼 라이브러리로, Qualcomm AI Engine Direct 및 MediaTek NeuroPilot을 포함한 CPU, GPU, NPU 경로를 지원합니다.

LiteRT-LM supports: - CPU / GPU execution - Qualcomm AI Engine Direct - MediaTek NeuroPilot

모델 비교

Gemma 4 vs Gemma 3

Gemma 3에서 Gemma 4로 전환할 때 실제로 무엇이 바뀌는지 확인하세요

이 비교는 기존 Gemma 3 워크플로를 유지할지 아니면 Gemma 4를 중심으로 재구축할지 결정하려는 개발자를 위한 것입니다. 가장 뚜렷한 차이점은 컨텍스트 길이, 제어 형식, 멀티모달 범위 및 각 제품군의 최상위 모델 벤치마크 성능에서 나타납니다.

차원	Gemma 4	Gemma 3	중요한 이유
출시 및 핵심 크기	2026년 3월 31일 E2B, E4B, 26B A4B, 31B 크기로 출시되었습니다.	2025년 3월 10일 1B, 4B, 12B, 27B 크기로 출시되었으며, 2025년 8월 14일에 270M이 추가되었습니다.	Gemma 4는 엣지 우선 E-모델과 더 큰 워크스테이션급 모델로 배포 계층을 더 명확하게 정리했습니다.
컨텍스트 윈도우	E2B 및 E4B는 최대 128K 컨텍스트를 지원하며, 26B A4B 및 31B는 최대 256K를 지원합니다.	4B, 12B, 27B는 128K 컨텍스트를 지원하며, 1B 및 270M은 32K를 지원합니다.	긴 문서, 도구 추적 또는 다단계 기록의 경우, Gemma 4의 더 큰 모델은 훨씬 더 많은 여유 공간을 제공합니다.
멀티모달리티	E2B 및 E4B에서 이미지, 비디오, 텍스트-이미지 교차 구성 및 네이티브 오디오 입력을 지원합니다.	핵심 모델은 텍스트 및 이미지 입력과 텍스트 출력을 지원합니다.	사용 사례가 이미지-텍스트를 넘어 비디오, OCR 중심 흐름 또는 오디오 지원 엣지 모델로 확장된다면 Gemma 4가 더 넓은 멀티모달 제품군입니다.
프롬프트 및 제어 형식	네이티브 시스템 역할(system-role) 지원과 도구, 추론, 이미지 및 오디오를 위한 특수 제어 토큰이 추가되었습니다.	기존 형식은 사용자/모델 턴을 사용하며, 별도의 시스템 역할은 지원되지 않습니다.	에이전트나 구조화된 워크플로를 구축하는 팀은 Gemma 4에서 더 깔끔한 제어 인터페이스를 얻을 수 있습니다.
최상위 벤치마크 스냅샷	Gemma 4 31B: MMLU Pro 85.2, AIME 2026 89.2, LiveCodeBench v6 80.0, GPQA Diamond 84.3.	Gemma 3 27B (추론 제외): MMLU Pro 67.6, AIME 2026 20.8, LiveCodeBench v6 29.1, GPQA Diamond 42.4.	추론, 코딩 또는 고난도 QA를 위해 업그레이드하는 경우, 최상위 Gemma 4의 성능 향상은 마이그레이션을 정당화할 만큼 큽니다.
배포 프로필	효율적인 로컬 및 온디바이스 사용을 위한 E2B 및 E4B, 소비자용 GPU 또는 워크스테이션 시나리오를 위한 26B A4B 및 31B.	1B 및 4B와 같은 소형 클래식 크기에서 여전히 강력하며, 주요 대형 변체에서 27B 최상위 모델과 128K 컨텍스트를 제공합니다.	소형 클래식 크기가 이미 스택에 적합하다면 Gemma 3를 유지하고, 새로운 제어 기능, 더 큰 컨텍스트의 최상위 모델 또는 더 강력한 엣지 지향 변체를 원한다면 Gemma 4로 이동하세요.

출시 및 핵심 크기

Gemma 4

2026년 3월 31일 E2B, E4B, 26B A4B, 31B 크기로 출시되었습니다.

Gemma 3

2025년 3월 10일 1B, 4B, 12B, 27B 크기로 출시되었으며, 2025년 8월 14일에 270M이 추가되었습니다.

Gemma 4는 엣지 우선 E-모델과 더 큰 워크스테이션급 모델로 배포 계층을 더 명확하게 정리했습니다.

컨텍스트 윈도우

Gemma 4

E2B 및 E4B는 최대 128K 컨텍스트를 지원하며, 26B A4B 및 31B는 최대 256K를 지원합니다.

Gemma 3

4B, 12B, 27B는 128K 컨텍스트를 지원하며, 1B 및 270M은 32K를 지원합니다.

긴 문서, 도구 추적 또는 다단계 기록의 경우, Gemma 4의 더 큰 모델은 훨씬 더 많은 여유 공간을 제공합니다.

멀티모달리티

Gemma 4

E2B 및 E4B에서 이미지, 비디오, 텍스트-이미지 교차 구성 및 네이티브 오디오 입력을 지원합니다.

Gemma 3

핵심 모델은 텍스트 및 이미지 입력과 텍스트 출력을 지원합니다.

사용 사례가 이미지-텍스트를 넘어 비디오, OCR 중심 흐름 또는 오디오 지원 엣지 모델로 확장된다면 Gemma 4가 더 넓은 멀티모달 제품군입니다.

프롬프트 및 제어 형식

Gemma 4

네이티브 시스템 역할(system-role) 지원과 도구, 추론, 이미지 및 오디오를 위한 특수 제어 토큰이 추가되었습니다.

Gemma 3

기존 형식은 사용자/모델 턴을 사용하며, 별도의 시스템 역할은 지원되지 않습니다.

에이전트나 구조화된 워크플로를 구축하는 팀은 Gemma 4에서 더 깔끔한 제어 인터페이스를 얻을 수 있습니다.

최상위 벤치마크 스냅샷

Gemma 4

Gemma 4 31B: MMLU Pro 85.2, AIME 2026 89.2, LiveCodeBench v6 80.0, GPQA Diamond 84.3.

Gemma 3

Gemma 3 27B (추론 제외): MMLU Pro 67.6, AIME 2026 20.8, LiveCodeBench v6 29.1, GPQA Diamond 42.4.

추론, 코딩 또는 고난도 QA를 위해 업그레이드하는 경우, 최상위 Gemma 4의 성능 향상은 마이그레이션을 정당화할 만큼 큽니다.

배포 프로필

Gemma 4

효율적인 로컬 및 온디바이스 사용을 위한 E2B 및 E4B, 소비자용 GPU 또는 워크스테이션 시나리오를 위한 26B A4B 및 31B.

Gemma 3

1B 및 4B와 같은 소형 클래식 크기에서 여전히 강력하며, 주요 대형 변체에서 27B 최상위 모델과 128K 컨텍스트를 제공합니다.

소형 클래식 크기가 이미 스택에 적합하다면 Gemma 3를 유지하고, 새로운 제어 기능, 더 큰 컨텍스트의 최상위 모델 또는 더 강력한 엣지 지향 변체를 원한다면 Gemma 4로 이동하세요.

자주 묻는 질문

Gemma 4에 대해 알아야 할 모든 것

Gemma 4는 2026년 4월 2일에 출시된 Google DeepMind의 최신 오픈 모델 제품군입니다. E2B, E4B, 26B A4B, 31B의 네 가지 크기로 제공되며, Apache 2.0 라이선스 하에 텍스트, 이미지, 오디오 입력을 지원하고 최대 256K 컨텍스트를 제공합니다.

Gemma 4는 네 가지 크기로 제공됩니다: E2B(엣지용, 약 20억 파라미터), E4B(엣지용, 약 40억 파라미터), 26B A4B(MoE, 총 260억/활성 40억 파라미터), 31B(Dense). E2B와 E4B는 오디오 입력을 지원하며 모바일 및 노트북 하드웨어를 대상으로 하고, 26B A4B와 31B는 워크스테이션 및 서버를 대상으로 합니다.

가장 일반적인 방법은 Ollama를 사용하는 것입니다. Ollama를 설치하고 기본 버전을 위해 ollama pull gemma4를 실행한 다음, ollama run gemma4를 사용하여 채팅을 시작하세요. 더 가벼운 옵션을 원하시면 gemma4:e2b 또는 gemma4:e4b를 시도해 보세요. LM Studio는 GUI 기반 로컬 설정을 위한 또 다른 인기 있는 선택지입니다.

Gemma 4 E2B와 E4B는 128K 컨텍스트 창을 지원합니다. Gemma 4 26B A4B와 31B는 최대 256K 컨텍스트를 지원하여 긴 문서, 확장된 대화 및 대규모 코드베이스 분석에 적합합니다.

Gemma 4 26B A4B는 총 260억 개의 파라미터를 가졌지만 토큰당 약 40억 개만 활성화되는 MoE 모델입니다. 이는 31B Dense 모델에 비해 추론 속도가 빠르고 메모리 사용량이 적으면서도 벤치마크에서 강력한 성능을 발휘함을 의미합니다.

네, 가능합니다. Gemma 4는 Gemini API 및 Google AI Studio를 통해 gemma-4-26b-a4b-it 및 gemma-4-31b-it로 제공됩니다. AI Studio에서 API 키를 생성하고 google-genai SDK를 설치하면 로컬 모델 관리 없이 요청을 보낼 수 있습니다.

Gemma 4를 탐험할 준비가 되셨나요?

Discord의 Google 개발자 커뮤니티에 참여하여 Gemma 가이드, 모델 업데이트 및 개발자 토론을 확인하세요!

Discord 참여하기 공식 사이트

Gemma 4 Wiki

Latest Updates

Gemma 4 리소스

Gemma 4 튜토리얼

Gemma 4 Ollama 설정

Gemma 4 API 가이드

Gemma 4 Hugging Face

Gemma 4 모델 크기

Gemma 4 사양

Gemma 4 벤치마크

Gemma 4 파인튜닝

Gemma 4 프롬프트 가이드

Gemma 4 추론 모드

Gemma 4 함수 호출

Gemma 4 멀티모달 가이드

Gemma 4 GGUF 및 양자화

Gemma 4 PyTorch 가이드

Gemma 4 모바일 배포

Gemma 4 vs Gemma 3

Gemma 4 튜토리얼

네 가지 공식 Gemma 4 크기 이해하기

하드웨어에 맞는 모델 선택하기

시작 지점 선택하기

시도해 볼 방법 선택하기

Gemma 4의 최적화 분야 파악하기

Quick Tips

Gemma 4 Ollama 설정

Ollama 설치 및 확인

기본 Gemma 4 변체 가져오기

올바른 모델 태그 선택하기

각 태그의 사양 파악하기

첫 번째 프롬프트 실행하기

앱 통합을 위해 로컬 API 사용하기

Quick Tips

Gemma 4 API 가이드

Google AI Studio에서 API 키 생성하기

환경 변수에 키 설정하기

공식 SDK 설치하기

호스팅된 Gemma 4 모델 ID 선택하기

첫 번째 generateContent 요청 보내기

AI Studio를 사용하여 테스트에서 코드로 전환하기

Quick Tips

Gemma 4 Hugging Face 다운로드

google/gemma-4-E2B-it

google/gemma-4-E4B-it

google/gemma-4-26B-A4B-it

google/gemma-4-31B-it

google/gemma-4-E2B

google/gemma-4-E4B

google/gemma-4-26B-A4B

google/gemma-4-31B

하드웨어에 적합한 Gemma 4 크기 선택하기

Gemma 4 E2B

Gemma 4 E4B

Gemma 4 26B A4B

Gemma 4 31B

빌드 전 실제로 중요한 Gemma 4 사양

공식 Gemma 4 벤치마크 스냅샷

MMLU Pro

AIME 2026 (no tools)

LiveCodeBench v6

GPQA Diamond

MMMU Pro

MRCR v2 (128K, 8-needle)

실제 제품 작업을 위한 Gemma 4 파인튜닝 방법

좁고 명확한 튜닝 목표로 시작하기

튜닝 경로 선택하기

현실적인 프레임워크 선택하기

하드웨어에 맞는 워크플로우 맞추기

효율성이 중요할 때 QLoRA 사용하기

올바른 형식으로 데이터 준비하기

평가, 비교 및 배포하기

Quick Tips

Gemma 4 프롬프트 가이드

핵심 채팅 골격

시스템 프롬프트 패턴

멀티모달 플레이스홀더

사고 준비 프롬프트

도구 인식 프롬프트 구조

Gemma 4 사고 모드