Familia de Modelos Multimodales Abiertos

Gemma 4 Wiki

Sigue los tamaños de modelos de Gemma 4, benchmarks, prompting, llamada a funciones, entrada multimodal, despliegue local y ajuste fino en el ecosistema oficial de Google.

Sitio oficial
What's new in Gemma 4

Latest Updates

Discover the newest guides, tips, and content

gemma 4 cli: Guía 2026 de configuración local de IA y flujo de trabajo para desarrollo de juegos

Aprende a instalar, configurar y optimizar gemma 4 cli para escritura de juegos, programación y flujos de diseño en vivo en 2026.

4 may 2026install
Read more →
gemma 4 cloud: Guía 2026 de configuración local-first y flujo de trabajo para gaming

Aprende a usar flujos de trabajo de gemma 4 cloud para tareas de gaming, ayuda con modding y programación de IA offline con pasos prácticos de configuración y análisis de compensaciones.

4 may 2026guide
Read more →
Gemma 4 en Mac: Guía completa de configuración local, ajuste y uso 2026

Aprende a instalar, ejecutar y optimizar Gemma 4 en Mac en 2026 con selecciones de modelo prácticas, consejos de rendimiento y pasos de solución de problemas.

4 may 2026install
Read more →
gemma 4 api: Guía completa de configuración y optimización para creadores 2026

Aprende a configurar, probar y optimizar gemma 4 api para flujos de trabajo de juegos, NPC de IA, herramientas de mods y pipelines multimodales en 2026.

4 may 2026install
Read more →
Agente Gemma 4: Guía de configuración de IA offline y flujo de trabajo para gamers 2026

Aprende a configurar un agente Gemma 4 en local para flujos de trabajo gaming, soporte para modding, análisis de logs y asistencia de IA offline en 2026.

4 may 2026guide
Read more →
Precios de la API de Gemma 4: Desglose de costos para equipos de desarrollo de juegos en 2026

Una guía práctica de 2026 sobre los precios de la API de Gemma 4, que incluye costos locales vs alojados, fórmulas de presupuesto y opciones de implementación para estudios de videojuegos.

4 may 2026models
Read more →
gemma 4 fine tune: Tutorial de flujo de trabajo sin código con Unsloth Studio 2026

Aprende un flujo de trabajo práctico de gemma 4 fine tune con Unsloth Studio, desde la configuración de GPU y el mapeo del dataset hasta la exportación y la evaluación en 2026.

4 may 2026guide
Read more →
gemma 4 local: Guía de configuración de IA sin conexión y flujo de trabajo gaming 2026

Aprende a ejecutar Gemma 4 en tu propio PC para tareas privadas de gaming sin conexión, como planificación de mods, redacción de guías paso a paso y ayuda con código en 2026.

4 may 2026ollama
Read more →
gemma 4 function calling: Guía de sistemas de comandos para juegos móviles 2026

Crea rápidamente acciones de juego en el dispositivo con patrones de gemma 4 function calling, esquemas de herramientas, flujos de ajuste y pasos de QA para producción en 2026.

4 may 2026guide
Read more →
Gemma 4 Coding: Guía Completa de Configuración Local en VS Code y Flujo de Trabajo 2026

Aprende a ejecutar Gemma 4 localmente para programar dentro de VS Code con Ollama y Continue. Incluye pasos de configuración, ajuste de permisos, expectativas de rendimiento y solución de problemas para 2026.

4 may 2026benchmark
Read more →
gemma 4 license: Guía 2026 para creadores, modding y uso comercial

Aprende cómo la gemma 4 license afecta a estudios de videojuegos, modders y creadores de contenido en 2026, con listas de verificación prácticas de cumplimiento y consejos de despliegue.

4 may 2026models
Read more →
gemma 4 26b mlx apple silicon: Configuración, benchmarks y guía para Mac 2026

Aprende a ejecutar Gemma 4 26B con MLX en Macs con Apple Silicon, incluyendo pasos de instalación, ajuste de rendimiento, planificación de VRAM y flujos de trabajo prácticos para creadores en 2026.

3 may 2026install
Read more →
Cuantización de Gemma4: guía de mejores ajustes de rendimiento y calidad 2026

Aprende a ajustar la cuantización de Gemma4 para lograr flujos de trabajo más favorables para FPS, menor uso de VRAM y una sólida calidad de salida en PCs gaming de uso diario en 2026.

3 may 2026models
Read more →
Llamadas a herramientas de Gemma4 con Ollama: Guía práctica de configuración, prompts y flujo de trabajo 2026

Aprende a implementar flujos de llamadas a herramientas de Gemma4 con Ollama con selección de modelos, esquemas de funciones, patrones de prompts, pasos de depuración y ajuste de rendimiento para apps de IA locales.

3 may 2026ollama
Read more →
Gemma 4 31B GPU: Mejores tarjetas, benchmarks y guía de configuración 2026

Compara el rendimiento de RTX 3090, 4090 y 5090 para cargas de trabajo de Gemma 4 31B GPU. Aprende objetivos de VRAM, ajustes de optimización y consejos prácticos de configuración para una inferencia local rápida en 2026.

3 may 2026requirements
Read more →
gemma 4 26b gguf: Guía de prototipos de juegos locales y benchmarks 2026

Aprende a ejecutar Gemma 4 26B GGUF de forma local para prototipado de juegos, comparar cuantizaciones, ajustar el rendimiento y crear mejores demos de juegos en navegador en 2026.

3 may 2026models
Read more →
gemma 4 chat template: Configuración de OpenCode, correcciones y guía de flujo de trabajo 2026

Aprende a configurar, depurar y optimizar la gemma 4 chat template para flujos de trabajo de llamadas a herramientas en 2026, incluidos harnesses de estilo OpenCode y Claude Code.

3 may 2026models
Read more →
capacidades de visión de gemma 4: Guía de Flujo de Trabajo Multimodal Local 2026

Aprende a usar las capacidades de visión de gemma 4 para detección, conteo y razonamiento de escenas en flujos de trabajo de IA local para herramientas de gaming y pipelines de contenido.

3 may 2026models
Read more →
gemma 4 31b benchmark coding: Guía de rendimiento para equipos de desarrollo de juegos 2026

Una guía práctica de 2026 sobre gemma 4 31b benchmark coding para estudios de videojuegos, con contexto de benchmarks, planificación de hardware, configuración de flujos de trabajo y estrategias para tareas de programación.

3 may 2026benchmark
Read more →
Gemma 4 Bartowski: La mejor configuración de IA local para flujos de trabajo gaming en 2026

Aprende a usar modelos locales estilo Gemma 4 Bartowski para tareas de gaming, desde planificación de misiones hasta traducción, prototipado de diálogos de NPC y ajuste de rendimiento en 2026.

3 may 2026models
Read more →
rendimiento de codificación de gemma 4: Benchmarks prácticos para desarrolladores de juegos en 2026

Una guía práctica sobre la velocidad, calidad y costo de codificación de Gemma 4 para prototipado de juegos, sistemas de UI y flujos de trabajo de IA local en 2026.

3 may 2026benchmark
Read more →
gemma 4 a4b: Guía de Configuración de IA Local y Flujo de Trabajo para Gaming 2026

Aprende a usar gemma 4 a4b para proyectos de gaming, desde la configuración local y el tamaño del modelo hasta flujos de trabajo prácticos en juego y en estudio en 2026.

3 may 2026models
Read more →
Audio de Gemma 4: Configuración práctica, límites y flujos de trabajo gaming 2026

Aprende qué incluye el soporte de audio de Gemma 4, qué no incluye y cómo construir un flujo de voz fiable para mods de juegos, herramientas de NPC y pipelines de creadores en 2026.

3 may 2026guide
Read more →
gemma 4 31b 4-bit vram usage: Guía de hardware real y benchmarks 2026

Una guía práctica de 2026 sobre gemma 4 31b 4-bit vram usage, que incluye cálculos de memoria, comprobaciones de ajuste en GPU, expectativas de velocidad y consejos de ajuste para flujos de trabajo de IA local.

3 may 2026requirements
Read more →
Ollama MLX Gemma4: Guía completa de configuración y ajuste local de IA 2026

Aprende a ejecutar Ollama MLX Gemma4 localmente para flujos de trabajo de gaming, soporte para modding, análisis de imágenes y prompts multimodales rápidos en 2026.

3 may 2026ollama
Read more →
gemma 4 awq: Guía de configuración local de IA y flujo de trabajo para gamers 2026

Aprende a usar gemma 4 awq para flujos de trabajo gaming locales, privados y sin conexión en PC y teléfono, incluyendo selección de hardware, ajustes y consejos prácticos de optimización.

3 may 2026models
Read more →
gemma 4 vllm support: Configuración completa, benchmarks y soluciones 2026

Aprende cómo habilitar gemma 4 vllm support para una inferencia rápida y escalable en flujos de trabajo de gaming, desde pruebas locales hasta despliegue en producción.

3 may 2026install
Read more →
Requisitos de Gemma4 31B: Guía de hardware local y configuración 2026

Un desglose práctico de los requisitos de Gemma4 31B, incluyendo VRAM, RAM, almacenamiento, longitud de contexto y una lista de verificación paso a paso para despliegue local en 2026.

3 may 2026requirements
Read more →
gemma 4 benchmark scores: Comparación completa de modelos y guía de hardware 2026

Un desglose práctico de gemma 4 benchmark scores, clasificaciones de modelos, necesidades de VRAM y consejos de configuración para elegir la versión correcta de Gemma 4 en 2026.

3 may 2026benchmark
Read more →
Benchmark SWE de Gemma 4: selección de modelos, rendimiento y guía de configuración 2026

Una guía práctica de 2026 para el benchmark SWE de Gemma 4, que incluye niveles de modelos, objetivos de hardware, rendimiento en programación y consejos de configuración local.

3 may 2026benchmark
Read more →

Gemma 4 Recursos

Todo lo que necesitas para empezar con Gemma 4 — desde la configuración local hasta la integración de API

Inicio rápido

Tutorial de Gemma 4

Gemma 4 se lanzó el 2 de abril de 2026 en cuatro tamaños oficiales: E2B, E4B, 26B A4B y 31B. La familia está diseñada para el despliegue de pesos abiertos bajo Apache 2.0, con modelos de borde más pequeños dirigidos a hardware de clase móvil y portátil, y modelos más grandes dirigidos a computadoras de escritorio, estaciones de trabajo y servidores.

1

Comprende los cuatro tamaños oficiales de Gemma 4

Gemma 4 viene en E2B, E4B, 26B A4B y 31B. E2B y E4B aceptan entrada de texto, imagen y audio; 26B A4B y 31B aceptan entrada de texto e imagen y están dirigidos a despliegues locales o de servidor más grandes.

2

Adapta el modelo a tu hardware

Usa E2B o E4B cuando desees una inferencia local compatible con dispositivos móviles, de borde o portátiles. Usa 26B A4B para un modelo local de propósito general más potente, y 31B cuando desees el punto de control oficial más grande de Gemma 4.

3

Elige un punto de partida

Gemma 4 26B A4B es una opción predeterminada sólida para primeras experiencias potentes. Si deseas el punto de partida más ligero, comienza con un modelo de borde ajustado por instrucciones y sube de nivel cuando tu carga de trabajo necesite más capacidad.

4

Elige cómo quieres probarlo

Prueba Gemma 4 alojado a través de Google AI Studio y la Gemini API, o descarga los pesos abiertos de Hugging Face o Kaggle para uso local, ajuste y despliegue personalizado.

5

Conoce para qué está optimizado Gemma 4

La familia está diseñada para el razonamiento, la programación, flujos de trabajo agénticos y comprensión multimodal. Los modelos de borde admiten un contexto de 128K, mientras que 26B A4B y 31B admiten un contexto de hasta 256K.

Quick Tips

  • Las variantes ajustadas por instrucciones (-it) son mejores para casos de uso de chat y asistentes.
  • E2B y E4B son los puntos de partida más accesibles a nivel de hardware para la experimentación local.
  • El 26B A4B es un modelo MoE con una inferencia efectiva más rápida que un modelo denso de tamaño total similar.
  • Todos los pesos de Gemma 4 se publican bajo la licencia Apache 2.0.
Ejecución local

Configuración de Gemma 4 en Ollama

Ollama es una de las formas más rápidas de poner en marcha Gemma 4 en una computadora portátil o estación de trabajo. El flujo predeterminado de Ollama es simple: instala Ollama, descarga Gemma 4, confirma la lista de modelos, elige la etiqueta adecuada para tu hardware y luego ejecútalo desde la CLI o la API local.

1

Instala y verifica Ollama

Descarga Ollama para Windows, macOS o Linux, instálalo y verifica la configuración con el comando ollama --version.

2

Descarga la variante predeterminada de Gemma 4

Usa ollama pull gemma4 para descargar el paquete predeterminado de Gemma 4, luego ejecuta ollama list para confirmar que está disponible localmente.

3

Elige la etiqueta de modelo correcta

Usa gemma4:e2b para la opción de borde más ligera, gemma4:e4b para una opción de borde predeterminada más potente, gemma4:26b para el modelo de estación de trabajo MoE 26B A4B, y gemma4:31b para el modelo grande completo.

4

Conoce lo que espera cada etiqueta

En la página de la biblioteca de Ollama, e2b figura con 7.2GB y 128K de contexto, e4b con 9.6GB y 128K, 26b con 18GB y 256K, y 31b con 20GB y 256K.

5

Ejecuta tu primer prompt

Para una primera prueba de texto, ejecuta ollama run gemma4 "Hola, ¿qué puedes hacer?". Ollama también admite entrada de imágenes con el formato de prompt que se muestra en la guía oficial.

6

Usa la API local para la integración de aplicaciones

Ollama expone un servicio web local en http://localhost:11434/api/generate, por lo que puedes pasar de las pruebas en la CLI a una aplicación local ligera sin configurar un servidor de modelos independiente.

Quick Tips

  • E2B y E4B son las primeras opciones prácticas para la experimentación local en hardware más ligero.
  • La etiqueta 26b se dirige al modelo MoE 26B A4B, que utiliza menos cómputo activo que un modelo denso de tamaño total similar.
  • ollama list muestra todos los modelos descargados localmente y sus tamaños.
  • Ollama admite la entrada de imágenes con el formato de prompt: ollama run gemma4:e2b con una ruta de imagen.
API alojada

Guía de la API de Gemma 4

La Gemini API proporciona acceso alojado a Gemma 4, lo cual es útil cuando se construye sin gestionar la inferencia local. Los modelos Gemma 4 alojados en AI Studio y la Gemini API son gemma-4-26b-a4b-it y gemma-4-31b-it.

1

Crea una clave de API en Google AI Studio

Abre Google AI Studio y crea una clave de Gemini API. Los nuevos usuarios pueden comenzar con un proyecto predeterminado de Google Cloud, mientras que los usuarios existentes pueden importar un proyecto de Cloud y crear claves allí.

2

Configura la clave en tu entorno

Los SDK de Gemini detectan automáticamente GEMINI_API_KEY o GOOGLE_API_KEY. Si ambas están configuradas, GOOGLE_API_KEY tiene prioridad.

3

Instala el SDK oficial

Para Python, instala google-genai. Para JavaScript y TypeScript, instala @google/genai. Google también publica rutas de SDK para Go, Java, C# y Apps Script.

4

Elige el ID del modelo Gemma 4 alojado

Para Gemma 4 alojado, usa gemma-4-26b-a4b-it para un modelo grande MoE más rápido, o gemma-4-31b-it para el punto de control denso insignia.

5

Envía una primera solicitud generateContent

El ejemplo oficial utiliza client.models.generate_content con el campo model establecido en gemma-4-31b-it. En REST, las solicitudes van al endpoint generateContent con el encabezado x-goog-api-key.

6

Usa AI Studio para pasar de las pruebas al código

Google AI Studio te permite experimentar con prompts, configuraciones de modelo, llamadas a funciones y salida estructurada, para luego exportar el código funcional a través del flujo Get code.

Quick Tips

  • AI Studio es la forma más rápida de probar prompts de Gemma 4 antes de escribir cualquier código.
  • La Gemini API admite respuestas en streaming para casos de uso de chat y generación larga.
  • gemma-4-26b-a4b-it es el modelo MoE; generalmente es más rápido y eficiente en costos que el 31B.
  • La llamada a funciones y la salida estructurada están disponibles para ambos IDs de modelo de Gemma 4 alojados.
Descargas

Descarga de Gemma 4 en Hugging Face

La colección oficial de Google en Hugging Face incluye ocho puntos de control principales de Gemma 4: E2B, E4B, 26B A4B y 31B, cada uno en forma base y ajustada por instrucciones. Los repositorios ajustados por instrucciones (-it) son el punto de partida natural para experiencias de chat, programación y asistentes.

Ajustado por instrucciones

google/gemma-4-E2B-it

Punto de control de borde con entrada de texto, imagen y audio y contexto de 128K. Ideal para asistentes locales rápidos y experimentación multimodal en el dispositivo.

Ajustado por instrucciones

google/gemma-4-E4B-it

Punto de control de borde más potente con entrada de texto, imagen y audio y contexto de 128K. Más capaz que E2B sin necesidad de saltar a hardware de clase de estación de trabajo.

Ajustado por instrucciones

google/gemma-4-26B-A4B-it

Punto de control MoE con contexto de 256K y entrada de texto e imagen. Calidad de modelo grande con una inferencia efectiva más rápida que un modelo denso de tamaño total similar.

Ajustado por instrucciones

google/gemma-4-31B-it

Punto de control denso insignia de Gemma 4 con contexto de 256K y entrada de texto e imagen. Ideal para los flujos de trabajo más potentes de chat, razonamiento, programación y agentes.

Preentrenado

google/gemma-4-E2B

Punto de control de borde base para usuarios que desean estudiar, adaptar o ajustar el modelo multimodal más pequeño de Gemma 4.

Preentrenado

google/gemma-4-E4B

Punto de control de borde base que mantiene la entrada de texto, imagen y audio mientras deja el comportamiento de instrucciones posterior a tu propio flujo de ajuste.

Preentrenado

google/gemma-4-26B-A4B

Punto de control grande MoE base para adaptación personalizada donde desees la arquitectura 26B A4B sin el comportamiento predeterminado ajustado por instrucciones.

Preentrenado

google/gemma-4-31B

Punto de control denso 31B base para equipos que desean el modelo base oficial más grande de Gemma 4 antes de su propia etapa de ajuste o alineación.

Comparación de modelos

Elija el tamaño de Gemma 4 adecuado para su hardware

Gemma 4 se distribuye en cuatro tamaños con compensaciones muy diferentes. La opción más rápida no siempre es el modelo más pequeño, y la opción de mayor calidad no siempre es la más fácil de implementar.

Gemma 4 está disponible en dos modelos densos optimizados para dispositivos finales, un modelo eficiente de Mixture-of-Experts y un modelo denso de gran tamaño. Para la mayoría de los equipos, la decisión real no es solo la calidad, sino dónde se ejecuta el modelo: teléfono, laptop, estación de trabajo o servidor. Un punto de partida práctico es el 26B A4B cuando se busca una calidad sólida sin dar el salto total al 31B.

Gemma 4 E2B

ArchitectureDenso
Parameters2.3B efectivos
Context128K tokens
Memory (BF16/Q4)9.6 GB BF16 / 4.6 GB SFP8 / 3.2 GB Q4_0
PlatformDispositivos móviles

Asistentes sin conexión, aplicaciones multimodales ligeras, implementación en dispositivos finales

Gemma 4 E4B

ArchitectureDenso
Parameters4.5B efectivos
Context128K tokens
Memory (BF16/Q4)15 GB BF16 / 7.5 GB SFP8 / 5 GB Q4_0
PlatformMóviles y laptops

Copilotos locales más potentes, razonamiento en el dispositivo, aplicaciones multimodales con más margen de maniobra

Gemma 4 26B A4B

ArchitectureMoE
Parameters25.2B total, 3.8B activos
Context256K tokens
Memory (BF16/Q4)48 GB BF16 / 25 GB SFP8 / 15.6 GB Q4_0
PlatformEscritorio y servidores pequeños

El mejor equilibrio entre calidad, velocidad y trabajo de contexto largo para la mayoría de los equipos

Gemma 4 31B

ArchitectureDenso
Parameters30.7B
Context256K tokens
Memory (BF16/Q4)58.3 GB BF16 / 30.4 GB SFP8 / 17.4 GB Q4_0
PlatformServidores grandes

Calidad de razonamiento, programación y multimodalidad de más alto nivel en la familia Gemma 4

Especificaciones principales

Las especificaciones de Gemma 4 que realmente importan antes de construir

Para la mayoría de los desarrolladores, las preguntas clave son la longitud del contexto, las modalidades, la cobertura de idiomas, las licencias y las funciones a nivel de aplicación. Estas son las especificaciones que cambian las opciones de implementación, el costo de alojamiento y el alcance del producto.

Gemma 4 no es solo una actualización del modelo de texto. La familia combina contexto largo, entrada multimodal, modo de pensamiento, prompts de sistema nativos y soporte para llamadas a funciones en una línea de pesos abiertos. Los modelos más pequeños añaden entrada de audio, mientras que los modelos más grandes extienden el contexto a 256K para cargas de trabajo con muchos documentos y a escala de repositorio.

Lanzamiento

31 de marzo de 2026

Esta es la generación principal actual de Gemma y la que Google destaca ahora en sus documentos y materiales de lanzamiento.

Entrada y salida

Todos los modelos: texto e imagen → texto; E2B y E4B también admiten entrada de audio

Puede crear flujos de solo texto, visión y comprensión de voz ligera sin cambiar de familia de modelos.

Ventana de contexto máxima

128K tokens en E2B y E4B; 256K tokens en 26B A4B y 31B

Los prompts extensos, como documentos largos, chats prolongados o contexto de código de varios archivos, caben en una sola solicitud.

Cobertura de idiomas

Más de 140 idiomas

Esto es importante para productos multilingües, OCR y asistentes implementados globalmente.

Licencia y pesos

Licencia Apache 2.0 con pesos abiertos y soporte para uso comercial responsable

Puede ajustar, implementar y ejecutar Gemma 4 en su propia infraestructura con menos restricciones de licencia.

Razonamiento y control

Modo de pensamiento configurable, soporte nativo para roles de sistema, salida JSON estructurada y llamadas a funciones

Estas funciones hacen que Gemma 4 sea mucho más fácil de usar para agentes, uso de herramientas y aplicaciones con muchas instrucciones.

Manejo visual

Resoluciones de imagen variables y presupuestos de tokens de 70, 140, 280, 560 o 1120 tokens

Puede intercambiar el detalle de la imagen por velocidad dependiendo de si la tarea es OCR, lectura de interfaz de usuario, análisis de gráficos o procesamiento rápido de fotogramas.

Rendimiento

Resumen oficial de los puntos de referencia de Gemma 4

Estos puntajes muestran dónde es más fuerte cada tamaño de Gemma 4 en razonamiento, programación, ciencia, visión y recuperación de contexto largo. Úselos para preseleccionar un modelo rápidamente y luego compare esa selección con su presupuesto de latencia y memoria.

Gemma 4 se posiciona como una familia de modelos para razonamiento, flujos de trabajo de agentes, programación y comprensión multimodal. Las tablas oficiales de puntos de referencia muestran un patrón claro: el 31B lidera, el 26B A4B se mantiene sorprendentemente cerca siendo mucho más eficiente, y el E4B y el E2B aportan una capacidad significativa a los dispositivos más pequeños.

MMLU Pro

Conocimiento y razonamiento

85.2%
31B
82.6%
26B A4B
69.4%
E4B
60.0%
E2B

La mejor comparación rápida para el rendimiento general de razonamiento de alto nivel en toda la familia.

AIME 2026 (sin herramientas)

Razonamiento matemático

89.2%
31B
88.3%
26B A4B
42.5%
E4B
37.5%
E2B

31B y 26B A4B son los objetivos adecuados para asistentes con gran carga matemática y tareas de planificación.

LiveCodeBench v6

Programación competitiva

80.0%
31B
77.1%
26B A4B
52.0%
E4B
44.0%
E2B

Si la programación es un caso de uso principal, los dos modelos más grandes están en un nivel diferente al de los modelos para dispositivos finales.

GPQA Diamond

Razonamiento científico

84.3%
31B
82.3%
26B A4B
58.6%
E4B
43.4%
E2B

Una señal sólida para flujos de trabajo técnicos y orientados a expertos.

MMMU Pro

Razonamiento multimodal

76.9%
31B
73.8%
26B A4B
52.6%
E4B
44.2%
E2B

Las tareas de visión se benefician enormemente de los modelos más grandes cuando la precisión importa más que el tamaño de la instalación.

MRCR v2 (128K, 8 agujas)

Recuperación de contexto largo

66.4%
31B
44.1%
26B A4B
25.4%
E4B
19.1%
E2B

Para prompts de documentos grandes y a escala de repositorio, 31B es la opción más sólida para contexto largo.

Personalización

Cómo realizar el ajuste fino de Gemma 4 para trabajo de productos reales

El ajuste fino es importante cuando el prompting por sí solo no es suficiente y desea que Gemma 4 funcione mejor en un dominio, flujo de trabajo o rol específico. Las rutas prácticas son el ajuste de adaptadores ligeros para tareas de texto y el ajuste de adaptadores multimodales para tareas de imagen más texto.

La documentación oficial de ajuste de Gemma se centra en una regla simple: ajustar para una tarea definida, no para una mejora vaga. Para muchos desarrolladores, QLoRA es el punto de partida más realista porque mantiene los requisitos de hardware mucho más bajos que el ajuste del modelo completo.

1

Comience con un objetivo de ajuste específico

Elija una tarea o rol en el que el modelo base deba desempeñarse mejor, como atención al cliente, text-to-SQL o generación de descripciones de productos. Use el ajuste fino cuando la tarea sea específica y repetitiva.

2

Elija la ruta de ajuste

Use el ajuste de texto para tareas de instrucción y generación, o el ajuste de visión cuando su conjunto de datos combine imágenes y texto. La guía de QLoRA de texto demuestra text-to-SQL; la guía de QLoRA de visión demuestra descripciones de productos de imagen más texto.

3

Elija un framework realista

Gemma 4 es compatible con Keras con LoRA, la biblioteca de Gemma, flujos de trabajo basados en Hugging Face, GKE y Vertex AI. Hugging Face más TRL es la ruta más directa para muchos desarrolladores.

4

Adapte el flujo de trabajo a su hardware

El ejemplo oficial de QLoRA de texto está diseñado para una configuración T4 de 16 GB. La guía de QLoRA de visión requiere una GPU compatible con BF16, como NVIDIA L4 o A100 con más de 16 GB de memoria.

5

Use QLoRA cuando la eficiencia sea importante

QLoRA mantiene el modelo base cuantizado a 4 bits, congela los pesos originales y entrena solo los adaptadores LoRA añadidos. Esto reduce el uso de memoria mientras mantiene un sólido rendimiento en la tarea.

6

Prepare los datos en el formato correcto

Cree un conjunto de datos que coincida directamente con el comportamiento que desea, luego dele formato para el entrenamiento de estilo conversación con TRL y SFTTrainer. La guía oficial de texto utiliza un gran conjunto de datos sintéticos de text-to-SQL.

7

Evalúe, compare y despliegue

Después del entrenamiento, realice comprobaciones de inferencia contra su modelo base, verifique las mejoras en la tarea y luego despliegue el modelo ajustado o el adaptador. Trate el formato de despliegue como una decisión temprana porque la elección del framework afecta el formato de salida que obtendrá.

Quick Tips

  • Comience con QLoRA y una GPU de clase T4 para tareas de texto; rara vez se necesita un ajuste fino completo para la adaptación de tareas.
  • Formatee su conjunto de datos para reflejar el formato de chat ajustado por instrucciones que Gemma 4 ya entiende.
  • Mantenga su conjunto de evaluación con la misma distribución que sus datos de entrenamiento para obtener señales de mejora significativas.
  • El modelo MoE 26B A4B tiene parámetros activos eficientes, pero su recuento total de parámetros aún afecta el tamaño del checkpoint durante el entrenamiento.
  • Use el checkpoint Gemma 4 -it como punto de partida para tareas de instrucción en lugar de la base pre-entrenada.
Prompting

Guía de prompts de Gemma 4

Gemma 4 introduce un nuevo formato de prompt basado en turnos con instrucciones de sistema nativas, marcadores de posición multimodales y controles integrados para el pensamiento y el uso de herramientas.

Esta guía convierte el formato oficial de Gemma 4 en una biblioteca de prompts práctica. Estructure cada interacción como turnos, use el rol de sistema para el comportamiento y las reglas globales, inserte marcadores de posición de imagen o audio donde sea necesario y solo habilite el pensamiento o el uso de herramientas cuando la tarea realmente se beneficie de ellos.

Esqueleto central del chat

Gemma 4 utiliza roles nativos de sistema, usuario y modelo, envueltos en marcadores de turno.

  • Use system para instrucciones globales
  • Use user para la solicitud actual
  • Use model como punto de inicio de la generación
<|turn>system You are a helpful assistant.<turn|> <|turn>user Summarize the following article in 5 bullets.<turn|> <|turn>model

Patrón de prompt de sistema

Coloque las reglas de comportamiento estables en un turno de sistema en lugar de repetirlas cada vez.

  • Ideal para estilo, alcance y formato de salida
  • El soporte nativo del rol de sistema comienza con Gemma 4
  • Manténgalo conciso y específico para la tarea
<|turn>system You are a technical writer. Answer in clear English, use short paragraphs, and include one practical example.<turn|> <|turn>user Explain function calling for a beginner.<turn|> <|turn>model

Marcadores de posición multimodales

Use tokens de marcador de posición para indicar dónde deben insertarse los embeddings de imagen y audio.

  • Use <|image|> para imágenes
  • Use <|audio|> para audio
  • El procesador reemplaza los marcadores de posición con embeddings después de la tokenización
<|turn>user Describe this image: <|image|> Then transcribe this clip: <|audio|><turn|> <|turn>model

Prompt listo para el pensamiento

El modo de pensamiento se activa colocando <|think|> dentro de la instrucción del sistema.

  • Habilítelo para tareas con mucha carga de razonamiento
  • Manténgalo desactivado para generaciones directas simples
  • Use un turno de sistema tanto para el pensamiento como para otras instrucciones globales
<|turn>system <|think|>You are a careful reasoning assistant.<turn|> <|turn>user Compare two pricing models and recommend one for a startup.<turn|> <|turn>model

Estructura de prompt consciente de herramientas

Las declaraciones de herramientas pertenecen al turno del sistema, y las llamadas y respuestas de herramientas se manejan con tokens de control dedicados.

  • Útil para APIs, búsquedas, calculadoras y consultas de datos externos
  • El uso de herramientas está estructurado, no es una simulación de texto plano
  • El razonamiento y el uso de herramientas pueden ocurrir en el mismo turno
Define tools in the system turn using the tool declaration token block, then set user and model turns as usual. Gemma 4 handles the rest with structured tool_call and tool_response tokens.
Razonamiento

Modo de pensamiento de Gemma 4

El modo de pensamiento permite que Gemma 4 produzca un canal de razonamiento antes de la respuesta final, y el procesador puede separar ambas partes para el uso de la aplicación.

El modo de pensamiento es ideal para tareas en las que el modelo se beneficia de un razonamiento intermedio antes de responder: preguntas ambiguas, matemáticas, codificación, planificación de herramientas y análisis multimodal. En Gemma 4, puede habilitarlo a nivel de plantilla de chat, transmitir el razonamiento en vivo y luego dividir la salida en un bloque de pensamiento y un bloque de respuesta para el usuario.

1

Elija las tareas adecuadas

Use el modo de pensamiento cuando la solicitud necesite descomposición, comparación, planificación o una interpretación cuidadosa en lugar de una respuesta directa corta.

  • Casos ideales: matemáticas, depuración de código, toma de decisiones estructurada, razonamiento de imagen más texto
  • Menos necesario para reescrituras simples, resúmenes cortos o hechos directos
  • Los ejemplos oficiales cubren flujos de trabajo tanto de solo texto como de imagen-texto
2

Habilite el pensamiento en la plantilla de chat

Con Hugging Face Transformers, establezca enable_thinking=True en apply_chat_template(). A nivel de token, Gemma 4 utiliza <|think|> en el turno del sistema.

  • E2B y E4B: el pensamiento desactivado (OFF) utiliza un flujo simple usuario-modelo; el pensamiento activado (ON) añade un turno de sistema con <|think|>
  • 26B A4B y 31B: las plantillas oficiales incluyen un token de pensamiento vacío cuando el pensamiento está desactivado para estabilizar la salida
  • El pensamiento está diseñado para habilitarse a nivel de conversación
3

Genere y separe el resultado

El modelo puede emitir un canal de razonamiento primero y la respuesta final después. Puede transmitirlo con TextStreamer y dividirlo con parse_response().

  • processor.parse_response() devuelve el contenido de pensamiento y respuesta por separado
  • Esto funciona para prompts de texto y prompts de imagen-texto
  • El canal de razonamiento también puede incluir llamadas a herramientas cuando el turno se vuelve agéntico
4

Maneje correctamente los chats de varios turnos

Para conversaciones normales de varios turnos, elimine los pensamientos generados en el turno anterior antes de enviar el historial de vuelta. En los turnos de llamada a herramientas, mantenga el flujo de pensamiento intacto hasta que termine el ciclo de la herramienta.

  • Chat regular: elimine los bloques de pensamiento previos antes del siguiente turno
  • Excepción de uso de herramientas: no elimine los pensamientos entre llamadas a funciones dentro del mismo turno
  • Esto mantiene el contexto limpio mientras se preserva el comportamiento agéntico
Flujos de trabajo agénticos

Llamada a funciones de Gemma 4

Gemma 4 admite el uso nativo de herramientas estructuradas, lo que permite que el modelo solicite funciones en lugar de simular acciones externas en texto plano.

La llamada a funciones es el puente práctico entre la salida del modelo y el comportamiento real de la aplicación. En lugar de pedirle a Gemma 4 que adivine datos en tiempo real o simule acciones, usted define herramientas, permite que el modelo genere una llamada estructurada, ejecuta la función en su aplicación y luego devuelve el resultado para que el modelo pueda finalizar con una respuesta clara en lenguaje natural.

1

Defina las herramientas con claridad

Pase las herramientas a través de apply_chat_template() utilizando un esquema JSON manual o una función de Python pura convertida a esquema.

  • El esquema JSON manual es mejor cuando se necesitan parámetros anidados precisos
  • Las funciones de Python puras son convenientes para herramientas simples con sugerencias de tipo y docstrings claros
  • Las definiciones de herramientas deben incluir nombre, descripción, tipos de parámetros y campos obligatorios
2

Permita que el modelo solicite una herramienta

Gemma 4 recibe el prompt del usuario junto con las herramientas disponibles y devuelve un objeto de llamada a función estructurado en lugar de texto plano cuando se necesita una herramienta.

  • El uso de herramientas se controla con tokens dedicados como tool, tool_call y tool_response
  • Un ejemplo típico es una función de clima o de búsqueda
  • Esto es mejor que el texto plano cuando la respuesta depende de un estado externo o de acciones del sistema
3

Valide y ejecute en su aplicación

Gemma 4 no puede ejecutar código por sí sola. Su aplicación debe analizar el nombre de la función y los argumentos, validarlos y ejecutar la función real de forma segura.

  • Valide siempre los nombres de las funciones y los argumentos antes de la ejecución
  • No confíe en el código generado sin medidas de seguridad
  • Para sistemas de producción, asocie los nombres de las herramientas con controladores aprobados en lugar de una ejecución dinámica
4

Devuelva la salida de la herramienta para la respuesta final

Agregue el resultado de la herramienta al historial del chat y luego deje que Gemma 4 genere la respuesta final para el usuario.

  • Flujo de trabajo oficial: definir herramientas, turno del modelo, turno del desarrollador, respuesta final
  • Este patrón funciona para APIs, búsquedas en vivo, calculadoras, actualizaciones de configuración y bucles de agentes
  • Las respuestas de las herramientas deben mantenerse estructuradas para que el modelo pueda fundamentar la respuesta final correctamente
Multimodal

Guía multimodal de Gemma 4

Gemma 4 maneja texto e imágenes en todos los modelos, admite video como fotogramas y añade soporte nativo de audio en E2B y E4B.

Gemma 4 está diseñada para entradas multimodales. Todos los modelos admiten la comprensión visual de imágenes y videos, los modelos pequeños añaden entrada de audio y el tiempo de ejecución permite equilibrar el detalle visual frente a la velocidad mediante presupuestos de tokens. Esto hace que Gemma 4 sea adecuada para OCR, subtitulado, detección de objetos, tareas de voz y prompts de medios mixtos dentro de un mismo flujo de chat.

Comprensión de imágenes

Todos los modelos de Gemma 4 admiten flujos de trabajo de texto más imagen.

  • Tareas comunes: OCR, detección de objetos, respuesta a preguntas visuales, subtitulado de imágenes
  • Admite el razonamiento a través de múltiples imágenes en un solo prompt
  • Ideal para capturas de pantalla, documentos, imágenes de productos y análisis de escenas

Comprensión de video

Todos los modelos de Gemma 4 pueden procesar video como una secuencia de fotogramas.

  • Útil para descripción de escenas, interacción humana y resúmenes situacionales
  • El video se pasa como un elemento de contenido en el arreglo de mensajes
  • La duración máxima de video admitida es de 60 segundos a 1 fotograma por segundo

Comprensión de audio

El audio está disponible en los modelos E2B y E4B.

  • Admite reconocimiento de voz multilingüe, traducción de voz y comprensión general del habla
  • El costo de tokens de audio es de 25 tokens por segundo
  • La duración máxima de audio es de 30 segundos

Presupuestos de tokens visuales

Gemma 4 introduce el procesamiento de imágenes de resolución variable para que pueda elegir velocidad o detalle según la tarea.

  • Presupuestos de imagen admitidos: 70, 140, 280, 560, 1120 tokens
  • Presupuestos más bajos para clasificación rápida, subtitulado y análisis de fotogramas de video
  • Presupuestos más altos para OCR, análisis de documentos y lectura de texto pequeño

Reglas de preparación de entrada

El procesador se encarga de gran parte del formateo de medios, pero algunos límites son importantes en producción.

  • El audio debe ser mono, 16 kHz, float32, normalizado a [-1, 1]
  • El soporte de archivos de imagen depende del framework utilizado para convertir archivos en tensores
  • La calidad del prompt sigue siendo importante: las instrucciones específicas superan a las solicitudes multimodales vagas

División de capacidades del modelo

Utilice los modelos más pequeños para casos de uso móviles y centrados en voz, y los modelos más grandes para un razonamiento más pesado con contexto largo.

  • E2B y E4B: modelos pequeños con capacidad de audio y contexto de 128K
  • 26B A4B y 31B: modelos más grandes enfocados en el razonamiento con contexto de 256K
  • Los cuatro tamaños oficiales están disponibles en variantes base y ajustadas por instrucciones
Implementación local

Gemma 4 GGUF y cuantización

Elija la huella de Gemma 4 más pequeña que se ajuste a su máquina

Para la mayoría de las configuraciones locales, la decisión práctica es si quedarse con E2B o E4B, o subir a una compilación GGUF de 26B A4B. Google documenta las necesidades aproximadas de memoria para las opciones de implementación BF16, SFP8 y estilo de 4 bits en los cuatro tamaños oficiales.

Puntos de entrada locales oficiales

La guía de Ollama de Google expone cuatro etiquetas de Gemma 4: gemma4:e2b, gemma4:e4b, gemma4:26b y gemma4:31b. LM Studio también admite modelos Gemma tanto en formato GGUF como MLX para inferencia totalmente local.

Comience con E2B o E4B para un ciclo local más ligero, y pase a 26B o 31B solo cuando tenga el presupuesto de RAM necesario y desee un modelo de razonamiento más sólido.

Memoria aproximada por tamaño oficial

Google enumera la memoria de inferencia aproximada como E2B 9.6 GB BF16 / 3.2 GB Q4_0, E4B 15 GB / 5 GB, 26B A4B 48 GB / 15.6 GB y 31B 58.3 GB / 17.4 GB.

Si su objetivo es una máquina local convencional, la implementación de estilo de 4 bits o un tamaño de modelo más pequeño suele ser la línea entre lo ejecutable y lo impráctico.

Ejemplo oficial de 26B A4B GGUF

La página oficial de ggml-org para Gemma 4 26B A4B IT GGUF recomienda llama-server para el inicio y enumera Q4_K_M en 16.8 GB, Q8_0 en 26.9 GB y F16 en 50.5 GB.

Q4_K_M es el valor predeterminado más práctico cuando se desea un modelo Gemma 4 local grande pero no se puede costear el uso de memoria de Q8_0 o de 16 bits completos.

Qué cambia la cuantización

Los recuentos de parámetros más altos y la mayor precisión son generalmente más capaces, pero cuestan más ciclos de procesamiento, memoria y energía. La menor precisión reduce esos costos pero puede disminuir la capacidad.

Utilice la cuantización para ajustar el modelo a su hardware: las compilaciones GGUF más pequeñas le ayudan a ejecutar localmente, pero son un compromiso de implementación en lugar de una mejora gratuita.

Flujo de trabajo de Python

Guía de Gemma 4 para PyTorch

Ejecuta Gemma 4 desde un entorno centrado en PyTorch

La vía más rápida de Python para Gemma 4 es Hugging Face Transformers sobre PyTorch: instala torch y transformers, elige un ID de modelo de Gemma 4 y comienza con la inferencia de texto basada en pipelines antes de pasar a flujos de trabajo multimodales o habilitados para herramientas.

1

Instala el entorno de ejecución

La guía de inferencia de texto de Gemma 4 de Google comienza con torch, accelerate y transformers, además de dialog para el manejo de conversaciones.

pip install torch accelerate pip install transformers pip install dialog
2

Elige un checkpoint oficial de Gemma 4

Los ejemplos de Gemma 4 de Google muestran cuatro IDs oficiales ajustados por instrucciones: google/gemma-4-E2B-it, google/gemma-4-E4B-it, google/gemma-4-26B-A4B-it y google/gemma-4-31B-it.

MODEL_ID = "google/gemma-4-E2B-it"
3

Comienza con la generación de texto

Usa transformers.pipeline con task="text-generation", device_map="auto" y dtype="auto" como la forma más rápida de obtener una primera respuesta.

from transformers import pipeline txt_pipe = pipeline( task="text-generation", model=MODEL_ID, device_map="auto", dtype="auto" )
4

Pasa a flujos multimodales y herramientas cuando sea necesario

Para flujos de trabajo multimodales y de llamada a funciones, usa AutoProcessor y AutoModelForMultimodalLM con apply_chat_template para prompts conscientes de herramientas.

from transformers import AutoProcessor, AutoModelForMultimodalLM model = AutoModelForMultimodalLM.from_pretrained( MODEL_ID, dtype="auto", device_map="auto") processor = AutoProcessor.from_pretrained(MODEL_ID)
5

Usa PyTorch nativo para un control más profundo

La guía de PyTorch de Google documenta la configuración de credenciales de Kaggle, la instalación de dependencias, la clonación de gemma_pytorch y la carga de clases de modelos multimodales para la experimentación con control directo de checkpoints.

pip install -q -U torch immutabledict sentencepiece git clone https://github.com/google/gemma_pytorch.git
IA en el dispositivo

Despliegue móvil de Gemma 4

Lleva Gemma 4 a dispositivos móviles a través del stack actual de Android

Gemma 4 ahora tiene tres rutas prácticas para móviles: ML Kit Prompt API en dispositivos de vista previa de AICore, flujos de trabajo de modelos locales de Android Studio para uso de desarrolladores y LiteRT-LM para un control del entorno de ejecución de bajo nivel en dispositivos móviles y embebidos.

1

Elige la ruta que coincida con tu objetivo

Usa ML Kit Prompt API en AICore si estás creando una experiencia de aplicación para Android, modelos locales de Android Studio si deseas ayuda de codificación sin conexión y LiteRT-LM si necesitas un control del entorno de ejecución de bajo nivel.

Path by use case: - App feature prototype: ML Kit Prompt API + AICore - Local coding workflow: Android Studio local model - Custom runtime control: LiteRT-LM
2

Prototipa en el dispositivo con AICore

La vista previa de abril de 2026 de Google te permite apuntar a Gemma 4 E2B o E4B a través de la configuración de preferencia de modelo dentro del flujo de la Prompt API en dispositivos habilitados para AICore.

val previewFullConfig = generationConfig { modelConfig = ModelConfig { releaseTrack = ModelReleaseTrack.PREVIEW preference = ModelPreference.FULL } }
3

Conoce las expectativas del dispositivo

Los modelos de vista previa se ejecutan en dispositivos habilitados para AICore y en los aceleradores de IA más recientes de Google, MediaTek y Qualcomm. AI Edge Gallery está disponible para comprobaciones rápidas de modelos en dispositivos que no son AICore.

Testing options: - AICore-enabled phone for preview models - AI Edge Gallery for quick model checks - High-end Android hardware (Pixel 8, Samsung S23+)
4

Usa Android Studio para flujos de trabajo de desarrolladores

Android Studio recomienda actualmente a Gemma 4 como su opción de modelo local. Gemma E4B requiere 12 GB de RAM y 4 GB de almacenamiento; Gemma 26B MoE requiere 24 GB de RAM y 17 GB de almacenamiento.

Settings > Tools > AI > Model Providers
5

Cambia a LiteRT-LM para un control más profundo del entorno de ejecución

LiteRT-LM es una biblioteca multiplataforma para pipelines de modelos de lenguaje desde teléfonos hasta sistemas embebidos, con rutas de CPU, GPU y NPU que incluyen Qualcomm AI Engine Direct y MediaTek NeuroPilot.

LiteRT-LM supports: - CPU / GPU execution - Qualcomm AI Engine Direct - MediaTek NeuroPilot
Comparación de modelos

Gemma 4 frente a Gemma 3

Descubre qué cambia realmente al pasar de Gemma 3 a Gemma 4

Esta comparación es para desarrolladores que deciden si mantener un flujo de trabajo existente de Gemma 3 o reconstruirlo en torno a Gemma 4. Las diferencias más claras aparecen en la longitud del contexto, el formato de control, el alcance multimodal y el rendimiento de los benchmarks en el nivel superior de cada familia.

Lanzamiento y tamaños principales

Gemma 4
Lanzado el 31 de marzo de 2026 en tamaños E2B, E4B, 26B A4B y 31B.
Gemma 3
Lanzado el 10 de marzo de 2025 en tamaños 1B, 4B, 12B y 27B, con el de 270M añadido el 14 de agosto de 2025.

Gemma 4 reduce la familia en torno a niveles de despliegue más claros: modelos E centrados en el borde y modelos más grandes de clase estación de trabajo.

Ventana de contexto

Gemma 4
E2B y E4B admiten hasta 128K de contexto; 26B A4B y 31B admiten hasta 256K.
Gemma 3
4B, 12B y 27B admiten 128K de contexto; 1B y 270M admiten 32K.

Para documentos largos, trazas de herramientas o historiales de varios pasos, los modelos más grandes de Gemma 4 ofrecen un margen significativamente mayor.

Multimodalidad

Gemma 4
Admite entrada de imagen, video, texto-imagen intercalado y audio nativo en E2B y E4B.
Gemma 3
Los modelos principales admiten entrada de texto e imagen con salida de texto.

Gemma 4 es la familia multimodal más amplia si tu caso de uso va más allá de imagen-texto hacia video, flujos con mucho OCR o modelos de borde con capacidad de audio.

Formato de prompt y control

Gemma 4
Añade soporte nativo para el rol de sistema y tokens de control especializados para herramientas, razonamiento, imágenes y audio.
Gemma 3
El formato heredado usa turnos de usuario/modelo; no se admite el rol de sistema por separado.

Los equipos que crean agentes o flujos de trabajo estructurados obtienen una superficie de control más limpia en Gemma 4.

Instantánea de benchmarks de nivel superior

Gemma 4
Gemma 4 31B: MMLU Pro 85.2, AIME 2026 89.2, LiveCodeBench v6 80.0, GPQA Diamond 84.3.
Gemma 3
Gemma 3 27B (sin razonamiento): MMLU Pro 67.6, AIME 2026 20.8, LiveCodeBench v6 29.1, GPQA Diamond 42.4.

Si se actualiza por razonamiento, codificación o preguntas y respuestas de alta dificultad, el salto del nivel superior de Gemma 4 es lo suficientemente grande como para justificar una migración.

Perfil de despliegue

Gemma 4
E2B y E4B para un uso local y en el dispositivo eficiente; 26B A4B y 31B para escenarios de GPU de consumo o estaciones de trabajo.
Gemma 3
Sigue siendo sólido para tamaños clásicos más pequeños como 1B y 4B, con un nivel superior de 27B y 128K de contexto en las variantes principales más grandes.

Quédate en Gemma 3 cuando los tamaños clásicos pequeños ya se ajusten a tu stack; cámbiate a Gemma 4 cuando desees nuevas funciones de control, modelos superiores con mayor contexto o variantes más potentes orientadas al borde.

Gemma 4 Wiki - Modelos, Benchmarks y Despliegue Local