Gemma 4 Wiki
Sigue los tamaños de modelos de Gemma 4, benchmarks, prompting, llamada a funciones, entrada multimodal, despliegue local y ajuste fino en el ecosistema oficial de Google.

Latest Updates
Discover the newest guides, tips, and content
gemma 4 cli: Guía 2026 de configuración local de IA y flujo de trabajo para desarrollo de juegos
Aprende a instalar, configurar y optimizar gemma 4 cli para escritura de juegos, programación y flujos de diseño en vivo en 2026.
gemma 4 cloud: Guía 2026 de configuración local-first y flujo de trabajo para gaming
Aprende a usar flujos de trabajo de gemma 4 cloud para tareas de gaming, ayuda con modding y programación de IA offline con pasos prácticos de configuración y análisis de compensaciones.
Gemma 4 en Mac: Guía completa de configuración local, ajuste y uso 2026
Aprende a instalar, ejecutar y optimizar Gemma 4 en Mac en 2026 con selecciones de modelo prácticas, consejos de rendimiento y pasos de solución de problemas.
gemma 4 api: Guía completa de configuración y optimización para creadores 2026
Aprende a configurar, probar y optimizar gemma 4 api para flujos de trabajo de juegos, NPC de IA, herramientas de mods y pipelines multimodales en 2026.
Agente Gemma 4: Guía de configuración de IA offline y flujo de trabajo para gamers 2026
Aprende a configurar un agente Gemma 4 en local para flujos de trabajo gaming, soporte para modding, análisis de logs y asistencia de IA offline en 2026.
Precios de la API de Gemma 4: Desglose de costos para equipos de desarrollo de juegos en 2026
Una guía práctica de 2026 sobre los precios de la API de Gemma 4, que incluye costos locales vs alojados, fórmulas de presupuesto y opciones de implementación para estudios de videojuegos.
gemma 4 fine tune: Tutorial de flujo de trabajo sin código con Unsloth Studio 2026
Aprende un flujo de trabajo práctico de gemma 4 fine tune con Unsloth Studio, desde la configuración de GPU y el mapeo del dataset hasta la exportación y la evaluación en 2026.
gemma 4 local: Guía de configuración de IA sin conexión y flujo de trabajo gaming 2026
Aprende a ejecutar Gemma 4 en tu propio PC para tareas privadas de gaming sin conexión, como planificación de mods, redacción de guías paso a paso y ayuda con código en 2026.
gemma 4 function calling: Guía de sistemas de comandos para juegos móviles 2026
Crea rápidamente acciones de juego en el dispositivo con patrones de gemma 4 function calling, esquemas de herramientas, flujos de ajuste y pasos de QA para producción en 2026.
Gemma 4 Coding: Guía Completa de Configuración Local en VS Code y Flujo de Trabajo 2026
Aprende a ejecutar Gemma 4 localmente para programar dentro de VS Code con Ollama y Continue. Incluye pasos de configuración, ajuste de permisos, expectativas de rendimiento y solución de problemas para 2026.
gemma 4 license: Guía 2026 para creadores, modding y uso comercial
Aprende cómo la gemma 4 license afecta a estudios de videojuegos, modders y creadores de contenido en 2026, con listas de verificación prácticas de cumplimiento y consejos de despliegue.
gemma 4 26b mlx apple silicon: Configuración, benchmarks y guía para Mac 2026
Aprende a ejecutar Gemma 4 26B con MLX en Macs con Apple Silicon, incluyendo pasos de instalación, ajuste de rendimiento, planificación de VRAM y flujos de trabajo prácticos para creadores en 2026.
Cuantización de Gemma4: guía de mejores ajustes de rendimiento y calidad 2026
Aprende a ajustar la cuantización de Gemma4 para lograr flujos de trabajo más favorables para FPS, menor uso de VRAM y una sólida calidad de salida en PCs gaming de uso diario en 2026.
Llamadas a herramientas de Gemma4 con Ollama: Guía práctica de configuración, prompts y flujo de trabajo 2026
Aprende a implementar flujos de llamadas a herramientas de Gemma4 con Ollama con selección de modelos, esquemas de funciones, patrones de prompts, pasos de depuración y ajuste de rendimiento para apps de IA locales.
Gemma 4 31B GPU: Mejores tarjetas, benchmarks y guía de configuración 2026
Compara el rendimiento de RTX 3090, 4090 y 5090 para cargas de trabajo de Gemma 4 31B GPU. Aprende objetivos de VRAM, ajustes de optimización y consejos prácticos de configuración para una inferencia local rápida en 2026.
gemma 4 26b gguf: Guía de prototipos de juegos locales y benchmarks 2026
Aprende a ejecutar Gemma 4 26B GGUF de forma local para prototipado de juegos, comparar cuantizaciones, ajustar el rendimiento y crear mejores demos de juegos en navegador en 2026.
gemma 4 chat template: Configuración de OpenCode, correcciones y guía de flujo de trabajo 2026
Aprende a configurar, depurar y optimizar la gemma 4 chat template para flujos de trabajo de llamadas a herramientas en 2026, incluidos harnesses de estilo OpenCode y Claude Code.
capacidades de visión de gemma 4: Guía de Flujo de Trabajo Multimodal Local 2026
Aprende a usar las capacidades de visión de gemma 4 para detección, conteo y razonamiento de escenas en flujos de trabajo de IA local para herramientas de gaming y pipelines de contenido.
gemma 4 31b benchmark coding: Guía de rendimiento para equipos de desarrollo de juegos 2026
Una guía práctica de 2026 sobre gemma 4 31b benchmark coding para estudios de videojuegos, con contexto de benchmarks, planificación de hardware, configuración de flujos de trabajo y estrategias para tareas de programación.
Gemma 4 Bartowski: La mejor configuración de IA local para flujos de trabajo gaming en 2026
Aprende a usar modelos locales estilo Gemma 4 Bartowski para tareas de gaming, desde planificación de misiones hasta traducción, prototipado de diálogos de NPC y ajuste de rendimiento en 2026.
rendimiento de codificación de gemma 4: Benchmarks prácticos para desarrolladores de juegos en 2026
Una guía práctica sobre la velocidad, calidad y costo de codificación de Gemma 4 para prototipado de juegos, sistemas de UI y flujos de trabajo de IA local en 2026.
gemma 4 a4b: Guía de Configuración de IA Local y Flujo de Trabajo para Gaming 2026
Aprende a usar gemma 4 a4b para proyectos de gaming, desde la configuración local y el tamaño del modelo hasta flujos de trabajo prácticos en juego y en estudio en 2026.
Audio de Gemma 4: Configuración práctica, límites y flujos de trabajo gaming 2026
Aprende qué incluye el soporte de audio de Gemma 4, qué no incluye y cómo construir un flujo de voz fiable para mods de juegos, herramientas de NPC y pipelines de creadores en 2026.
gemma 4 31b 4-bit vram usage: Guía de hardware real y benchmarks 2026
Una guía práctica de 2026 sobre gemma 4 31b 4-bit vram usage, que incluye cálculos de memoria, comprobaciones de ajuste en GPU, expectativas de velocidad y consejos de ajuste para flujos de trabajo de IA local.
Ollama MLX Gemma4: Guía completa de configuración y ajuste local de IA 2026
Aprende a ejecutar Ollama MLX Gemma4 localmente para flujos de trabajo de gaming, soporte para modding, análisis de imágenes y prompts multimodales rápidos en 2026.
gemma 4 awq: Guía de configuración local de IA y flujo de trabajo para gamers 2026
Aprende a usar gemma 4 awq para flujos de trabajo gaming locales, privados y sin conexión en PC y teléfono, incluyendo selección de hardware, ajustes y consejos prácticos de optimización.
gemma 4 vllm support: Configuración completa, benchmarks y soluciones 2026
Aprende cómo habilitar gemma 4 vllm support para una inferencia rápida y escalable en flujos de trabajo de gaming, desde pruebas locales hasta despliegue en producción.
Requisitos de Gemma4 31B: Guía de hardware local y configuración 2026
Un desglose práctico de los requisitos de Gemma4 31B, incluyendo VRAM, RAM, almacenamiento, longitud de contexto y una lista de verificación paso a paso para despliegue local en 2026.
gemma 4 benchmark scores: Comparación completa de modelos y guía de hardware 2026
Un desglose práctico de gemma 4 benchmark scores, clasificaciones de modelos, necesidades de VRAM y consejos de configuración para elegir la versión correcta de Gemma 4 en 2026.
Benchmark SWE de Gemma 4: selección de modelos, rendimiento y guía de configuración 2026
Una guía práctica de 2026 para el benchmark SWE de Gemma 4, que incluye niveles de modelos, objetivos de hardware, rendimiento en programación y consejos de configuración local.
Gemma 4 Recursos
Todo lo que necesitas para empezar con Gemma 4 — desde la configuración local hasta la integración de API
Tutorial de Gemma 4
Gemma 4 se lanzó el 2 de abril de 2026 en cuatro tamaños oficiales: E2B, E4B, 26B A4B y 31B. La familia está diseñada para el despliegue de pesos abiertos bajo Apache 2.0, con modelos de borde más pequeños dirigidos a hardware de clase móvil y portátil, y modelos más grandes dirigidos a computadoras de escritorio, estaciones de trabajo y servidores.
Comprende los cuatro tamaños oficiales de Gemma 4
Gemma 4 viene en E2B, E4B, 26B A4B y 31B. E2B y E4B aceptan entrada de texto, imagen y audio; 26B A4B y 31B aceptan entrada de texto e imagen y están dirigidos a despliegues locales o de servidor más grandes.
Adapta el modelo a tu hardware
Usa E2B o E4B cuando desees una inferencia local compatible con dispositivos móviles, de borde o portátiles. Usa 26B A4B para un modelo local de propósito general más potente, y 31B cuando desees el punto de control oficial más grande de Gemma 4.
Elige un punto de partida
Gemma 4 26B A4B es una opción predeterminada sólida para primeras experiencias potentes. Si deseas el punto de partida más ligero, comienza con un modelo de borde ajustado por instrucciones y sube de nivel cuando tu carga de trabajo necesite más capacidad.
Elige cómo quieres probarlo
Prueba Gemma 4 alojado a través de Google AI Studio y la Gemini API, o descarga los pesos abiertos de Hugging Face o Kaggle para uso local, ajuste y despliegue personalizado.
Conoce para qué está optimizado Gemma 4
La familia está diseñada para el razonamiento, la programación, flujos de trabajo agénticos y comprensión multimodal. Los modelos de borde admiten un contexto de 128K, mientras que 26B A4B y 31B admiten un contexto de hasta 256K.
Quick Tips
- Las variantes ajustadas por instrucciones (-it) son mejores para casos de uso de chat y asistentes.
- E2B y E4B son los puntos de partida más accesibles a nivel de hardware para la experimentación local.
- El 26B A4B es un modelo MoE con una inferencia efectiva más rápida que un modelo denso de tamaño total similar.
- Todos los pesos de Gemma 4 se publican bajo la licencia Apache 2.0.
Configuración de Gemma 4 en Ollama
Ollama es una de las formas más rápidas de poner en marcha Gemma 4 en una computadora portátil o estación de trabajo. El flujo predeterminado de Ollama es simple: instala Ollama, descarga Gemma 4, confirma la lista de modelos, elige la etiqueta adecuada para tu hardware y luego ejecútalo desde la CLI o la API local.
Instala y verifica Ollama
Descarga Ollama para Windows, macOS o Linux, instálalo y verifica la configuración con el comando ollama --version.
Descarga la variante predeterminada de Gemma 4
Usa ollama pull gemma4 para descargar el paquete predeterminado de Gemma 4, luego ejecuta ollama list para confirmar que está disponible localmente.
Elige la etiqueta de modelo correcta
Usa gemma4:e2b para la opción de borde más ligera, gemma4:e4b para una opción de borde predeterminada más potente, gemma4:26b para el modelo de estación de trabajo MoE 26B A4B, y gemma4:31b para el modelo grande completo.
Conoce lo que espera cada etiqueta
En la página de la biblioteca de Ollama, e2b figura con 7.2GB y 128K de contexto, e4b con 9.6GB y 128K, 26b con 18GB y 256K, y 31b con 20GB y 256K.
Ejecuta tu primer prompt
Para una primera prueba de texto, ejecuta ollama run gemma4 "Hola, ¿qué puedes hacer?". Ollama también admite entrada de imágenes con el formato de prompt que se muestra en la guía oficial.
Usa la API local para la integración de aplicaciones
Ollama expone un servicio web local en http://localhost:11434/api/generate, por lo que puedes pasar de las pruebas en la CLI a una aplicación local ligera sin configurar un servidor de modelos independiente.
Quick Tips
- E2B y E4B son las primeras opciones prácticas para la experimentación local en hardware más ligero.
- La etiqueta 26b se dirige al modelo MoE 26B A4B, que utiliza menos cómputo activo que un modelo denso de tamaño total similar.
- ollama list muestra todos los modelos descargados localmente y sus tamaños.
- Ollama admite la entrada de imágenes con el formato de prompt: ollama run gemma4:e2b con una ruta de imagen.
Guía de la API de Gemma 4
La Gemini API proporciona acceso alojado a Gemma 4, lo cual es útil cuando se construye sin gestionar la inferencia local. Los modelos Gemma 4 alojados en AI Studio y la Gemini API son gemma-4-26b-a4b-it y gemma-4-31b-it.
Crea una clave de API en Google AI Studio
Abre Google AI Studio y crea una clave de Gemini API. Los nuevos usuarios pueden comenzar con un proyecto predeterminado de Google Cloud, mientras que los usuarios existentes pueden importar un proyecto de Cloud y crear claves allí.
Configura la clave en tu entorno
Los SDK de Gemini detectan automáticamente GEMINI_API_KEY o GOOGLE_API_KEY. Si ambas están configuradas, GOOGLE_API_KEY tiene prioridad.
Instala el SDK oficial
Para Python, instala google-genai. Para JavaScript y TypeScript, instala @google/genai. Google también publica rutas de SDK para Go, Java, C# y Apps Script.
Elige el ID del modelo Gemma 4 alojado
Para Gemma 4 alojado, usa gemma-4-26b-a4b-it para un modelo grande MoE más rápido, o gemma-4-31b-it para el punto de control denso insignia.
Envía una primera solicitud generateContent
El ejemplo oficial utiliza client.models.generate_content con el campo model establecido en gemma-4-31b-it. En REST, las solicitudes van al endpoint generateContent con el encabezado x-goog-api-key.
Usa AI Studio para pasar de las pruebas al código
Google AI Studio te permite experimentar con prompts, configuraciones de modelo, llamadas a funciones y salida estructurada, para luego exportar el código funcional a través del flujo Get code.
Quick Tips
- AI Studio es la forma más rápida de probar prompts de Gemma 4 antes de escribir cualquier código.
- La Gemini API admite respuestas en streaming para casos de uso de chat y generación larga.
- gemma-4-26b-a4b-it es el modelo MoE; generalmente es más rápido y eficiente en costos que el 31B.
- La llamada a funciones y la salida estructurada están disponibles para ambos IDs de modelo de Gemma 4 alojados.
Descarga de Gemma 4 en Hugging Face
La colección oficial de Google en Hugging Face incluye ocho puntos de control principales de Gemma 4: E2B, E4B, 26B A4B y 31B, cada uno en forma base y ajustada por instrucciones. Los repositorios ajustados por instrucciones (-it) son el punto de partida natural para experiencias de chat, programación y asistentes.
google/gemma-4-E2B-it
Punto de control de borde con entrada de texto, imagen y audio y contexto de 128K. Ideal para asistentes locales rápidos y experimentación multimodal en el dispositivo.
google/gemma-4-E4B-it
Punto de control de borde más potente con entrada de texto, imagen y audio y contexto de 128K. Más capaz que E2B sin necesidad de saltar a hardware de clase de estación de trabajo.
google/gemma-4-26B-A4B-it
Punto de control MoE con contexto de 256K y entrada de texto e imagen. Calidad de modelo grande con una inferencia efectiva más rápida que un modelo denso de tamaño total similar.
google/gemma-4-31B-it
Punto de control denso insignia de Gemma 4 con contexto de 256K y entrada de texto e imagen. Ideal para los flujos de trabajo más potentes de chat, razonamiento, programación y agentes.
google/gemma-4-E2B
Punto de control de borde base para usuarios que desean estudiar, adaptar o ajustar el modelo multimodal más pequeño de Gemma 4.
google/gemma-4-E4B
Punto de control de borde base que mantiene la entrada de texto, imagen y audio mientras deja el comportamiento de instrucciones posterior a tu propio flujo de ajuste.
google/gemma-4-26B-A4B
Punto de control grande MoE base para adaptación personalizada donde desees la arquitectura 26B A4B sin el comportamiento predeterminado ajustado por instrucciones.
google/gemma-4-31B
Punto de control denso 31B base para equipos que desean el modelo base oficial más grande de Gemma 4 antes de su propia etapa de ajuste o alineación.
Elija el tamaño de Gemma 4 adecuado para su hardware
Gemma 4 se distribuye en cuatro tamaños con compensaciones muy diferentes. La opción más rápida no siempre es el modelo más pequeño, y la opción de mayor calidad no siempre es la más fácil de implementar.
Gemma 4 está disponible en dos modelos densos optimizados para dispositivos finales, un modelo eficiente de Mixture-of-Experts y un modelo denso de gran tamaño. Para la mayoría de los equipos, la decisión real no es solo la calidad, sino dónde se ejecuta el modelo: teléfono, laptop, estación de trabajo o servidor. Un punto de partida práctico es el 26B A4B cuando se busca una calidad sólida sin dar el salto total al 31B.
Gemma 4 E2B
Asistentes sin conexión, aplicaciones multimodales ligeras, implementación en dispositivos finales
Gemma 4 E4B
Copilotos locales más potentes, razonamiento en el dispositivo, aplicaciones multimodales con más margen de maniobra
Gemma 4 26B A4B
El mejor equilibrio entre calidad, velocidad y trabajo de contexto largo para la mayoría de los equipos
Gemma 4 31B
Calidad de razonamiento, programación y multimodalidad de más alto nivel en la familia Gemma 4
Las especificaciones de Gemma 4 que realmente importan antes de construir
Para la mayoría de los desarrolladores, las preguntas clave son la longitud del contexto, las modalidades, la cobertura de idiomas, las licencias y las funciones a nivel de aplicación. Estas son las especificaciones que cambian las opciones de implementación, el costo de alojamiento y el alcance del producto.
Gemma 4 no es solo una actualización del modelo de texto. La familia combina contexto largo, entrada multimodal, modo de pensamiento, prompts de sistema nativos y soporte para llamadas a funciones en una línea de pesos abiertos. Los modelos más pequeños añaden entrada de audio, mientras que los modelos más grandes extienden el contexto a 256K para cargas de trabajo con muchos documentos y a escala de repositorio.
31 de marzo de 2026
Esta es la generación principal actual de Gemma y la que Google destaca ahora en sus documentos y materiales de lanzamiento.
Todos los modelos: texto e imagen → texto; E2B y E4B también admiten entrada de audio
Puede crear flujos de solo texto, visión y comprensión de voz ligera sin cambiar de familia de modelos.
128K tokens en E2B y E4B; 256K tokens en 26B A4B y 31B
Los prompts extensos, como documentos largos, chats prolongados o contexto de código de varios archivos, caben en una sola solicitud.
Más de 140 idiomas
Esto es importante para productos multilingües, OCR y asistentes implementados globalmente.
Licencia Apache 2.0 con pesos abiertos y soporte para uso comercial responsable
Puede ajustar, implementar y ejecutar Gemma 4 en su propia infraestructura con menos restricciones de licencia.
Modo de pensamiento configurable, soporte nativo para roles de sistema, salida JSON estructurada y llamadas a funciones
Estas funciones hacen que Gemma 4 sea mucho más fácil de usar para agentes, uso de herramientas y aplicaciones con muchas instrucciones.
Resoluciones de imagen variables y presupuestos de tokens de 70, 140, 280, 560 o 1120 tokens
Puede intercambiar el detalle de la imagen por velocidad dependiendo de si la tarea es OCR, lectura de interfaz de usuario, análisis de gráficos o procesamiento rápido de fotogramas.
Resumen oficial de los puntos de referencia de Gemma 4
Estos puntajes muestran dónde es más fuerte cada tamaño de Gemma 4 en razonamiento, programación, ciencia, visión y recuperación de contexto largo. Úselos para preseleccionar un modelo rápidamente y luego compare esa selección con su presupuesto de latencia y memoria.
Gemma 4 se posiciona como una familia de modelos para razonamiento, flujos de trabajo de agentes, programación y comprensión multimodal. Las tablas oficiales de puntos de referencia muestran un patrón claro: el 31B lidera, el 26B A4B se mantiene sorprendentemente cerca siendo mucho más eficiente, y el E4B y el E2B aportan una capacidad significativa a los dispositivos más pequeños.
MMLU Pro
Conocimiento y razonamiento
La mejor comparación rápida para el rendimiento general de razonamiento de alto nivel en toda la familia.
AIME 2026 (sin herramientas)
Razonamiento matemático
31B y 26B A4B son los objetivos adecuados para asistentes con gran carga matemática y tareas de planificación.
LiveCodeBench v6
Programación competitiva
Si la programación es un caso de uso principal, los dos modelos más grandes están en un nivel diferente al de los modelos para dispositivos finales.
GPQA Diamond
Razonamiento científico
Una señal sólida para flujos de trabajo técnicos y orientados a expertos.
MMMU Pro
Razonamiento multimodal
Las tareas de visión se benefician enormemente de los modelos más grandes cuando la precisión importa más que el tamaño de la instalación.
MRCR v2 (128K, 8 agujas)
Recuperación de contexto largo
Para prompts de documentos grandes y a escala de repositorio, 31B es la opción más sólida para contexto largo.
Cómo realizar el ajuste fino de Gemma 4 para trabajo de productos reales
El ajuste fino es importante cuando el prompting por sí solo no es suficiente y desea que Gemma 4 funcione mejor en un dominio, flujo de trabajo o rol específico. Las rutas prácticas son el ajuste de adaptadores ligeros para tareas de texto y el ajuste de adaptadores multimodales para tareas de imagen más texto.
La documentación oficial de ajuste de Gemma se centra en una regla simple: ajustar para una tarea definida, no para una mejora vaga. Para muchos desarrolladores, QLoRA es el punto de partida más realista porque mantiene los requisitos de hardware mucho más bajos que el ajuste del modelo completo.
Comience con un objetivo de ajuste específico
Elija una tarea o rol en el que el modelo base deba desempeñarse mejor, como atención al cliente, text-to-SQL o generación de descripciones de productos. Use el ajuste fino cuando la tarea sea específica y repetitiva.
Elija la ruta de ajuste
Use el ajuste de texto para tareas de instrucción y generación, o el ajuste de visión cuando su conjunto de datos combine imágenes y texto. La guía de QLoRA de texto demuestra text-to-SQL; la guía de QLoRA de visión demuestra descripciones de productos de imagen más texto.
Elija un framework realista
Gemma 4 es compatible con Keras con LoRA, la biblioteca de Gemma, flujos de trabajo basados en Hugging Face, GKE y Vertex AI. Hugging Face más TRL es la ruta más directa para muchos desarrolladores.
Adapte el flujo de trabajo a su hardware
El ejemplo oficial de QLoRA de texto está diseñado para una configuración T4 de 16 GB. La guía de QLoRA de visión requiere una GPU compatible con BF16, como NVIDIA L4 o A100 con más de 16 GB de memoria.
Use QLoRA cuando la eficiencia sea importante
QLoRA mantiene el modelo base cuantizado a 4 bits, congela los pesos originales y entrena solo los adaptadores LoRA añadidos. Esto reduce el uso de memoria mientras mantiene un sólido rendimiento en la tarea.
Prepare los datos en el formato correcto
Cree un conjunto de datos que coincida directamente con el comportamiento que desea, luego dele formato para el entrenamiento de estilo conversación con TRL y SFTTrainer. La guía oficial de texto utiliza un gran conjunto de datos sintéticos de text-to-SQL.
Evalúe, compare y despliegue
Después del entrenamiento, realice comprobaciones de inferencia contra su modelo base, verifique las mejoras en la tarea y luego despliegue el modelo ajustado o el adaptador. Trate el formato de despliegue como una decisión temprana porque la elección del framework afecta el formato de salida que obtendrá.
Quick Tips
- Comience con QLoRA y una GPU de clase T4 para tareas de texto; rara vez se necesita un ajuste fino completo para la adaptación de tareas.
- Formatee su conjunto de datos para reflejar el formato de chat ajustado por instrucciones que Gemma 4 ya entiende.
- Mantenga su conjunto de evaluación con la misma distribución que sus datos de entrenamiento para obtener señales de mejora significativas.
- El modelo MoE 26B A4B tiene parámetros activos eficientes, pero su recuento total de parámetros aún afecta el tamaño del checkpoint durante el entrenamiento.
- Use el checkpoint Gemma 4 -it como punto de partida para tareas de instrucción en lugar de la base pre-entrenada.
Guía de prompts de Gemma 4
Gemma 4 introduce un nuevo formato de prompt basado en turnos con instrucciones de sistema nativas, marcadores de posición multimodales y controles integrados para el pensamiento y el uso de herramientas.
Esta guía convierte el formato oficial de Gemma 4 en una biblioteca de prompts práctica. Estructure cada interacción como turnos, use el rol de sistema para el comportamiento y las reglas globales, inserte marcadores de posición de imagen o audio donde sea necesario y solo habilite el pensamiento o el uso de herramientas cuando la tarea realmente se beneficie de ellos.
Esqueleto central del chat
Gemma 4 utiliza roles nativos de sistema, usuario y modelo, envueltos en marcadores de turno.
- Use system para instrucciones globales
- Use user para la solicitud actual
- Use model como punto de inicio de la generación
Patrón de prompt de sistema
Coloque las reglas de comportamiento estables en un turno de sistema en lugar de repetirlas cada vez.
- Ideal para estilo, alcance y formato de salida
- El soporte nativo del rol de sistema comienza con Gemma 4
- Manténgalo conciso y específico para la tarea
Marcadores de posición multimodales
Use tokens de marcador de posición para indicar dónde deben insertarse los embeddings de imagen y audio.
- Use <|image|> para imágenes
- Use <|audio|> para audio
- El procesador reemplaza los marcadores de posición con embeddings después de la tokenización
Prompt listo para el pensamiento
El modo de pensamiento se activa colocando <|think|> dentro de la instrucción del sistema.
- Habilítelo para tareas con mucha carga de razonamiento
- Manténgalo desactivado para generaciones directas simples
- Use un turno de sistema tanto para el pensamiento como para otras instrucciones globales
Estructura de prompt consciente de herramientas
Las declaraciones de herramientas pertenecen al turno del sistema, y las llamadas y respuestas de herramientas se manejan con tokens de control dedicados.
- Útil para APIs, búsquedas, calculadoras y consultas de datos externos
- El uso de herramientas está estructurado, no es una simulación de texto plano
- El razonamiento y el uso de herramientas pueden ocurrir en el mismo turno
Modo de pensamiento de Gemma 4
El modo de pensamiento permite que Gemma 4 produzca un canal de razonamiento antes de la respuesta final, y el procesador puede separar ambas partes para el uso de la aplicación.
El modo de pensamiento es ideal para tareas en las que el modelo se beneficia de un razonamiento intermedio antes de responder: preguntas ambiguas, matemáticas, codificación, planificación de herramientas y análisis multimodal. En Gemma 4, puede habilitarlo a nivel de plantilla de chat, transmitir el razonamiento en vivo y luego dividir la salida en un bloque de pensamiento y un bloque de respuesta para el usuario.
Elija las tareas adecuadas
Use el modo de pensamiento cuando la solicitud necesite descomposición, comparación, planificación o una interpretación cuidadosa en lugar de una respuesta directa corta.
- Casos ideales: matemáticas, depuración de código, toma de decisiones estructurada, razonamiento de imagen más texto
- Menos necesario para reescrituras simples, resúmenes cortos o hechos directos
- Los ejemplos oficiales cubren flujos de trabajo tanto de solo texto como de imagen-texto
Habilite el pensamiento en la plantilla de chat
Con Hugging Face Transformers, establezca enable_thinking=True en apply_chat_template(). A nivel de token, Gemma 4 utiliza <|think|> en el turno del sistema.
- E2B y E4B: el pensamiento desactivado (OFF) utiliza un flujo simple usuario-modelo; el pensamiento activado (ON) añade un turno de sistema con <|think|>
- 26B A4B y 31B: las plantillas oficiales incluyen un token de pensamiento vacío cuando el pensamiento está desactivado para estabilizar la salida
- El pensamiento está diseñado para habilitarse a nivel de conversación
Genere y separe el resultado
El modelo puede emitir un canal de razonamiento primero y la respuesta final después. Puede transmitirlo con TextStreamer y dividirlo con parse_response().
- processor.parse_response() devuelve el contenido de pensamiento y respuesta por separado
- Esto funciona para prompts de texto y prompts de imagen-texto
- El canal de razonamiento también puede incluir llamadas a herramientas cuando el turno se vuelve agéntico
Maneje correctamente los chats de varios turnos
Para conversaciones normales de varios turnos, elimine los pensamientos generados en el turno anterior antes de enviar el historial de vuelta. En los turnos de llamada a herramientas, mantenga el flujo de pensamiento intacto hasta que termine el ciclo de la herramienta.
- Chat regular: elimine los bloques de pensamiento previos antes del siguiente turno
- Excepción de uso de herramientas: no elimine los pensamientos entre llamadas a funciones dentro del mismo turno
- Esto mantiene el contexto limpio mientras se preserva el comportamiento agéntico
Llamada a funciones de Gemma 4
Gemma 4 admite el uso nativo de herramientas estructuradas, lo que permite que el modelo solicite funciones en lugar de simular acciones externas en texto plano.
La llamada a funciones es el puente práctico entre la salida del modelo y el comportamiento real de la aplicación. En lugar de pedirle a Gemma 4 que adivine datos en tiempo real o simule acciones, usted define herramientas, permite que el modelo genere una llamada estructurada, ejecuta la función en su aplicación y luego devuelve el resultado para que el modelo pueda finalizar con una respuesta clara en lenguaje natural.
Defina las herramientas con claridad
Pase las herramientas a través de apply_chat_template() utilizando un esquema JSON manual o una función de Python pura convertida a esquema.
- El esquema JSON manual es mejor cuando se necesitan parámetros anidados precisos
- Las funciones de Python puras son convenientes para herramientas simples con sugerencias de tipo y docstrings claros
- Las definiciones de herramientas deben incluir nombre, descripción, tipos de parámetros y campos obligatorios
Permita que el modelo solicite una herramienta
Gemma 4 recibe el prompt del usuario junto con las herramientas disponibles y devuelve un objeto de llamada a función estructurado en lugar de texto plano cuando se necesita una herramienta.
- El uso de herramientas se controla con tokens dedicados como tool, tool_call y tool_response
- Un ejemplo típico es una función de clima o de búsqueda
- Esto es mejor que el texto plano cuando la respuesta depende de un estado externo o de acciones del sistema
Valide y ejecute en su aplicación
Gemma 4 no puede ejecutar código por sí sola. Su aplicación debe analizar el nombre de la función y los argumentos, validarlos y ejecutar la función real de forma segura.
- Valide siempre los nombres de las funciones y los argumentos antes de la ejecución
- No confíe en el código generado sin medidas de seguridad
- Para sistemas de producción, asocie los nombres de las herramientas con controladores aprobados en lugar de una ejecución dinámica
Devuelva la salida de la herramienta para la respuesta final
Agregue el resultado de la herramienta al historial del chat y luego deje que Gemma 4 genere la respuesta final para el usuario.
- Flujo de trabajo oficial: definir herramientas, turno del modelo, turno del desarrollador, respuesta final
- Este patrón funciona para APIs, búsquedas en vivo, calculadoras, actualizaciones de configuración y bucles de agentes
- Las respuestas de las herramientas deben mantenerse estructuradas para que el modelo pueda fundamentar la respuesta final correctamente
Guía multimodal de Gemma 4
Gemma 4 maneja texto e imágenes en todos los modelos, admite video como fotogramas y añade soporte nativo de audio en E2B y E4B.
Gemma 4 está diseñada para entradas multimodales. Todos los modelos admiten la comprensión visual de imágenes y videos, los modelos pequeños añaden entrada de audio y el tiempo de ejecución permite equilibrar el detalle visual frente a la velocidad mediante presupuestos de tokens. Esto hace que Gemma 4 sea adecuada para OCR, subtitulado, detección de objetos, tareas de voz y prompts de medios mixtos dentro de un mismo flujo de chat.
Comprensión de imágenes
Todos los modelos de Gemma 4 admiten flujos de trabajo de texto más imagen.
- Tareas comunes: OCR, detección de objetos, respuesta a preguntas visuales, subtitulado de imágenes
- Admite el razonamiento a través de múltiples imágenes en un solo prompt
- Ideal para capturas de pantalla, documentos, imágenes de productos y análisis de escenas
Comprensión de video
Todos los modelos de Gemma 4 pueden procesar video como una secuencia de fotogramas.
- Útil para descripción de escenas, interacción humana y resúmenes situacionales
- El video se pasa como un elemento de contenido en el arreglo de mensajes
- La duración máxima de video admitida es de 60 segundos a 1 fotograma por segundo
Comprensión de audio
El audio está disponible en los modelos E2B y E4B.
- Admite reconocimiento de voz multilingüe, traducción de voz y comprensión general del habla
- El costo de tokens de audio es de 25 tokens por segundo
- La duración máxima de audio es de 30 segundos
Presupuestos de tokens visuales
Gemma 4 introduce el procesamiento de imágenes de resolución variable para que pueda elegir velocidad o detalle según la tarea.
- Presupuestos de imagen admitidos: 70, 140, 280, 560, 1120 tokens
- Presupuestos más bajos para clasificación rápida, subtitulado y análisis de fotogramas de video
- Presupuestos más altos para OCR, análisis de documentos y lectura de texto pequeño
Reglas de preparación de entrada
El procesador se encarga de gran parte del formateo de medios, pero algunos límites son importantes en producción.
- El audio debe ser mono, 16 kHz, float32, normalizado a [-1, 1]
- El soporte de archivos de imagen depende del framework utilizado para convertir archivos en tensores
- La calidad del prompt sigue siendo importante: las instrucciones específicas superan a las solicitudes multimodales vagas
División de capacidades del modelo
Utilice los modelos más pequeños para casos de uso móviles y centrados en voz, y los modelos más grandes para un razonamiento más pesado con contexto largo.
- E2B y E4B: modelos pequeños con capacidad de audio y contexto de 128K
- 26B A4B y 31B: modelos más grandes enfocados en el razonamiento con contexto de 256K
- Los cuatro tamaños oficiales están disponibles en variantes base y ajustadas por instrucciones
Gemma 4 GGUF y cuantización
Elija la huella de Gemma 4 más pequeña que se ajuste a su máquina
Para la mayoría de las configuraciones locales, la decisión práctica es si quedarse con E2B o E4B, o subir a una compilación GGUF de 26B A4B. Google documenta las necesidades aproximadas de memoria para las opciones de implementación BF16, SFP8 y estilo de 4 bits en los cuatro tamaños oficiales.
Puntos de entrada locales oficiales
La guía de Ollama de Google expone cuatro etiquetas de Gemma 4: gemma4:e2b, gemma4:e4b, gemma4:26b y gemma4:31b. LM Studio también admite modelos Gemma tanto en formato GGUF como MLX para inferencia totalmente local.
Comience con E2B o E4B para un ciclo local más ligero, y pase a 26B o 31B solo cuando tenga el presupuesto de RAM necesario y desee un modelo de razonamiento más sólido.
Memoria aproximada por tamaño oficial
Google enumera la memoria de inferencia aproximada como E2B 9.6 GB BF16 / 3.2 GB Q4_0, E4B 15 GB / 5 GB, 26B A4B 48 GB / 15.6 GB y 31B 58.3 GB / 17.4 GB.
Si su objetivo es una máquina local convencional, la implementación de estilo de 4 bits o un tamaño de modelo más pequeño suele ser la línea entre lo ejecutable y lo impráctico.
Ejemplo oficial de 26B A4B GGUF
La página oficial de ggml-org para Gemma 4 26B A4B IT GGUF recomienda llama-server para el inicio y enumera Q4_K_M en 16.8 GB, Q8_0 en 26.9 GB y F16 en 50.5 GB.
Q4_K_M es el valor predeterminado más práctico cuando se desea un modelo Gemma 4 local grande pero no se puede costear el uso de memoria de Q8_0 o de 16 bits completos.
Qué cambia la cuantización
Los recuentos de parámetros más altos y la mayor precisión son generalmente más capaces, pero cuestan más ciclos de procesamiento, memoria y energía. La menor precisión reduce esos costos pero puede disminuir la capacidad.
Utilice la cuantización para ajustar el modelo a su hardware: las compilaciones GGUF más pequeñas le ayudan a ejecutar localmente, pero son un compromiso de implementación en lugar de una mejora gratuita.
Guía de Gemma 4 para PyTorch
Ejecuta Gemma 4 desde un entorno centrado en PyTorch
La vía más rápida de Python para Gemma 4 es Hugging Face Transformers sobre PyTorch: instala torch y transformers, elige un ID de modelo de Gemma 4 y comienza con la inferencia de texto basada en pipelines antes de pasar a flujos de trabajo multimodales o habilitados para herramientas.
Instala el entorno de ejecución
La guía de inferencia de texto de Gemma 4 de Google comienza con torch, accelerate y transformers, además de dialog para el manejo de conversaciones.
Elige un checkpoint oficial de Gemma 4
Los ejemplos de Gemma 4 de Google muestran cuatro IDs oficiales ajustados por instrucciones: google/gemma-4-E2B-it, google/gemma-4-E4B-it, google/gemma-4-26B-A4B-it y google/gemma-4-31B-it.
Comienza con la generación de texto
Usa transformers.pipeline con task="text-generation", device_map="auto" y dtype="auto" como la forma más rápida de obtener una primera respuesta.
Pasa a flujos multimodales y herramientas cuando sea necesario
Para flujos de trabajo multimodales y de llamada a funciones, usa AutoProcessor y AutoModelForMultimodalLM con apply_chat_template para prompts conscientes de herramientas.
Usa PyTorch nativo para un control más profundo
La guía de PyTorch de Google documenta la configuración de credenciales de Kaggle, la instalación de dependencias, la clonación de gemma_pytorch y la carga de clases de modelos multimodales para la experimentación con control directo de checkpoints.
Despliegue móvil de Gemma 4
Lleva Gemma 4 a dispositivos móviles a través del stack actual de Android
Gemma 4 ahora tiene tres rutas prácticas para móviles: ML Kit Prompt API en dispositivos de vista previa de AICore, flujos de trabajo de modelos locales de Android Studio para uso de desarrolladores y LiteRT-LM para un control del entorno de ejecución de bajo nivel en dispositivos móviles y embebidos.
Elige la ruta que coincida con tu objetivo
Usa ML Kit Prompt API en AICore si estás creando una experiencia de aplicación para Android, modelos locales de Android Studio si deseas ayuda de codificación sin conexión y LiteRT-LM si necesitas un control del entorno de ejecución de bajo nivel.
Prototipa en el dispositivo con AICore
La vista previa de abril de 2026 de Google te permite apuntar a Gemma 4 E2B o E4B a través de la configuración de preferencia de modelo dentro del flujo de la Prompt API en dispositivos habilitados para AICore.
Conoce las expectativas del dispositivo
Los modelos de vista previa se ejecutan en dispositivos habilitados para AICore y en los aceleradores de IA más recientes de Google, MediaTek y Qualcomm. AI Edge Gallery está disponible para comprobaciones rápidas de modelos en dispositivos que no son AICore.
Usa Android Studio para flujos de trabajo de desarrolladores
Android Studio recomienda actualmente a Gemma 4 como su opción de modelo local. Gemma E4B requiere 12 GB de RAM y 4 GB de almacenamiento; Gemma 26B MoE requiere 24 GB de RAM y 17 GB de almacenamiento.
Cambia a LiteRT-LM para un control más profundo del entorno de ejecución
LiteRT-LM es una biblioteca multiplataforma para pipelines de modelos de lenguaje desde teléfonos hasta sistemas embebidos, con rutas de CPU, GPU y NPU que incluyen Qualcomm AI Engine Direct y MediaTek NeuroPilot.
Gemma 4 frente a Gemma 3
Descubre qué cambia realmente al pasar de Gemma 3 a Gemma 4
Esta comparación es para desarrolladores que deciden si mantener un flujo de trabajo existente de Gemma 3 o reconstruirlo en torno a Gemma 4. Las diferencias más claras aparecen en la longitud del contexto, el formato de control, el alcance multimodal y el rendimiento de los benchmarks en el nivel superior de cada familia.
Lanzamiento y tamaños principales
Gemma 4 reduce la familia en torno a niveles de despliegue más claros: modelos E centrados en el borde y modelos más grandes de clase estación de trabajo.
Ventana de contexto
Para documentos largos, trazas de herramientas o historiales de varios pasos, los modelos más grandes de Gemma 4 ofrecen un margen significativamente mayor.
Multimodalidad
Gemma 4 es la familia multimodal más amplia si tu caso de uso va más allá de imagen-texto hacia video, flujos con mucho OCR o modelos de borde con capacidad de audio.
Formato de prompt y control
Los equipos que crean agentes o flujos de trabajo estructurados obtienen una superficie de control más limpia en Gemma 4.
Instantánea de benchmarks de nivel superior
Si se actualiza por razonamiento, codificación o preguntas y respuestas de alta dificultad, el salto del nivel superior de Gemma 4 es lo suficientemente grande como para justificar una migración.
Perfil de despliegue
Quédate en Gemma 3 cuando los tamaños clásicos pequeños ya se ajusten a tu stack; cámbiate a Gemma 4 cuando desees nuevas funciones de control, modelos superiores con mayor contexto o variantes más potentes orientadas al borde.