Gemma 4 Wiki
Sigue los tamaños de modelos de Gemma 4, benchmarks, prompting, llamada a funciones, entrada multimodal, despliegue local y ajuste fino en el ecosistema oficial de Google.

Latest Updates
Discover the newest guides, tips, and content
Gemma 4 Ollama MLX: Guía Avanzada de IA Local 2026
Domina el despliegue y el ajuste fino de Gemma 4 usando Ollama y MLX. Guía completa de 2026 para Apple Silicon y rendimiento de escritorio de alta gama.
Gemma 4 Phone: Guía Definitiva de Integración de IA Móvil 2026
Explora el poder de la integración de Gemma 4 en teléfonos. Conoce los modelos Effective 2B y 4B, los flujos de trabajo agénticos centrados en móviles y el rendimiento de la IA en el dispositivo en 2026.
Gemma 4 vs GPT: Guía Definitiva de Lógica y Rendimiento de IA 2026
Una comparativa profunda entre Gemma 4 de Google y GPT-5.4 de OpenAI. Descubre qué modelo de IA lidera en razonamiento causal, acertijos lógicos y eficiencia.
Gemma 4 para PC: Guía de rendimiento y configuración de IA local 2026
Aprende cómo ejecutar Gemma 4 de Google en tu PC. Explora comparativas para los modelos E2B, 26B y 31B, requisitos de hardware y consejos de optimización para IA local.
Instalación de Gemma 4: Guía completa de configuración local 2026
Aprenda cómo realizar una instalación de Gemma 4 en hardware de consumo. Nuestra guía cubre la optimización Turbo Quant, la configuración de Atomic Bot y la configuración de IA local.
Fecha de Lanzamiento de Gemma 4: Guía Completa del Nuevo Modelo Abierto de Google 2026
Google ha lanzado oficialmente Gemma 4. Explora la fecha de lanzamiento de gemma 4, las especificaciones del modelo, los requisitos de hardware y cómo utilizar estos modelos de código abierto para tus proyectos.
Gemma 4 vs Gemini: Comparativa de rendimiento de modelos abiertos 2026
Compara los modelos abiertos Gemma 4 de Google con la suite propietaria Gemini. Descubre benchmarks, capacidades agénticas y requisitos de hardware local.
Gemma 4 Qué es: Guía Completa de los Modelos de IA Abiertos de Google 2026
Explora todo sobre el lanzamiento de Gemma 4 de Google, incluyendo la licencia Apache 2.0, los modelos para estaciones de trabajo y dispositivos periféricos (edge), y las funciones nativas de multimodalidad.
Gemma 4 Offline: Cómo ejecutar localmente la potente IA de Google en 2026
Aprenda a descargar y ejecutar Gemma 4 sin conexión en su ordenador. Una guía completa sobre los modelos de IA de código abierto de Google, requisitos de hardware y pasos de configuración local.
Modelos Gemma 4: Guía completa de la IA abierta de Google 2026
Explora todas las capacidades de los modelos Gemma 4. Conoce las variantes 26B MoE y 31B Dense, sus aplicaciones en juegos y pruebas de rendimiento.
Reseña de Gemma 4: Guía de la nueva familia de modelos abiertos de Google 2026
Una reseña profunda de Gemma 4 que cubre la nueva licencia Apache 2.0, los modelos de estación de trabajo y Edge, y las capacidades multimodales nativas. Actualizado para 2026.
Laptop para Gemma 4: Guía de los mejores modelos de IA locales y hardware 2026
Aprende a optimizar la configuración de tu laptop para Gemma 4. Descubre los mejores modelos de IA locales para razonamiento, programación y flujos de trabajo agénticos en 2026.
Configuración de Gemma 4 en Ollama: Ejecute los modelos abiertos más potentes de Google en 2026
Aprenda a realizar una configuración completa de Gemma 4 en Ollama para ejecutar localmente los últimos modelos de IA de código abierto de Google. Guía detallada sobre hardware, integración con OpenClaw y optimización.
Gemma 4 Multimodal: Guía completa de los nuevos modelos abiertos de Google 2026
Explora las capacidades revolucionarias de los modelos multimodales Gemma 4. Conoce las arquitecturas 26B y 31B, el rendimiento en juegos y consejos para el despliegue local.
Actualización de Gemma 4 para Ollama: Cómo ejecutar los nuevos modelos abiertos de Google 2026
Explora la masiva actualización de Gemma 4 para Ollama. Aprende a instalar los modelos 31B, 26B MoE y Effective 4B localmente para flujos de trabajo agénticos y programación.
Tutorial de Gemma 4: Domina los modelos de IA abiertos de Google 2026
Aprende a desplegar y realizar el ajuste fino de los modelos Gemma 4 de Google. Nuestro tutorial completo cubre la multimodalidad, la arquitectura MoE y la configuración local para 2026.
Gemma 4 Ollama: Ejecuta la IA de Google optimizada para Edge localmente en 2026
Aprende cómo instalar y optimizar Gemma 4 E4B usando Ollama y OpenClaw. Una guía completa para el despliegue de IA local con tecnología de embeddings por capa.
Tamaño de Gemma 4: Guía completa de comparación de modelos y especificaciones 2026
Explora las diferentes opciones de tamaño de Gemma 4, desde modelos listos para dispositivos de borde hasta potentes niveles para estaciones de trabajo. Compara parámetros, requisitos de hardware y funciones multimodales.
Guía de Gemma 4 26B: Explorando el poder del modelo abierto de Google 2026
Una guía completa sobre el modelo Mixture of Experts Gemma 4 26B. Conozca su arquitectura, rendimiento local y capacidades agénticas en 2026.
Requisitos de memoria de Gemma 4: Guía completa de hardware 2026
Conozca los requisitos exactos de memoria de Gemma 4 para el despliegue local. Explore las necesidades de VRAM para los modelos 31B, 26B MoE y Edge con nuestra guía detallada de hardware 2026.
Descarga de Gemma 4: Guía completa de configuración local de IA 2026
Aprenda cómo completar la descarga de Gemma 4 y configurar el modelo de IA de código abierto más potente de Google de forma local usando Atomic Bot y Openclaw.
Gemma 4 Windows: Guía completa de configuración de IA local 2026
Aprenda a instalar y optimizar Gemma 4 en Windows. Nuestra guía exhaustiva cubre requisitos de hardware, modelos MoE vs. Dense y flujos de trabajo de agentes locales.
Benchmark de Gemma 4: Análisis de Rendimiento y Guía de Modelos 2026
Explore los últimos resultados del benchmark de Gemma 4, las mejoras de arquitectura y las estrategias de implementación para los nuevos modelos de pesos abiertos Apache 2.0 de Google.
Modo de Pensamiento de Gemma 4: Guía de Optimización y Hardware 2026
Domina el nuevo modo de pensamiento de Gemma 4 para un razonamiento avanzado. Aprende sobre la arquitectura A4B, la optimización de la latencia y los requisitos de hardware para el alojamiento local de IA.
Requisitos de Gemma 4: Guía de Hardware y Software 2026
Explore los requisitos oficiales de Gemma 4 para los modelos Workstation y Edge. Conozca las necesidades de VRAM, la compatibilidad de GPU y consejos de implementación.
Lanzamiento de Gemma 4: Guía completa de los nuevos modelos abiertos de Google 2026
Explore el lanzamiento oficial de Gemma 4, incluyendo las variantes de los modelos, la licencia Apache 2.0 y las capacidades de flujo de trabajo agéntico para el desarrollo local de IA.
Gemma 4 vs Gemma 3: Comparativa de los modelos abiertos de próxima generación de Google 2026
Una inmersión profunda en las diferencias arquitectónicas, las pruebas de rendimiento y las capacidades agénticas de Gemma 4 frente a Gemma 3. Descubre qué modelo se adapta a tu hardware.
Gemma 4 vs Qwen 3.6: Los mejores modelos de IA para gaming y desarrolladores en 2026
Compara Gemma 4 de Google y Qwen 3.6 de Alibaba. Descubre qué modelo gana en integración local para juegos, programación y rendimiento multimodal en 2026.
Prueba de programación de Gemma 4: Benchmarks de los modelos abiertos de Google 2026
Una prueba de programación exhaustiva de Gemma 4 que cubre desarrollo web, motores de juegos 3D y rendimiento local. Vea cómo se comparan los modelos 26B y 31B en escenarios del mundo real.
Gemma 4 explicado: Guía completa de los nuevos modelos de IA de Google 2026
Aprenda todo sobre la serie Gemma 4 de Google. Desde capacidades multimodales hasta requisitos de hardware local, aquí está la guía completa de Gemma 4 explicado.
Gemma 4 Recursos
Todo lo que necesitas para empezar con Gemma 4 — desde la configuración local hasta la integración de API
Tutorial de Gemma 4
Gemma 4 se lanzó el 2 de abril de 2026 en cuatro tamaños oficiales: E2B, E4B, 26B A4B y 31B. La familia está diseñada para el despliegue de pesos abiertos bajo Apache 2.0, con modelos de borde más pequeños dirigidos a hardware de clase móvil y portátil, y modelos más grandes dirigidos a computadoras de escritorio, estaciones de trabajo y servidores.
Comprende los cuatro tamaños oficiales de Gemma 4
Gemma 4 viene en E2B, E4B, 26B A4B y 31B. E2B y E4B aceptan entrada de texto, imagen y audio; 26B A4B y 31B aceptan entrada de texto e imagen y están dirigidos a despliegues locales o de servidor más grandes.
Adapta el modelo a tu hardware
Usa E2B o E4B cuando desees una inferencia local compatible con dispositivos móviles, de borde o portátiles. Usa 26B A4B para un modelo local de propósito general más potente, y 31B cuando desees el punto de control oficial más grande de Gemma 4.
Elige un punto de partida
Gemma 4 26B A4B es una opción predeterminada sólida para primeras experiencias potentes. Si deseas el punto de partida más ligero, comienza con un modelo de borde ajustado por instrucciones y sube de nivel cuando tu carga de trabajo necesite más capacidad.
Elige cómo quieres probarlo
Prueba Gemma 4 alojado a través de Google AI Studio y la Gemini API, o descarga los pesos abiertos de Hugging Face o Kaggle para uso local, ajuste y despliegue personalizado.
Conoce para qué está optimizado Gemma 4
La familia está diseñada para el razonamiento, la programación, flujos de trabajo agénticos y comprensión multimodal. Los modelos de borde admiten un contexto de 128K, mientras que 26B A4B y 31B admiten un contexto de hasta 256K.
Quick Tips
- Las variantes ajustadas por instrucciones (-it) son mejores para casos de uso de chat y asistentes.
- E2B y E4B son los puntos de partida más accesibles a nivel de hardware para la experimentación local.
- El 26B A4B es un modelo MoE con una inferencia efectiva más rápida que un modelo denso de tamaño total similar.
- Todos los pesos de Gemma 4 se publican bajo la licencia Apache 2.0.
Configuración de Gemma 4 en Ollama
Ollama es una de las formas más rápidas de poner en marcha Gemma 4 en una computadora portátil o estación de trabajo. El flujo predeterminado de Ollama es simple: instala Ollama, descarga Gemma 4, confirma la lista de modelos, elige la etiqueta adecuada para tu hardware y luego ejecútalo desde la CLI o la API local.
Instala y verifica Ollama
Descarga Ollama para Windows, macOS o Linux, instálalo y verifica la configuración con el comando ollama --version.
Descarga la variante predeterminada de Gemma 4
Usa ollama pull gemma4 para descargar el paquete predeterminado de Gemma 4, luego ejecuta ollama list para confirmar que está disponible localmente.
Elige la etiqueta de modelo correcta
Usa gemma4:e2b para la opción de borde más ligera, gemma4:e4b para una opción de borde predeterminada más potente, gemma4:26b para el modelo de estación de trabajo MoE 26B A4B, y gemma4:31b para el modelo grande completo.
Conoce lo que espera cada etiqueta
En la página de la biblioteca de Ollama, e2b figura con 7.2GB y 128K de contexto, e4b con 9.6GB y 128K, 26b con 18GB y 256K, y 31b con 20GB y 256K.
Ejecuta tu primer prompt
Para una primera prueba de texto, ejecuta ollama run gemma4 "Hola, ¿qué puedes hacer?". Ollama también admite entrada de imágenes con el formato de prompt que se muestra en la guía oficial.
Usa la API local para la integración de aplicaciones
Ollama expone un servicio web local en http://localhost:11434/api/generate, por lo que puedes pasar de las pruebas en la CLI a una aplicación local ligera sin configurar un servidor de modelos independiente.
Quick Tips
- E2B y E4B son las primeras opciones prácticas para la experimentación local en hardware más ligero.
- La etiqueta 26b se dirige al modelo MoE 26B A4B, que utiliza menos cómputo activo que un modelo denso de tamaño total similar.
- ollama list muestra todos los modelos descargados localmente y sus tamaños.
- Ollama admite la entrada de imágenes con el formato de prompt: ollama run gemma4:e2b con una ruta de imagen.
Guía de la API de Gemma 4
La Gemini API proporciona acceso alojado a Gemma 4, lo cual es útil cuando se construye sin gestionar la inferencia local. Los modelos Gemma 4 alojados en AI Studio y la Gemini API son gemma-4-26b-a4b-it y gemma-4-31b-it.
Crea una clave de API en Google AI Studio
Abre Google AI Studio y crea una clave de Gemini API. Los nuevos usuarios pueden comenzar con un proyecto predeterminado de Google Cloud, mientras que los usuarios existentes pueden importar un proyecto de Cloud y crear claves allí.
Configura la clave en tu entorno
Los SDK de Gemini detectan automáticamente GEMINI_API_KEY o GOOGLE_API_KEY. Si ambas están configuradas, GOOGLE_API_KEY tiene prioridad.
Instala el SDK oficial
Para Python, instala google-genai. Para JavaScript y TypeScript, instala @google/genai. Google también publica rutas de SDK para Go, Java, C# y Apps Script.
Elige el ID del modelo Gemma 4 alojado
Para Gemma 4 alojado, usa gemma-4-26b-a4b-it para un modelo grande MoE más rápido, o gemma-4-31b-it para el punto de control denso insignia.
Envía una primera solicitud generateContent
El ejemplo oficial utiliza client.models.generate_content con el campo model establecido en gemma-4-31b-it. En REST, las solicitudes van al endpoint generateContent con el encabezado x-goog-api-key.
Usa AI Studio para pasar de las pruebas al código
Google AI Studio te permite experimentar con prompts, configuraciones de modelo, llamadas a funciones y salida estructurada, para luego exportar el código funcional a través del flujo Get code.
Quick Tips
- AI Studio es la forma más rápida de probar prompts de Gemma 4 antes de escribir cualquier código.
- La Gemini API admite respuestas en streaming para casos de uso de chat y generación larga.
- gemma-4-26b-a4b-it es el modelo MoE; generalmente es más rápido y eficiente en costos que el 31B.
- La llamada a funciones y la salida estructurada están disponibles para ambos IDs de modelo de Gemma 4 alojados.
Descarga de Gemma 4 en Hugging Face
La colección oficial de Google en Hugging Face incluye ocho puntos de control principales de Gemma 4: E2B, E4B, 26B A4B y 31B, cada uno en forma base y ajustada por instrucciones. Los repositorios ajustados por instrucciones (-it) son el punto de partida natural para experiencias de chat, programación y asistentes.
google/gemma-4-E2B-it
Punto de control de borde con entrada de texto, imagen y audio y contexto de 128K. Ideal para asistentes locales rápidos y experimentación multimodal en el dispositivo.
google/gemma-4-E4B-it
Punto de control de borde más potente con entrada de texto, imagen y audio y contexto de 128K. Más capaz que E2B sin necesidad de saltar a hardware de clase de estación de trabajo.
google/gemma-4-26B-A4B-it
Punto de control MoE con contexto de 256K y entrada de texto e imagen. Calidad de modelo grande con una inferencia efectiva más rápida que un modelo denso de tamaño total similar.
google/gemma-4-31B-it
Punto de control denso insignia de Gemma 4 con contexto de 256K y entrada de texto e imagen. Ideal para los flujos de trabajo más potentes de chat, razonamiento, programación y agentes.
google/gemma-4-E2B
Punto de control de borde base para usuarios que desean estudiar, adaptar o ajustar el modelo multimodal más pequeño de Gemma 4.
google/gemma-4-E4B
Punto de control de borde base que mantiene la entrada de texto, imagen y audio mientras deja el comportamiento de instrucciones posterior a tu propio flujo de ajuste.
google/gemma-4-26B-A4B
Punto de control grande MoE base para adaptación personalizada donde desees la arquitectura 26B A4B sin el comportamiento predeterminado ajustado por instrucciones.
google/gemma-4-31B
Punto de control denso 31B base para equipos que desean el modelo base oficial más grande de Gemma 4 antes de su propia etapa de ajuste o alineación.
Elija el tamaño de Gemma 4 adecuado para su hardware
Gemma 4 se distribuye en cuatro tamaños con compensaciones muy diferentes. La opción más rápida no siempre es el modelo más pequeño, y la opción de mayor calidad no siempre es la más fácil de implementar.
Gemma 4 está disponible en dos modelos densos optimizados para dispositivos finales, un modelo eficiente de Mixture-of-Experts y un modelo denso de gran tamaño. Para la mayoría de los equipos, la decisión real no es solo la calidad, sino dónde se ejecuta el modelo: teléfono, laptop, estación de trabajo o servidor. Un punto de partida práctico es el 26B A4B cuando se busca una calidad sólida sin dar el salto total al 31B.
Gemma 4 E2B
Asistentes sin conexión, aplicaciones multimodales ligeras, implementación en dispositivos finales
Gemma 4 E4B
Copilotos locales más potentes, razonamiento en el dispositivo, aplicaciones multimodales con más margen de maniobra
Gemma 4 26B A4B
El mejor equilibrio entre calidad, velocidad y trabajo de contexto largo para la mayoría de los equipos
Gemma 4 31B
Calidad de razonamiento, programación y multimodalidad de más alto nivel en la familia Gemma 4
Las especificaciones de Gemma 4 que realmente importan antes de construir
Para la mayoría de los desarrolladores, las preguntas clave son la longitud del contexto, las modalidades, la cobertura de idiomas, las licencias y las funciones a nivel de aplicación. Estas son las especificaciones que cambian las opciones de implementación, el costo de alojamiento y el alcance del producto.
Gemma 4 no es solo una actualización del modelo de texto. La familia combina contexto largo, entrada multimodal, modo de pensamiento, prompts de sistema nativos y soporte para llamadas a funciones en una línea de pesos abiertos. Los modelos más pequeños añaden entrada de audio, mientras que los modelos más grandes extienden el contexto a 256K para cargas de trabajo con muchos documentos y a escala de repositorio.
31 de marzo de 2026
Esta es la generación principal actual de Gemma y la que Google destaca ahora en sus documentos y materiales de lanzamiento.
Todos los modelos: texto e imagen → texto; E2B y E4B también admiten entrada de audio
Puede crear flujos de solo texto, visión y comprensión de voz ligera sin cambiar de familia de modelos.
128K tokens en E2B y E4B; 256K tokens en 26B A4B y 31B
Los prompts extensos, como documentos largos, chats prolongados o contexto de código de varios archivos, caben en una sola solicitud.
Más de 140 idiomas
Esto es importante para productos multilingües, OCR y asistentes implementados globalmente.
Licencia Apache 2.0 con pesos abiertos y soporte para uso comercial responsable
Puede ajustar, implementar y ejecutar Gemma 4 en su propia infraestructura con menos restricciones de licencia.
Modo de pensamiento configurable, soporte nativo para roles de sistema, salida JSON estructurada y llamadas a funciones
Estas funciones hacen que Gemma 4 sea mucho más fácil de usar para agentes, uso de herramientas y aplicaciones con muchas instrucciones.
Resoluciones de imagen variables y presupuestos de tokens de 70, 140, 280, 560 o 1120 tokens
Puede intercambiar el detalle de la imagen por velocidad dependiendo de si la tarea es OCR, lectura de interfaz de usuario, análisis de gráficos o procesamiento rápido de fotogramas.
Resumen oficial de los puntos de referencia de Gemma 4
Estos puntajes muestran dónde es más fuerte cada tamaño de Gemma 4 en razonamiento, programación, ciencia, visión y recuperación de contexto largo. Úselos para preseleccionar un modelo rápidamente y luego compare esa selección con su presupuesto de latencia y memoria.
Gemma 4 se posiciona como una familia de modelos para razonamiento, flujos de trabajo de agentes, programación y comprensión multimodal. Las tablas oficiales de puntos de referencia muestran un patrón claro: el 31B lidera, el 26B A4B se mantiene sorprendentemente cerca siendo mucho más eficiente, y el E4B y el E2B aportan una capacidad significativa a los dispositivos más pequeños.
MMLU Pro
Conocimiento y razonamiento
La mejor comparación rápida para el rendimiento general de razonamiento de alto nivel en toda la familia.
AIME 2026 (sin herramientas)
Razonamiento matemático
31B y 26B A4B son los objetivos adecuados para asistentes con gran carga matemática y tareas de planificación.
LiveCodeBench v6
Programación competitiva
Si la programación es un caso de uso principal, los dos modelos más grandes están en un nivel diferente al de los modelos para dispositivos finales.
GPQA Diamond
Razonamiento científico
Una señal sólida para flujos de trabajo técnicos y orientados a expertos.
MMMU Pro
Razonamiento multimodal
Las tareas de visión se benefician enormemente de los modelos más grandes cuando la precisión importa más que el tamaño de la instalación.
MRCR v2 (128K, 8 agujas)
Recuperación de contexto largo
Para prompts de documentos grandes y a escala de repositorio, 31B es la opción más sólida para contexto largo.
Cómo realizar el ajuste fino de Gemma 4 para trabajo de productos reales
El ajuste fino es importante cuando el prompting por sí solo no es suficiente y desea que Gemma 4 funcione mejor en un dominio, flujo de trabajo o rol específico. Las rutas prácticas son el ajuste de adaptadores ligeros para tareas de texto y el ajuste de adaptadores multimodales para tareas de imagen más texto.
La documentación oficial de ajuste de Gemma se centra en una regla simple: ajustar para una tarea definida, no para una mejora vaga. Para muchos desarrolladores, QLoRA es el punto de partida más realista porque mantiene los requisitos de hardware mucho más bajos que el ajuste del modelo completo.
Comience con un objetivo de ajuste específico
Elija una tarea o rol en el que el modelo base deba desempeñarse mejor, como atención al cliente, text-to-SQL o generación de descripciones de productos. Use el ajuste fino cuando la tarea sea específica y repetitiva.
Elija la ruta de ajuste
Use el ajuste de texto para tareas de instrucción y generación, o el ajuste de visión cuando su conjunto de datos combine imágenes y texto. La guía de QLoRA de texto demuestra text-to-SQL; la guía de QLoRA de visión demuestra descripciones de productos de imagen más texto.
Elija un framework realista
Gemma 4 es compatible con Keras con LoRA, la biblioteca de Gemma, flujos de trabajo basados en Hugging Face, GKE y Vertex AI. Hugging Face más TRL es la ruta más directa para muchos desarrolladores.
Adapte el flujo de trabajo a su hardware
El ejemplo oficial de QLoRA de texto está diseñado para una configuración T4 de 16 GB. La guía de QLoRA de visión requiere una GPU compatible con BF16, como NVIDIA L4 o A100 con más de 16 GB de memoria.
Use QLoRA cuando la eficiencia sea importante
QLoRA mantiene el modelo base cuantizado a 4 bits, congela los pesos originales y entrena solo los adaptadores LoRA añadidos. Esto reduce el uso de memoria mientras mantiene un sólido rendimiento en la tarea.
Prepare los datos en el formato correcto
Cree un conjunto de datos que coincida directamente con el comportamiento que desea, luego dele formato para el entrenamiento de estilo conversación con TRL y SFTTrainer. La guía oficial de texto utiliza un gran conjunto de datos sintéticos de text-to-SQL.
Evalúe, compare y despliegue
Después del entrenamiento, realice comprobaciones de inferencia contra su modelo base, verifique las mejoras en la tarea y luego despliegue el modelo ajustado o el adaptador. Trate el formato de despliegue como una decisión temprana porque la elección del framework afecta el formato de salida que obtendrá.
Quick Tips
- Comience con QLoRA y una GPU de clase T4 para tareas de texto; rara vez se necesita un ajuste fino completo para la adaptación de tareas.
- Formatee su conjunto de datos para reflejar el formato de chat ajustado por instrucciones que Gemma 4 ya entiende.
- Mantenga su conjunto de evaluación con la misma distribución que sus datos de entrenamiento para obtener señales de mejora significativas.
- El modelo MoE 26B A4B tiene parámetros activos eficientes, pero su recuento total de parámetros aún afecta el tamaño del checkpoint durante el entrenamiento.
- Use el checkpoint Gemma 4 -it como punto de partida para tareas de instrucción en lugar de la base pre-entrenada.
Guía de prompts de Gemma 4
Gemma 4 introduce un nuevo formato de prompt basado en turnos con instrucciones de sistema nativas, marcadores de posición multimodales y controles integrados para el pensamiento y el uso de herramientas.
Esta guía convierte el formato oficial de Gemma 4 en una biblioteca de prompts práctica. Estructure cada interacción como turnos, use el rol de sistema para el comportamiento y las reglas globales, inserte marcadores de posición de imagen o audio donde sea necesario y solo habilite el pensamiento o el uso de herramientas cuando la tarea realmente se beneficie de ellos.
Esqueleto central del chat
Gemma 4 utiliza roles nativos de sistema, usuario y modelo, envueltos en marcadores de turno.
- Use system para instrucciones globales
- Use user para la solicitud actual
- Use model como punto de inicio de la generación
Patrón de prompt de sistema
Coloque las reglas de comportamiento estables en un turno de sistema en lugar de repetirlas cada vez.
- Ideal para estilo, alcance y formato de salida
- El soporte nativo del rol de sistema comienza con Gemma 4
- Manténgalo conciso y específico para la tarea
Marcadores de posición multimodales
Use tokens de marcador de posición para indicar dónde deben insertarse los embeddings de imagen y audio.
- Use <|image|> para imágenes
- Use <|audio|> para audio
- El procesador reemplaza los marcadores de posición con embeddings después de la tokenización
Prompt listo para el pensamiento
El modo de pensamiento se activa colocando <|think|> dentro de la instrucción del sistema.
- Habilítelo para tareas con mucha carga de razonamiento
- Manténgalo desactivado para generaciones directas simples
- Use un turno de sistema tanto para el pensamiento como para otras instrucciones globales
Estructura de prompt consciente de herramientas
Las declaraciones de herramientas pertenecen al turno del sistema, y las llamadas y respuestas de herramientas se manejan con tokens de control dedicados.
- Útil para APIs, búsquedas, calculadoras y consultas de datos externos
- El uso de herramientas está estructurado, no es una simulación de texto plano
- El razonamiento y el uso de herramientas pueden ocurrir en el mismo turno
Modo de pensamiento de Gemma 4
El modo de pensamiento permite que Gemma 4 produzca un canal de razonamiento antes de la respuesta final, y el procesador puede separar ambas partes para el uso de la aplicación.
El modo de pensamiento es ideal para tareas en las que el modelo se beneficia de un razonamiento intermedio antes de responder: preguntas ambiguas, matemáticas, codificación, planificación de herramientas y análisis multimodal. En Gemma 4, puede habilitarlo a nivel de plantilla de chat, transmitir el razonamiento en vivo y luego dividir la salida en un bloque de pensamiento y un bloque de respuesta para el usuario.
Elija las tareas adecuadas
Use el modo de pensamiento cuando la solicitud necesite descomposición, comparación, planificación o una interpretación cuidadosa en lugar de una respuesta directa corta.
- Casos ideales: matemáticas, depuración de código, toma de decisiones estructurada, razonamiento de imagen más texto
- Menos necesario para reescrituras simples, resúmenes cortos o hechos directos
- Los ejemplos oficiales cubren flujos de trabajo tanto de solo texto como de imagen-texto
Habilite el pensamiento en la plantilla de chat
Con Hugging Face Transformers, establezca enable_thinking=True en apply_chat_template(). A nivel de token, Gemma 4 utiliza <|think|> en el turno del sistema.
- E2B y E4B: el pensamiento desactivado (OFF) utiliza un flujo simple usuario-modelo; el pensamiento activado (ON) añade un turno de sistema con <|think|>
- 26B A4B y 31B: las plantillas oficiales incluyen un token de pensamiento vacío cuando el pensamiento está desactivado para estabilizar la salida
- El pensamiento está diseñado para habilitarse a nivel de conversación
Genere y separe el resultado
El modelo puede emitir un canal de razonamiento primero y la respuesta final después. Puede transmitirlo con TextStreamer y dividirlo con parse_response().
- processor.parse_response() devuelve el contenido de pensamiento y respuesta por separado
- Esto funciona para prompts de texto y prompts de imagen-texto
- El canal de razonamiento también puede incluir llamadas a herramientas cuando el turno se vuelve agéntico
Maneje correctamente los chats de varios turnos
Para conversaciones normales de varios turnos, elimine los pensamientos generados en el turno anterior antes de enviar el historial de vuelta. En los turnos de llamada a herramientas, mantenga el flujo de pensamiento intacto hasta que termine el ciclo de la herramienta.
- Chat regular: elimine los bloques de pensamiento previos antes del siguiente turno
- Excepción de uso de herramientas: no elimine los pensamientos entre llamadas a funciones dentro del mismo turno
- Esto mantiene el contexto limpio mientras se preserva el comportamiento agéntico
Llamada a funciones de Gemma 4
Gemma 4 admite el uso nativo de herramientas estructuradas, lo que permite que el modelo solicite funciones en lugar de simular acciones externas en texto plano.
La llamada a funciones es el puente práctico entre la salida del modelo y el comportamiento real de la aplicación. En lugar de pedirle a Gemma 4 que adivine datos en tiempo real o simule acciones, usted define herramientas, permite que el modelo genere una llamada estructurada, ejecuta la función en su aplicación y luego devuelve el resultado para que el modelo pueda finalizar con una respuesta clara en lenguaje natural.
Defina las herramientas con claridad
Pase las herramientas a través de apply_chat_template() utilizando un esquema JSON manual o una función de Python pura convertida a esquema.
- El esquema JSON manual es mejor cuando se necesitan parámetros anidados precisos
- Las funciones de Python puras son convenientes para herramientas simples con sugerencias de tipo y docstrings claros
- Las definiciones de herramientas deben incluir nombre, descripción, tipos de parámetros y campos obligatorios
Permita que el modelo solicite una herramienta
Gemma 4 recibe el prompt del usuario junto con las herramientas disponibles y devuelve un objeto de llamada a función estructurado en lugar de texto plano cuando se necesita una herramienta.
- El uso de herramientas se controla con tokens dedicados como tool, tool_call y tool_response
- Un ejemplo típico es una función de clima o de búsqueda
- Esto es mejor que el texto plano cuando la respuesta depende de un estado externo o de acciones del sistema
Valide y ejecute en su aplicación
Gemma 4 no puede ejecutar código por sí sola. Su aplicación debe analizar el nombre de la función y los argumentos, validarlos y ejecutar la función real de forma segura.
- Valide siempre los nombres de las funciones y los argumentos antes de la ejecución
- No confíe en el código generado sin medidas de seguridad
- Para sistemas de producción, asocie los nombres de las herramientas con controladores aprobados en lugar de una ejecución dinámica
Devuelva la salida de la herramienta para la respuesta final
Agregue el resultado de la herramienta al historial del chat y luego deje que Gemma 4 genere la respuesta final para el usuario.
- Flujo de trabajo oficial: definir herramientas, turno del modelo, turno del desarrollador, respuesta final
- Este patrón funciona para APIs, búsquedas en vivo, calculadoras, actualizaciones de configuración y bucles de agentes
- Las respuestas de las herramientas deben mantenerse estructuradas para que el modelo pueda fundamentar la respuesta final correctamente
Guía multimodal de Gemma 4
Gemma 4 maneja texto e imágenes en todos los modelos, admite video como fotogramas y añade soporte nativo de audio en E2B y E4B.
Gemma 4 está diseñada para entradas multimodales. Todos los modelos admiten la comprensión visual de imágenes y videos, los modelos pequeños añaden entrada de audio y el tiempo de ejecución permite equilibrar el detalle visual frente a la velocidad mediante presupuestos de tokens. Esto hace que Gemma 4 sea adecuada para OCR, subtitulado, detección de objetos, tareas de voz y prompts de medios mixtos dentro de un mismo flujo de chat.
Comprensión de imágenes
Todos los modelos de Gemma 4 admiten flujos de trabajo de texto más imagen.
- Tareas comunes: OCR, detección de objetos, respuesta a preguntas visuales, subtitulado de imágenes
- Admite el razonamiento a través de múltiples imágenes en un solo prompt
- Ideal para capturas de pantalla, documentos, imágenes de productos y análisis de escenas
Comprensión de video
Todos los modelos de Gemma 4 pueden procesar video como una secuencia de fotogramas.
- Útil para descripción de escenas, interacción humana y resúmenes situacionales
- El video se pasa como un elemento de contenido en el arreglo de mensajes
- La duración máxima de video admitida es de 60 segundos a 1 fotograma por segundo
Comprensión de audio
El audio está disponible en los modelos E2B y E4B.
- Admite reconocimiento de voz multilingüe, traducción de voz y comprensión general del habla
- El costo de tokens de audio es de 25 tokens por segundo
- La duración máxima de audio es de 30 segundos
Presupuestos de tokens visuales
Gemma 4 introduce el procesamiento de imágenes de resolución variable para que pueda elegir velocidad o detalle según la tarea.
- Presupuestos de imagen admitidos: 70, 140, 280, 560, 1120 tokens
- Presupuestos más bajos para clasificación rápida, subtitulado y análisis de fotogramas de video
- Presupuestos más altos para OCR, análisis de documentos y lectura de texto pequeño
Reglas de preparación de entrada
El procesador se encarga de gran parte del formateo de medios, pero algunos límites son importantes en producción.
- El audio debe ser mono, 16 kHz, float32, normalizado a [-1, 1]
- El soporte de archivos de imagen depende del framework utilizado para convertir archivos en tensores
- La calidad del prompt sigue siendo importante: las instrucciones específicas superan a las solicitudes multimodales vagas
División de capacidades del modelo
Utilice los modelos más pequeños para casos de uso móviles y centrados en voz, y los modelos más grandes para un razonamiento más pesado con contexto largo.
- E2B y E4B: modelos pequeños con capacidad de audio y contexto de 128K
- 26B A4B y 31B: modelos más grandes enfocados en el razonamiento con contexto de 256K
- Los cuatro tamaños oficiales están disponibles en variantes base y ajustadas por instrucciones
Gemma 4 GGUF y cuantización
Elija la huella de Gemma 4 más pequeña que se ajuste a su máquina
Para la mayoría de las configuraciones locales, la decisión práctica es si quedarse con E2B o E4B, o subir a una compilación GGUF de 26B A4B. Google documenta las necesidades aproximadas de memoria para las opciones de implementación BF16, SFP8 y estilo de 4 bits en los cuatro tamaños oficiales.
Puntos de entrada locales oficiales
La guía de Ollama de Google expone cuatro etiquetas de Gemma 4: gemma4:e2b, gemma4:e4b, gemma4:26b y gemma4:31b. LM Studio también admite modelos Gemma tanto en formato GGUF como MLX para inferencia totalmente local.
Comience con E2B o E4B para un ciclo local más ligero, y pase a 26B o 31B solo cuando tenga el presupuesto de RAM necesario y desee un modelo de razonamiento más sólido.
Memoria aproximada por tamaño oficial
Google enumera la memoria de inferencia aproximada como E2B 9.6 GB BF16 / 3.2 GB Q4_0, E4B 15 GB / 5 GB, 26B A4B 48 GB / 15.6 GB y 31B 58.3 GB / 17.4 GB.
Si su objetivo es una máquina local convencional, la implementación de estilo de 4 bits o un tamaño de modelo más pequeño suele ser la línea entre lo ejecutable y lo impráctico.
Ejemplo oficial de 26B A4B GGUF
La página oficial de ggml-org para Gemma 4 26B A4B IT GGUF recomienda llama-server para el inicio y enumera Q4_K_M en 16.8 GB, Q8_0 en 26.9 GB y F16 en 50.5 GB.
Q4_K_M es el valor predeterminado más práctico cuando se desea un modelo Gemma 4 local grande pero no se puede costear el uso de memoria de Q8_0 o de 16 bits completos.
Qué cambia la cuantización
Los recuentos de parámetros más altos y la mayor precisión son generalmente más capaces, pero cuestan más ciclos de procesamiento, memoria y energía. La menor precisión reduce esos costos pero puede disminuir la capacidad.
Utilice la cuantización para ajustar el modelo a su hardware: las compilaciones GGUF más pequeñas le ayudan a ejecutar localmente, pero son un compromiso de implementación en lugar de una mejora gratuita.
Guía de Gemma 4 para PyTorch
Ejecuta Gemma 4 desde un entorno centrado en PyTorch
La vía más rápida de Python para Gemma 4 es Hugging Face Transformers sobre PyTorch: instala torch y transformers, elige un ID de modelo de Gemma 4 y comienza con la inferencia de texto basada en pipelines antes de pasar a flujos de trabajo multimodales o habilitados para herramientas.
Instala el entorno de ejecución
La guía de inferencia de texto de Gemma 4 de Google comienza con torch, accelerate y transformers, además de dialog para el manejo de conversaciones.
Elige un checkpoint oficial de Gemma 4
Los ejemplos de Gemma 4 de Google muestran cuatro IDs oficiales ajustados por instrucciones: google/gemma-4-E2B-it, google/gemma-4-E4B-it, google/gemma-4-26B-A4B-it y google/gemma-4-31B-it.
Comienza con la generación de texto
Usa transformers.pipeline con task="text-generation", device_map="auto" y dtype="auto" como la forma más rápida de obtener una primera respuesta.
Pasa a flujos multimodales y herramientas cuando sea necesario
Para flujos de trabajo multimodales y de llamada a funciones, usa AutoProcessor y AutoModelForMultimodalLM con apply_chat_template para prompts conscientes de herramientas.
Usa PyTorch nativo para un control más profundo
La guía de PyTorch de Google documenta la configuración de credenciales de Kaggle, la instalación de dependencias, la clonación de gemma_pytorch y la carga de clases de modelos multimodales para la experimentación con control directo de checkpoints.
Despliegue móvil de Gemma 4
Lleva Gemma 4 a dispositivos móviles a través del stack actual de Android
Gemma 4 ahora tiene tres rutas prácticas para móviles: ML Kit Prompt API en dispositivos de vista previa de AICore, flujos de trabajo de modelos locales de Android Studio para uso de desarrolladores y LiteRT-LM para un control del entorno de ejecución de bajo nivel en dispositivos móviles y embebidos.
Elige la ruta que coincida con tu objetivo
Usa ML Kit Prompt API en AICore si estás creando una experiencia de aplicación para Android, modelos locales de Android Studio si deseas ayuda de codificación sin conexión y LiteRT-LM si necesitas un control del entorno de ejecución de bajo nivel.
Prototipa en el dispositivo con AICore
La vista previa de abril de 2026 de Google te permite apuntar a Gemma 4 E2B o E4B a través de la configuración de preferencia de modelo dentro del flujo de la Prompt API en dispositivos habilitados para AICore.
Conoce las expectativas del dispositivo
Los modelos de vista previa se ejecutan en dispositivos habilitados para AICore y en los aceleradores de IA más recientes de Google, MediaTek y Qualcomm. AI Edge Gallery está disponible para comprobaciones rápidas de modelos en dispositivos que no son AICore.
Usa Android Studio para flujos de trabajo de desarrolladores
Android Studio recomienda actualmente a Gemma 4 como su opción de modelo local. Gemma E4B requiere 12 GB de RAM y 4 GB de almacenamiento; Gemma 26B MoE requiere 24 GB de RAM y 17 GB de almacenamiento.
Cambia a LiteRT-LM para un control más profundo del entorno de ejecución
LiteRT-LM es una biblioteca multiplataforma para pipelines de modelos de lenguaje desde teléfonos hasta sistemas embebidos, con rutas de CPU, GPU y NPU que incluyen Qualcomm AI Engine Direct y MediaTek NeuroPilot.
Gemma 4 frente a Gemma 3
Descubre qué cambia realmente al pasar de Gemma 3 a Gemma 4
Esta comparación es para desarrolladores que deciden si mantener un flujo de trabajo existente de Gemma 3 o reconstruirlo en torno a Gemma 4. Las diferencias más claras aparecen en la longitud del contexto, el formato de control, el alcance multimodal y el rendimiento de los benchmarks en el nivel superior de cada familia.
Lanzamiento y tamaños principales
Gemma 4 reduce la familia en torno a niveles de despliegue más claros: modelos E centrados en el borde y modelos más grandes de clase estación de trabajo.
Ventana de contexto
Para documentos largos, trazas de herramientas o historiales de varios pasos, los modelos más grandes de Gemma 4 ofrecen un margen significativamente mayor.
Multimodalidad
Gemma 4 es la familia multimodal más amplia si tu caso de uso va más allá de imagen-texto hacia video, flujos con mucho OCR o modelos de borde con capacidad de audio.
Formato de prompt y control
Los equipos que crean agentes o flujos de trabajo estructurados obtienen una superficie de control más limpia en Gemma 4.
Instantánea de benchmarks de nivel superior
Si se actualiza por razonamiento, codificación o preguntas y respuestas de alta dificultad, el salto del nivel superior de Gemma 4 es lo suficientemente grande como para justificar una migración.
Perfil de despliegue
Quédate en Gemma 3 cuando los tamaños clásicos pequeños ya se ajusten a tu stack; cámbiate a Gemma 4 cuando desees nuevas funciones de control, modelos superiores con mayor contexto o variantes más potentes orientadas al borde.