Familia de Modelos Multimodales Abiertos

Gemma 4 Wiki

Sigue los tamaños de modelos de Gemma 4, benchmarks, prompting, llamada a funciones, entrada multimodal, despliegue local y ajuste fino en el ecosistema oficial de Google.

Sitio oficial
What's new in Gemma 4

Latest Updates

Discover the newest guides, tips, and content

Gemma 4 Ollama MLX: Guía Avanzada de IA Local 2026

Domina el despliegue y el ajuste fino de Gemma 4 usando Ollama y MLX. Guía completa de 2026 para Apple Silicon y rendimiento de escritorio de alta gama.

3 abr 2026ollama
Read more →
Gemma 4 Phone: Guía Definitiva de Integración de IA Móvil 2026

Explora el poder de la integración de Gemma 4 en teléfonos. Conoce los modelos Effective 2B y 4B, los flujos de trabajo agénticos centrados en móviles y el rendimiento de la IA en el dispositivo en 2026.

3 abr 2026requirements
Read more →
Gemma 4 vs GPT: Guía Definitiva de Lógica y Rendimiento de IA 2026

Una comparativa profunda entre Gemma 4 de Google y GPT-5.4 de OpenAI. Descubre qué modelo de IA lidera en razonamiento causal, acertijos lógicos y eficiencia.

3 abr 2026comparison
Read more →
Gemma 4 para PC: Guía de rendimiento y configuración de IA local 2026

Aprende cómo ejecutar Gemma 4 de Google en tu PC. Explora comparativas para los modelos E2B, 26B y 31B, requisitos de hardware y consejos de optimización para IA local.

3 abr 2026requirements
Read more →
Instalación de Gemma 4: Guía completa de configuración local 2026

Aprenda cómo realizar una instalación de Gemma 4 en hardware de consumo. Nuestra guía cubre la optimización Turbo Quant, la configuración de Atomic Bot y la configuración de IA local.

3 abr 2026install
Read more →
Fecha de Lanzamiento de Gemma 4: Guía Completa del Nuevo Modelo Abierto de Google 2026

Google ha lanzado oficialmente Gemma 4. Explora la fecha de lanzamiento de gemma 4, las especificaciones del modelo, los requisitos de hardware y cómo utilizar estos modelos de código abierto para tus proyectos.

3 abr 2026guide
Read more →
Gemma 4 vs Gemini: Comparativa de rendimiento de modelos abiertos 2026

Compara los modelos abiertos Gemma 4 de Google con la suite propietaria Gemini. Descubre benchmarks, capacidades agénticas y requisitos de hardware local.

3 abr 2026comparison
Read more →
Gemma 4 Qué es: Guía Completa de los Modelos de IA Abiertos de Google 2026

Explora todo sobre el lanzamiento de Gemma 4 de Google, incluyendo la licencia Apache 2.0, los modelos para estaciones de trabajo y dispositivos periféricos (edge), y las funciones nativas de multimodalidad.

3 abr 2026guide
Read more →
Gemma 4 Offline: Cómo ejecutar localmente la potente IA de Google en 2026

Aprenda a descargar y ejecutar Gemma 4 sin conexión en su ordenador. Una guía completa sobre los modelos de IA de código abierto de Google, requisitos de hardware y pasos de configuración local.

3 abr 2026install
Read more →
Modelos Gemma 4: Guía completa de la IA abierta de Google 2026

Explora todas las capacidades de los modelos Gemma 4. Conoce las variantes 26B MoE y 31B Dense, sus aplicaciones en juegos y pruebas de rendimiento.

3 abr 2026models
Read more →
Reseña de Gemma 4: Guía de la nueva familia de modelos abiertos de Google 2026

Una reseña profunda de Gemma 4 que cubre la nueva licencia Apache 2.0, los modelos de estación de trabajo y Edge, y las capacidades multimodales nativas. Actualizado para 2026.

3 abr 2026guide
Read more →
Laptop para Gemma 4: Guía de los mejores modelos de IA locales y hardware 2026

Aprende a optimizar la configuración de tu laptop para Gemma 4. Descubre los mejores modelos de IA locales para razonamiento, programación y flujos de trabajo agénticos en 2026.

3 abr 2026requirements
Read more →
Configuración de Gemma 4 en Ollama: Ejecute los modelos abiertos más potentes de Google en 2026

Aprenda a realizar una configuración completa de Gemma 4 en Ollama para ejecutar localmente los últimos modelos de IA de código abierto de Google. Guía detallada sobre hardware, integración con OpenClaw y optimización.

3 abr 2026ollama
Read more →
Gemma 4 Multimodal: Guía completa de los nuevos modelos abiertos de Google 2026

Explora las capacidades revolucionarias de los modelos multimodales Gemma 4. Conoce las arquitecturas 26B y 31B, el rendimiento en juegos y consejos para el despliegue local.

3 abr 2026models
Read more →
Actualización de Gemma 4 para Ollama: Cómo ejecutar los nuevos modelos abiertos de Google 2026

Explora la masiva actualización de Gemma 4 para Ollama. Aprende a instalar los modelos 31B, 26B MoE y Effective 4B localmente para flujos de trabajo agénticos y programación.

3 abr 2026ollama
Read more →
Tutorial de Gemma 4: Domina los modelos de IA abiertos de Google 2026

Aprende a desplegar y realizar el ajuste fino de los modelos Gemma 4 de Google. Nuestro tutorial completo cubre la multimodalidad, la arquitectura MoE y la configuración local para 2026.

3 abr 2026guide
Read more →
Gemma 4 Ollama: Ejecuta la IA de Google optimizada para Edge localmente en 2026

Aprende cómo instalar y optimizar Gemma 4 E4B usando Ollama y OpenClaw. Una guía completa para el despliegue de IA local con tecnología de embeddings por capa.

3 abr 2026ollama
Read more →
Tamaño de Gemma 4: Guía completa de comparación de modelos y especificaciones 2026

Explora las diferentes opciones de tamaño de Gemma 4, desde modelos listos para dispositivos de borde hasta potentes niveles para estaciones de trabajo. Compara parámetros, requisitos de hardware y funciones multimodales.

3 abr 2026models
Read more →
Guía de Gemma 4 26B: Explorando el poder del modelo abierto de Google 2026

Una guía completa sobre el modelo Mixture of Experts Gemma 4 26B. Conozca su arquitectura, rendimiento local y capacidades agénticas en 2026.

3 abr 2026models
Read more →
Requisitos de memoria de Gemma 4: Guía completa de hardware 2026

Conozca los requisitos exactos de memoria de Gemma 4 para el despliegue local. Explore las necesidades de VRAM para los modelos 31B, 26B MoE y Edge con nuestra guía detallada de hardware 2026.

3 abr 2026requirements
Read more →
Descarga de Gemma 4: Guía completa de configuración local de IA 2026

Aprenda cómo completar la descarga de Gemma 4 y configurar el modelo de IA de código abierto más potente de Google de forma local usando Atomic Bot y Openclaw.

3 abr 2026install
Read more →
Gemma 4 Windows: Guía completa de configuración de IA local 2026

Aprenda a instalar y optimizar Gemma 4 en Windows. Nuestra guía exhaustiva cubre requisitos de hardware, modelos MoE vs. Dense y flujos de trabajo de agentes locales.

3 abr 2026install
Read more →
Benchmark de Gemma 4: Análisis de Rendimiento y Guía de Modelos 2026

Explore los últimos resultados del benchmark de Gemma 4, las mejoras de arquitectura y las estrategias de implementación para los nuevos modelos de pesos abiertos Apache 2.0 de Google.

3 abr 2026benchmark
Read more →
Modo de Pensamiento de Gemma 4: Guía de Optimización y Hardware 2026

Domina el nuevo modo de pensamiento de Gemma 4 para un razonamiento avanzado. Aprende sobre la arquitectura A4B, la optimización de la latencia y los requisitos de hardware para el alojamiento local de IA.

3 abr 2026guide
Read more →
Requisitos de Gemma 4: Guía de Hardware y Software 2026

Explore los requisitos oficiales de Gemma 4 para los modelos Workstation y Edge. Conozca las necesidades de VRAM, la compatibilidad de GPU y consejos de implementación.

3 abr 2026requirements
Read more →
Lanzamiento de Gemma 4: Guía completa de los nuevos modelos abiertos de Google 2026

Explore el lanzamiento oficial de Gemma 4, incluyendo las variantes de los modelos, la licencia Apache 2.0 y las capacidades de flujo de trabajo agéntico para el desarrollo local de IA.

3 abr 2026guide
Read more →
Gemma 4 vs Gemma 3: Comparativa de los modelos abiertos de próxima generación de Google 2026

Una inmersión profunda en las diferencias arquitectónicas, las pruebas de rendimiento y las capacidades agénticas de Gemma 4 frente a Gemma 3. Descubre qué modelo se adapta a tu hardware.

3 abr 2026comparison
Read more →
Gemma 4 vs Qwen 3.6: Los mejores modelos de IA para gaming y desarrolladores en 2026

Compara Gemma 4 de Google y Qwen 3.6 de Alibaba. Descubre qué modelo gana en integración local para juegos, programación y rendimiento multimodal en 2026.

3 abr 2026comparison
Read more →
Prueba de programación de Gemma 4: Benchmarks de los modelos abiertos de Google 2026

Una prueba de programación exhaustiva de Gemma 4 que cubre desarrollo web, motores de juegos 3D y rendimiento local. Vea cómo se comparan los modelos 26B y 31B en escenarios del mundo real.

3 abr 2026benchmark
Read more →
Gemma 4 explicado: Guía completa de los nuevos modelos de IA de Google 2026

Aprenda todo sobre la serie Gemma 4 de Google. Desde capacidades multimodales hasta requisitos de hardware local, aquí está la guía completa de Gemma 4 explicado.

3 abr 2026guide
Read more →

Gemma 4 Recursos

Todo lo que necesitas para empezar con Gemma 4 — desde la configuración local hasta la integración de API

Inicio rápido

Tutorial de Gemma 4

Gemma 4 se lanzó el 2 de abril de 2026 en cuatro tamaños oficiales: E2B, E4B, 26B A4B y 31B. La familia está diseñada para el despliegue de pesos abiertos bajo Apache 2.0, con modelos de borde más pequeños dirigidos a hardware de clase móvil y portátil, y modelos más grandes dirigidos a computadoras de escritorio, estaciones de trabajo y servidores.

1

Comprende los cuatro tamaños oficiales de Gemma 4

Gemma 4 viene en E2B, E4B, 26B A4B y 31B. E2B y E4B aceptan entrada de texto, imagen y audio; 26B A4B y 31B aceptan entrada de texto e imagen y están dirigidos a despliegues locales o de servidor más grandes.

2

Adapta el modelo a tu hardware

Usa E2B o E4B cuando desees una inferencia local compatible con dispositivos móviles, de borde o portátiles. Usa 26B A4B para un modelo local de propósito general más potente, y 31B cuando desees el punto de control oficial más grande de Gemma 4.

3

Elige un punto de partida

Gemma 4 26B A4B es una opción predeterminada sólida para primeras experiencias potentes. Si deseas el punto de partida más ligero, comienza con un modelo de borde ajustado por instrucciones y sube de nivel cuando tu carga de trabajo necesite más capacidad.

4

Elige cómo quieres probarlo

Prueba Gemma 4 alojado a través de Google AI Studio y la Gemini API, o descarga los pesos abiertos de Hugging Face o Kaggle para uso local, ajuste y despliegue personalizado.

5

Conoce para qué está optimizado Gemma 4

La familia está diseñada para el razonamiento, la programación, flujos de trabajo agénticos y comprensión multimodal. Los modelos de borde admiten un contexto de 128K, mientras que 26B A4B y 31B admiten un contexto de hasta 256K.

Quick Tips

  • Las variantes ajustadas por instrucciones (-it) son mejores para casos de uso de chat y asistentes.
  • E2B y E4B son los puntos de partida más accesibles a nivel de hardware para la experimentación local.
  • El 26B A4B es un modelo MoE con una inferencia efectiva más rápida que un modelo denso de tamaño total similar.
  • Todos los pesos de Gemma 4 se publican bajo la licencia Apache 2.0.
Ejecución local

Configuración de Gemma 4 en Ollama

Ollama es una de las formas más rápidas de poner en marcha Gemma 4 en una computadora portátil o estación de trabajo. El flujo predeterminado de Ollama es simple: instala Ollama, descarga Gemma 4, confirma la lista de modelos, elige la etiqueta adecuada para tu hardware y luego ejecútalo desde la CLI o la API local.

1

Instala y verifica Ollama

Descarga Ollama para Windows, macOS o Linux, instálalo y verifica la configuración con el comando ollama --version.

2

Descarga la variante predeterminada de Gemma 4

Usa ollama pull gemma4 para descargar el paquete predeterminado de Gemma 4, luego ejecuta ollama list para confirmar que está disponible localmente.

3

Elige la etiqueta de modelo correcta

Usa gemma4:e2b para la opción de borde más ligera, gemma4:e4b para una opción de borde predeterminada más potente, gemma4:26b para el modelo de estación de trabajo MoE 26B A4B, y gemma4:31b para el modelo grande completo.

4

Conoce lo que espera cada etiqueta

En la página de la biblioteca de Ollama, e2b figura con 7.2GB y 128K de contexto, e4b con 9.6GB y 128K, 26b con 18GB y 256K, y 31b con 20GB y 256K.

5

Ejecuta tu primer prompt

Para una primera prueba de texto, ejecuta ollama run gemma4 "Hola, ¿qué puedes hacer?". Ollama también admite entrada de imágenes con el formato de prompt que se muestra en la guía oficial.

6

Usa la API local para la integración de aplicaciones

Ollama expone un servicio web local en http://localhost:11434/api/generate, por lo que puedes pasar de las pruebas en la CLI a una aplicación local ligera sin configurar un servidor de modelos independiente.

Quick Tips

  • E2B y E4B son las primeras opciones prácticas para la experimentación local en hardware más ligero.
  • La etiqueta 26b se dirige al modelo MoE 26B A4B, que utiliza menos cómputo activo que un modelo denso de tamaño total similar.
  • ollama list muestra todos los modelos descargados localmente y sus tamaños.
  • Ollama admite la entrada de imágenes con el formato de prompt: ollama run gemma4:e2b con una ruta de imagen.
API alojada

Guía de la API de Gemma 4

La Gemini API proporciona acceso alojado a Gemma 4, lo cual es útil cuando se construye sin gestionar la inferencia local. Los modelos Gemma 4 alojados en AI Studio y la Gemini API son gemma-4-26b-a4b-it y gemma-4-31b-it.

1

Crea una clave de API en Google AI Studio

Abre Google AI Studio y crea una clave de Gemini API. Los nuevos usuarios pueden comenzar con un proyecto predeterminado de Google Cloud, mientras que los usuarios existentes pueden importar un proyecto de Cloud y crear claves allí.

2

Configura la clave en tu entorno

Los SDK de Gemini detectan automáticamente GEMINI_API_KEY o GOOGLE_API_KEY. Si ambas están configuradas, GOOGLE_API_KEY tiene prioridad.

3

Instala el SDK oficial

Para Python, instala google-genai. Para JavaScript y TypeScript, instala @google/genai. Google también publica rutas de SDK para Go, Java, C# y Apps Script.

4

Elige el ID del modelo Gemma 4 alojado

Para Gemma 4 alojado, usa gemma-4-26b-a4b-it para un modelo grande MoE más rápido, o gemma-4-31b-it para el punto de control denso insignia.

5

Envía una primera solicitud generateContent

El ejemplo oficial utiliza client.models.generate_content con el campo model establecido en gemma-4-31b-it. En REST, las solicitudes van al endpoint generateContent con el encabezado x-goog-api-key.

6

Usa AI Studio para pasar de las pruebas al código

Google AI Studio te permite experimentar con prompts, configuraciones de modelo, llamadas a funciones y salida estructurada, para luego exportar el código funcional a través del flujo Get code.

Quick Tips

  • AI Studio es la forma más rápida de probar prompts de Gemma 4 antes de escribir cualquier código.
  • La Gemini API admite respuestas en streaming para casos de uso de chat y generación larga.
  • gemma-4-26b-a4b-it es el modelo MoE; generalmente es más rápido y eficiente en costos que el 31B.
  • La llamada a funciones y la salida estructurada están disponibles para ambos IDs de modelo de Gemma 4 alojados.
Descargas

Descarga de Gemma 4 en Hugging Face

La colección oficial de Google en Hugging Face incluye ocho puntos de control principales de Gemma 4: E2B, E4B, 26B A4B y 31B, cada uno en forma base y ajustada por instrucciones. Los repositorios ajustados por instrucciones (-it) son el punto de partida natural para experiencias de chat, programación y asistentes.

Ajustado por instrucciones

google/gemma-4-E2B-it

Punto de control de borde con entrada de texto, imagen y audio y contexto de 128K. Ideal para asistentes locales rápidos y experimentación multimodal en el dispositivo.

Ajustado por instrucciones

google/gemma-4-E4B-it

Punto de control de borde más potente con entrada de texto, imagen y audio y contexto de 128K. Más capaz que E2B sin necesidad de saltar a hardware de clase de estación de trabajo.

Ajustado por instrucciones

google/gemma-4-26B-A4B-it

Punto de control MoE con contexto de 256K y entrada de texto e imagen. Calidad de modelo grande con una inferencia efectiva más rápida que un modelo denso de tamaño total similar.

Ajustado por instrucciones

google/gemma-4-31B-it

Punto de control denso insignia de Gemma 4 con contexto de 256K y entrada de texto e imagen. Ideal para los flujos de trabajo más potentes de chat, razonamiento, programación y agentes.

Preentrenado

google/gemma-4-E2B

Punto de control de borde base para usuarios que desean estudiar, adaptar o ajustar el modelo multimodal más pequeño de Gemma 4.

Preentrenado

google/gemma-4-E4B

Punto de control de borde base que mantiene la entrada de texto, imagen y audio mientras deja el comportamiento de instrucciones posterior a tu propio flujo de ajuste.

Preentrenado

google/gemma-4-26B-A4B

Punto de control grande MoE base para adaptación personalizada donde desees la arquitectura 26B A4B sin el comportamiento predeterminado ajustado por instrucciones.

Preentrenado

google/gemma-4-31B

Punto de control denso 31B base para equipos que desean el modelo base oficial más grande de Gemma 4 antes de su propia etapa de ajuste o alineación.

Comparación de modelos

Elija el tamaño de Gemma 4 adecuado para su hardware

Gemma 4 se distribuye en cuatro tamaños con compensaciones muy diferentes. La opción más rápida no siempre es el modelo más pequeño, y la opción de mayor calidad no siempre es la más fácil de implementar.

Gemma 4 está disponible en dos modelos densos optimizados para dispositivos finales, un modelo eficiente de Mixture-of-Experts y un modelo denso de gran tamaño. Para la mayoría de los equipos, la decisión real no es solo la calidad, sino dónde se ejecuta el modelo: teléfono, laptop, estación de trabajo o servidor. Un punto de partida práctico es el 26B A4B cuando se busca una calidad sólida sin dar el salto total al 31B.

Gemma 4 E2B

ArchitectureDenso
Parameters2.3B efectivos
Context128K tokens
Memory (BF16/Q4)9.6 GB BF16 / 4.6 GB SFP8 / 3.2 GB Q4_0
PlatformDispositivos móviles

Asistentes sin conexión, aplicaciones multimodales ligeras, implementación en dispositivos finales

Gemma 4 E4B

ArchitectureDenso
Parameters4.5B efectivos
Context128K tokens
Memory (BF16/Q4)15 GB BF16 / 7.5 GB SFP8 / 5 GB Q4_0
PlatformMóviles y laptops

Copilotos locales más potentes, razonamiento en el dispositivo, aplicaciones multimodales con más margen de maniobra

Gemma 4 26B A4B

ArchitectureMoE
Parameters25.2B total, 3.8B activos
Context256K tokens
Memory (BF16/Q4)48 GB BF16 / 25 GB SFP8 / 15.6 GB Q4_0
PlatformEscritorio y servidores pequeños

El mejor equilibrio entre calidad, velocidad y trabajo de contexto largo para la mayoría de los equipos

Gemma 4 31B

ArchitectureDenso
Parameters30.7B
Context256K tokens
Memory (BF16/Q4)58.3 GB BF16 / 30.4 GB SFP8 / 17.4 GB Q4_0
PlatformServidores grandes

Calidad de razonamiento, programación y multimodalidad de más alto nivel en la familia Gemma 4

Especificaciones principales

Las especificaciones de Gemma 4 que realmente importan antes de construir

Para la mayoría de los desarrolladores, las preguntas clave son la longitud del contexto, las modalidades, la cobertura de idiomas, las licencias y las funciones a nivel de aplicación. Estas son las especificaciones que cambian las opciones de implementación, el costo de alojamiento y el alcance del producto.

Gemma 4 no es solo una actualización del modelo de texto. La familia combina contexto largo, entrada multimodal, modo de pensamiento, prompts de sistema nativos y soporte para llamadas a funciones en una línea de pesos abiertos. Los modelos más pequeños añaden entrada de audio, mientras que los modelos más grandes extienden el contexto a 256K para cargas de trabajo con muchos documentos y a escala de repositorio.

Lanzamiento

31 de marzo de 2026

Esta es la generación principal actual de Gemma y la que Google destaca ahora en sus documentos y materiales de lanzamiento.

Entrada y salida

Todos los modelos: texto e imagen → texto; E2B y E4B también admiten entrada de audio

Puede crear flujos de solo texto, visión y comprensión de voz ligera sin cambiar de familia de modelos.

Ventana de contexto máxima

128K tokens en E2B y E4B; 256K tokens en 26B A4B y 31B

Los prompts extensos, como documentos largos, chats prolongados o contexto de código de varios archivos, caben en una sola solicitud.

Cobertura de idiomas

Más de 140 idiomas

Esto es importante para productos multilingües, OCR y asistentes implementados globalmente.

Licencia y pesos

Licencia Apache 2.0 con pesos abiertos y soporte para uso comercial responsable

Puede ajustar, implementar y ejecutar Gemma 4 en su propia infraestructura con menos restricciones de licencia.

Razonamiento y control

Modo de pensamiento configurable, soporte nativo para roles de sistema, salida JSON estructurada y llamadas a funciones

Estas funciones hacen que Gemma 4 sea mucho más fácil de usar para agentes, uso de herramientas y aplicaciones con muchas instrucciones.

Manejo visual

Resoluciones de imagen variables y presupuestos de tokens de 70, 140, 280, 560 o 1120 tokens

Puede intercambiar el detalle de la imagen por velocidad dependiendo de si la tarea es OCR, lectura de interfaz de usuario, análisis de gráficos o procesamiento rápido de fotogramas.

Rendimiento

Resumen oficial de los puntos de referencia de Gemma 4

Estos puntajes muestran dónde es más fuerte cada tamaño de Gemma 4 en razonamiento, programación, ciencia, visión y recuperación de contexto largo. Úselos para preseleccionar un modelo rápidamente y luego compare esa selección con su presupuesto de latencia y memoria.

Gemma 4 se posiciona como una familia de modelos para razonamiento, flujos de trabajo de agentes, programación y comprensión multimodal. Las tablas oficiales de puntos de referencia muestran un patrón claro: el 31B lidera, el 26B A4B se mantiene sorprendentemente cerca siendo mucho más eficiente, y el E4B y el E2B aportan una capacidad significativa a los dispositivos más pequeños.

MMLU Pro

Conocimiento y razonamiento

85.2%
31B
82.6%
26B A4B
69.4%
E4B
60.0%
E2B

La mejor comparación rápida para el rendimiento general de razonamiento de alto nivel en toda la familia.

AIME 2026 (sin herramientas)

Razonamiento matemático

89.2%
31B
88.3%
26B A4B
42.5%
E4B
37.5%
E2B

31B y 26B A4B son los objetivos adecuados para asistentes con gran carga matemática y tareas de planificación.

LiveCodeBench v6

Programación competitiva

80.0%
31B
77.1%
26B A4B
52.0%
E4B
44.0%
E2B

Si la programación es un caso de uso principal, los dos modelos más grandes están en un nivel diferente al de los modelos para dispositivos finales.

GPQA Diamond

Razonamiento científico

84.3%
31B
82.3%
26B A4B
58.6%
E4B
43.4%
E2B

Una señal sólida para flujos de trabajo técnicos y orientados a expertos.

MMMU Pro

Razonamiento multimodal

76.9%
31B
73.8%
26B A4B
52.6%
E4B
44.2%
E2B

Las tareas de visión se benefician enormemente de los modelos más grandes cuando la precisión importa más que el tamaño de la instalación.

MRCR v2 (128K, 8 agujas)

Recuperación de contexto largo

66.4%
31B
44.1%
26B A4B
25.4%
E4B
19.1%
E2B

Para prompts de documentos grandes y a escala de repositorio, 31B es la opción más sólida para contexto largo.

Personalización

Cómo realizar el ajuste fino de Gemma 4 para trabajo de productos reales

El ajuste fino es importante cuando el prompting por sí solo no es suficiente y desea que Gemma 4 funcione mejor en un dominio, flujo de trabajo o rol específico. Las rutas prácticas son el ajuste de adaptadores ligeros para tareas de texto y el ajuste de adaptadores multimodales para tareas de imagen más texto.

La documentación oficial de ajuste de Gemma se centra en una regla simple: ajustar para una tarea definida, no para una mejora vaga. Para muchos desarrolladores, QLoRA es el punto de partida más realista porque mantiene los requisitos de hardware mucho más bajos que el ajuste del modelo completo.

1

Comience con un objetivo de ajuste específico

Elija una tarea o rol en el que el modelo base deba desempeñarse mejor, como atención al cliente, text-to-SQL o generación de descripciones de productos. Use el ajuste fino cuando la tarea sea específica y repetitiva.

2

Elija la ruta de ajuste

Use el ajuste de texto para tareas de instrucción y generación, o el ajuste de visión cuando su conjunto de datos combine imágenes y texto. La guía de QLoRA de texto demuestra text-to-SQL; la guía de QLoRA de visión demuestra descripciones de productos de imagen más texto.

3

Elija un framework realista

Gemma 4 es compatible con Keras con LoRA, la biblioteca de Gemma, flujos de trabajo basados en Hugging Face, GKE y Vertex AI. Hugging Face más TRL es la ruta más directa para muchos desarrolladores.

4

Adapte el flujo de trabajo a su hardware

El ejemplo oficial de QLoRA de texto está diseñado para una configuración T4 de 16 GB. La guía de QLoRA de visión requiere una GPU compatible con BF16, como NVIDIA L4 o A100 con más de 16 GB de memoria.

5

Use QLoRA cuando la eficiencia sea importante

QLoRA mantiene el modelo base cuantizado a 4 bits, congela los pesos originales y entrena solo los adaptadores LoRA añadidos. Esto reduce el uso de memoria mientras mantiene un sólido rendimiento en la tarea.

6

Prepare los datos en el formato correcto

Cree un conjunto de datos que coincida directamente con el comportamiento que desea, luego dele formato para el entrenamiento de estilo conversación con TRL y SFTTrainer. La guía oficial de texto utiliza un gran conjunto de datos sintéticos de text-to-SQL.

7

Evalúe, compare y despliegue

Después del entrenamiento, realice comprobaciones de inferencia contra su modelo base, verifique las mejoras en la tarea y luego despliegue el modelo ajustado o el adaptador. Trate el formato de despliegue como una decisión temprana porque la elección del framework afecta el formato de salida que obtendrá.

Quick Tips

  • Comience con QLoRA y una GPU de clase T4 para tareas de texto; rara vez se necesita un ajuste fino completo para la adaptación de tareas.
  • Formatee su conjunto de datos para reflejar el formato de chat ajustado por instrucciones que Gemma 4 ya entiende.
  • Mantenga su conjunto de evaluación con la misma distribución que sus datos de entrenamiento para obtener señales de mejora significativas.
  • El modelo MoE 26B A4B tiene parámetros activos eficientes, pero su recuento total de parámetros aún afecta el tamaño del checkpoint durante el entrenamiento.
  • Use el checkpoint Gemma 4 -it como punto de partida para tareas de instrucción en lugar de la base pre-entrenada.
Prompting

Guía de prompts de Gemma 4

Gemma 4 introduce un nuevo formato de prompt basado en turnos con instrucciones de sistema nativas, marcadores de posición multimodales y controles integrados para el pensamiento y el uso de herramientas.

Esta guía convierte el formato oficial de Gemma 4 en una biblioteca de prompts práctica. Estructure cada interacción como turnos, use el rol de sistema para el comportamiento y las reglas globales, inserte marcadores de posición de imagen o audio donde sea necesario y solo habilite el pensamiento o el uso de herramientas cuando la tarea realmente se beneficie de ellos.

Esqueleto central del chat

Gemma 4 utiliza roles nativos de sistema, usuario y modelo, envueltos en marcadores de turno.

  • Use system para instrucciones globales
  • Use user para la solicitud actual
  • Use model como punto de inicio de la generación
<|turn>system You are a helpful assistant.<turn|> <|turn>user Summarize the following article in 5 bullets.<turn|> <|turn>model

Patrón de prompt de sistema

Coloque las reglas de comportamiento estables en un turno de sistema en lugar de repetirlas cada vez.

  • Ideal para estilo, alcance y formato de salida
  • El soporte nativo del rol de sistema comienza con Gemma 4
  • Manténgalo conciso y específico para la tarea
<|turn>system You are a technical writer. Answer in clear English, use short paragraphs, and include one practical example.<turn|> <|turn>user Explain function calling for a beginner.<turn|> <|turn>model

Marcadores de posición multimodales

Use tokens de marcador de posición para indicar dónde deben insertarse los embeddings de imagen y audio.

  • Use <|image|> para imágenes
  • Use <|audio|> para audio
  • El procesador reemplaza los marcadores de posición con embeddings después de la tokenización
<|turn>user Describe this image: <|image|> Then transcribe this clip: <|audio|><turn|> <|turn>model

Prompt listo para el pensamiento

El modo de pensamiento se activa colocando <|think|> dentro de la instrucción del sistema.

  • Habilítelo para tareas con mucha carga de razonamiento
  • Manténgalo desactivado para generaciones directas simples
  • Use un turno de sistema tanto para el pensamiento como para otras instrucciones globales
<|turn>system <|think|>You are a careful reasoning assistant.<turn|> <|turn>user Compare two pricing models and recommend one for a startup.<turn|> <|turn>model

Estructura de prompt consciente de herramientas

Las declaraciones de herramientas pertenecen al turno del sistema, y las llamadas y respuestas de herramientas se manejan con tokens de control dedicados.

  • Útil para APIs, búsquedas, calculadoras y consultas de datos externos
  • El uso de herramientas está estructurado, no es una simulación de texto plano
  • El razonamiento y el uso de herramientas pueden ocurrir en el mismo turno
Define tools in the system turn using the tool declaration token block, then set user and model turns as usual. Gemma 4 handles the rest with structured tool_call and tool_response tokens.
Razonamiento

Modo de pensamiento de Gemma 4

El modo de pensamiento permite que Gemma 4 produzca un canal de razonamiento antes de la respuesta final, y el procesador puede separar ambas partes para el uso de la aplicación.

El modo de pensamiento es ideal para tareas en las que el modelo se beneficia de un razonamiento intermedio antes de responder: preguntas ambiguas, matemáticas, codificación, planificación de herramientas y análisis multimodal. En Gemma 4, puede habilitarlo a nivel de plantilla de chat, transmitir el razonamiento en vivo y luego dividir la salida en un bloque de pensamiento y un bloque de respuesta para el usuario.

1

Elija las tareas adecuadas

Use el modo de pensamiento cuando la solicitud necesite descomposición, comparación, planificación o una interpretación cuidadosa en lugar de una respuesta directa corta.

  • Casos ideales: matemáticas, depuración de código, toma de decisiones estructurada, razonamiento de imagen más texto
  • Menos necesario para reescrituras simples, resúmenes cortos o hechos directos
  • Los ejemplos oficiales cubren flujos de trabajo tanto de solo texto como de imagen-texto
2

Habilite el pensamiento en la plantilla de chat

Con Hugging Face Transformers, establezca enable_thinking=True en apply_chat_template(). A nivel de token, Gemma 4 utiliza <|think|> en el turno del sistema.

  • E2B y E4B: el pensamiento desactivado (OFF) utiliza un flujo simple usuario-modelo; el pensamiento activado (ON) añade un turno de sistema con <|think|>
  • 26B A4B y 31B: las plantillas oficiales incluyen un token de pensamiento vacío cuando el pensamiento está desactivado para estabilizar la salida
  • El pensamiento está diseñado para habilitarse a nivel de conversación
3

Genere y separe el resultado

El modelo puede emitir un canal de razonamiento primero y la respuesta final después. Puede transmitirlo con TextStreamer y dividirlo con parse_response().

  • processor.parse_response() devuelve el contenido de pensamiento y respuesta por separado
  • Esto funciona para prompts de texto y prompts de imagen-texto
  • El canal de razonamiento también puede incluir llamadas a herramientas cuando el turno se vuelve agéntico
4

Maneje correctamente los chats de varios turnos

Para conversaciones normales de varios turnos, elimine los pensamientos generados en el turno anterior antes de enviar el historial de vuelta. En los turnos de llamada a herramientas, mantenga el flujo de pensamiento intacto hasta que termine el ciclo de la herramienta.

  • Chat regular: elimine los bloques de pensamiento previos antes del siguiente turno
  • Excepción de uso de herramientas: no elimine los pensamientos entre llamadas a funciones dentro del mismo turno
  • Esto mantiene el contexto limpio mientras se preserva el comportamiento agéntico
Flujos de trabajo agénticos

Llamada a funciones de Gemma 4

Gemma 4 admite el uso nativo de herramientas estructuradas, lo que permite que el modelo solicite funciones en lugar de simular acciones externas en texto plano.

La llamada a funciones es el puente práctico entre la salida del modelo y el comportamiento real de la aplicación. En lugar de pedirle a Gemma 4 que adivine datos en tiempo real o simule acciones, usted define herramientas, permite que el modelo genere una llamada estructurada, ejecuta la función en su aplicación y luego devuelve el resultado para que el modelo pueda finalizar con una respuesta clara en lenguaje natural.

1

Defina las herramientas con claridad

Pase las herramientas a través de apply_chat_template() utilizando un esquema JSON manual o una función de Python pura convertida a esquema.

  • El esquema JSON manual es mejor cuando se necesitan parámetros anidados precisos
  • Las funciones de Python puras son convenientes para herramientas simples con sugerencias de tipo y docstrings claros
  • Las definiciones de herramientas deben incluir nombre, descripción, tipos de parámetros y campos obligatorios
2

Permita que el modelo solicite una herramienta

Gemma 4 recibe el prompt del usuario junto con las herramientas disponibles y devuelve un objeto de llamada a función estructurado en lugar de texto plano cuando se necesita una herramienta.

  • El uso de herramientas se controla con tokens dedicados como tool, tool_call y tool_response
  • Un ejemplo típico es una función de clima o de búsqueda
  • Esto es mejor que el texto plano cuando la respuesta depende de un estado externo o de acciones del sistema
3

Valide y ejecute en su aplicación

Gemma 4 no puede ejecutar código por sí sola. Su aplicación debe analizar el nombre de la función y los argumentos, validarlos y ejecutar la función real de forma segura.

  • Valide siempre los nombres de las funciones y los argumentos antes de la ejecución
  • No confíe en el código generado sin medidas de seguridad
  • Para sistemas de producción, asocie los nombres de las herramientas con controladores aprobados en lugar de una ejecución dinámica
4

Devuelva la salida de la herramienta para la respuesta final

Agregue el resultado de la herramienta al historial del chat y luego deje que Gemma 4 genere la respuesta final para el usuario.

  • Flujo de trabajo oficial: definir herramientas, turno del modelo, turno del desarrollador, respuesta final
  • Este patrón funciona para APIs, búsquedas en vivo, calculadoras, actualizaciones de configuración y bucles de agentes
  • Las respuestas de las herramientas deben mantenerse estructuradas para que el modelo pueda fundamentar la respuesta final correctamente
Multimodal

Guía multimodal de Gemma 4

Gemma 4 maneja texto e imágenes en todos los modelos, admite video como fotogramas y añade soporte nativo de audio en E2B y E4B.

Gemma 4 está diseñada para entradas multimodales. Todos los modelos admiten la comprensión visual de imágenes y videos, los modelos pequeños añaden entrada de audio y el tiempo de ejecución permite equilibrar el detalle visual frente a la velocidad mediante presupuestos de tokens. Esto hace que Gemma 4 sea adecuada para OCR, subtitulado, detección de objetos, tareas de voz y prompts de medios mixtos dentro de un mismo flujo de chat.

Comprensión de imágenes

Todos los modelos de Gemma 4 admiten flujos de trabajo de texto más imagen.

  • Tareas comunes: OCR, detección de objetos, respuesta a preguntas visuales, subtitulado de imágenes
  • Admite el razonamiento a través de múltiples imágenes en un solo prompt
  • Ideal para capturas de pantalla, documentos, imágenes de productos y análisis de escenas

Comprensión de video

Todos los modelos de Gemma 4 pueden procesar video como una secuencia de fotogramas.

  • Útil para descripción de escenas, interacción humana y resúmenes situacionales
  • El video se pasa como un elemento de contenido en el arreglo de mensajes
  • La duración máxima de video admitida es de 60 segundos a 1 fotograma por segundo

Comprensión de audio

El audio está disponible en los modelos E2B y E4B.

  • Admite reconocimiento de voz multilingüe, traducción de voz y comprensión general del habla
  • El costo de tokens de audio es de 25 tokens por segundo
  • La duración máxima de audio es de 30 segundos

Presupuestos de tokens visuales

Gemma 4 introduce el procesamiento de imágenes de resolución variable para que pueda elegir velocidad o detalle según la tarea.

  • Presupuestos de imagen admitidos: 70, 140, 280, 560, 1120 tokens
  • Presupuestos más bajos para clasificación rápida, subtitulado y análisis de fotogramas de video
  • Presupuestos más altos para OCR, análisis de documentos y lectura de texto pequeño

Reglas de preparación de entrada

El procesador se encarga de gran parte del formateo de medios, pero algunos límites son importantes en producción.

  • El audio debe ser mono, 16 kHz, float32, normalizado a [-1, 1]
  • El soporte de archivos de imagen depende del framework utilizado para convertir archivos en tensores
  • La calidad del prompt sigue siendo importante: las instrucciones específicas superan a las solicitudes multimodales vagas

División de capacidades del modelo

Utilice los modelos más pequeños para casos de uso móviles y centrados en voz, y los modelos más grandes para un razonamiento más pesado con contexto largo.

  • E2B y E4B: modelos pequeños con capacidad de audio y contexto de 128K
  • 26B A4B y 31B: modelos más grandes enfocados en el razonamiento con contexto de 256K
  • Los cuatro tamaños oficiales están disponibles en variantes base y ajustadas por instrucciones
Implementación local

Gemma 4 GGUF y cuantización

Elija la huella de Gemma 4 más pequeña que se ajuste a su máquina

Para la mayoría de las configuraciones locales, la decisión práctica es si quedarse con E2B o E4B, o subir a una compilación GGUF de 26B A4B. Google documenta las necesidades aproximadas de memoria para las opciones de implementación BF16, SFP8 y estilo de 4 bits en los cuatro tamaños oficiales.

Puntos de entrada locales oficiales

La guía de Ollama de Google expone cuatro etiquetas de Gemma 4: gemma4:e2b, gemma4:e4b, gemma4:26b y gemma4:31b. LM Studio también admite modelos Gemma tanto en formato GGUF como MLX para inferencia totalmente local.

Comience con E2B o E4B para un ciclo local más ligero, y pase a 26B o 31B solo cuando tenga el presupuesto de RAM necesario y desee un modelo de razonamiento más sólido.

Memoria aproximada por tamaño oficial

Google enumera la memoria de inferencia aproximada como E2B 9.6 GB BF16 / 3.2 GB Q4_0, E4B 15 GB / 5 GB, 26B A4B 48 GB / 15.6 GB y 31B 58.3 GB / 17.4 GB.

Si su objetivo es una máquina local convencional, la implementación de estilo de 4 bits o un tamaño de modelo más pequeño suele ser la línea entre lo ejecutable y lo impráctico.

Ejemplo oficial de 26B A4B GGUF

La página oficial de ggml-org para Gemma 4 26B A4B IT GGUF recomienda llama-server para el inicio y enumera Q4_K_M en 16.8 GB, Q8_0 en 26.9 GB y F16 en 50.5 GB.

Q4_K_M es el valor predeterminado más práctico cuando se desea un modelo Gemma 4 local grande pero no se puede costear el uso de memoria de Q8_0 o de 16 bits completos.

Qué cambia la cuantización

Los recuentos de parámetros más altos y la mayor precisión son generalmente más capaces, pero cuestan más ciclos de procesamiento, memoria y energía. La menor precisión reduce esos costos pero puede disminuir la capacidad.

Utilice la cuantización para ajustar el modelo a su hardware: las compilaciones GGUF más pequeñas le ayudan a ejecutar localmente, pero son un compromiso de implementación en lugar de una mejora gratuita.

Flujo de trabajo de Python

Guía de Gemma 4 para PyTorch

Ejecuta Gemma 4 desde un entorno centrado en PyTorch

La vía más rápida de Python para Gemma 4 es Hugging Face Transformers sobre PyTorch: instala torch y transformers, elige un ID de modelo de Gemma 4 y comienza con la inferencia de texto basada en pipelines antes de pasar a flujos de trabajo multimodales o habilitados para herramientas.

1

Instala el entorno de ejecución

La guía de inferencia de texto de Gemma 4 de Google comienza con torch, accelerate y transformers, además de dialog para el manejo de conversaciones.

pip install torch accelerate pip install transformers pip install dialog
2

Elige un checkpoint oficial de Gemma 4

Los ejemplos de Gemma 4 de Google muestran cuatro IDs oficiales ajustados por instrucciones: google/gemma-4-E2B-it, google/gemma-4-E4B-it, google/gemma-4-26B-A4B-it y google/gemma-4-31B-it.

MODEL_ID = "google/gemma-4-E2B-it"
3

Comienza con la generación de texto

Usa transformers.pipeline con task="text-generation", device_map="auto" y dtype="auto" como la forma más rápida de obtener una primera respuesta.

from transformers import pipeline txt_pipe = pipeline( task="text-generation", model=MODEL_ID, device_map="auto", dtype="auto" )
4

Pasa a flujos multimodales y herramientas cuando sea necesario

Para flujos de trabajo multimodales y de llamada a funciones, usa AutoProcessor y AutoModelForMultimodalLM con apply_chat_template para prompts conscientes de herramientas.

from transformers import AutoProcessor, AutoModelForMultimodalLM model = AutoModelForMultimodalLM.from_pretrained( MODEL_ID, dtype="auto", device_map="auto") processor = AutoProcessor.from_pretrained(MODEL_ID)
5

Usa PyTorch nativo para un control más profundo

La guía de PyTorch de Google documenta la configuración de credenciales de Kaggle, la instalación de dependencias, la clonación de gemma_pytorch y la carga de clases de modelos multimodales para la experimentación con control directo de checkpoints.

pip install -q -U torch immutabledict sentencepiece git clone https://github.com/google/gemma_pytorch.git
IA en el dispositivo

Despliegue móvil de Gemma 4

Lleva Gemma 4 a dispositivos móviles a través del stack actual de Android

Gemma 4 ahora tiene tres rutas prácticas para móviles: ML Kit Prompt API en dispositivos de vista previa de AICore, flujos de trabajo de modelos locales de Android Studio para uso de desarrolladores y LiteRT-LM para un control del entorno de ejecución de bajo nivel en dispositivos móviles y embebidos.

1

Elige la ruta que coincida con tu objetivo

Usa ML Kit Prompt API en AICore si estás creando una experiencia de aplicación para Android, modelos locales de Android Studio si deseas ayuda de codificación sin conexión y LiteRT-LM si necesitas un control del entorno de ejecución de bajo nivel.

Path by use case: - App feature prototype: ML Kit Prompt API + AICore - Local coding workflow: Android Studio local model - Custom runtime control: LiteRT-LM
2

Prototipa en el dispositivo con AICore

La vista previa de abril de 2026 de Google te permite apuntar a Gemma 4 E2B o E4B a través de la configuración de preferencia de modelo dentro del flujo de la Prompt API en dispositivos habilitados para AICore.

val previewFullConfig = generationConfig { modelConfig = ModelConfig { releaseTrack = ModelReleaseTrack.PREVIEW preference = ModelPreference.FULL } }
3

Conoce las expectativas del dispositivo

Los modelos de vista previa se ejecutan en dispositivos habilitados para AICore y en los aceleradores de IA más recientes de Google, MediaTek y Qualcomm. AI Edge Gallery está disponible para comprobaciones rápidas de modelos en dispositivos que no son AICore.

Testing options: - AICore-enabled phone for preview models - AI Edge Gallery for quick model checks - High-end Android hardware (Pixel 8, Samsung S23+)
4

Usa Android Studio para flujos de trabajo de desarrolladores

Android Studio recomienda actualmente a Gemma 4 como su opción de modelo local. Gemma E4B requiere 12 GB de RAM y 4 GB de almacenamiento; Gemma 26B MoE requiere 24 GB de RAM y 17 GB de almacenamiento.

Settings > Tools > AI > Model Providers
5

Cambia a LiteRT-LM para un control más profundo del entorno de ejecución

LiteRT-LM es una biblioteca multiplataforma para pipelines de modelos de lenguaje desde teléfonos hasta sistemas embebidos, con rutas de CPU, GPU y NPU que incluyen Qualcomm AI Engine Direct y MediaTek NeuroPilot.

LiteRT-LM supports: - CPU / GPU execution - Qualcomm AI Engine Direct - MediaTek NeuroPilot
Comparación de modelos

Gemma 4 frente a Gemma 3

Descubre qué cambia realmente al pasar de Gemma 3 a Gemma 4

Esta comparación es para desarrolladores que deciden si mantener un flujo de trabajo existente de Gemma 3 o reconstruirlo en torno a Gemma 4. Las diferencias más claras aparecen en la longitud del contexto, el formato de control, el alcance multimodal y el rendimiento de los benchmarks en el nivel superior de cada familia.

Lanzamiento y tamaños principales

Gemma 4
Lanzado el 31 de marzo de 2026 en tamaños E2B, E4B, 26B A4B y 31B.
Gemma 3
Lanzado el 10 de marzo de 2025 en tamaños 1B, 4B, 12B y 27B, con el de 270M añadido el 14 de agosto de 2025.

Gemma 4 reduce la familia en torno a niveles de despliegue más claros: modelos E centrados en el borde y modelos más grandes de clase estación de trabajo.

Ventana de contexto

Gemma 4
E2B y E4B admiten hasta 128K de contexto; 26B A4B y 31B admiten hasta 256K.
Gemma 3
4B, 12B y 27B admiten 128K de contexto; 1B y 270M admiten 32K.

Para documentos largos, trazas de herramientas o historiales de varios pasos, los modelos más grandes de Gemma 4 ofrecen un margen significativamente mayor.

Multimodalidad

Gemma 4
Admite entrada de imagen, video, texto-imagen intercalado y audio nativo en E2B y E4B.
Gemma 3
Los modelos principales admiten entrada de texto e imagen con salida de texto.

Gemma 4 es la familia multimodal más amplia si tu caso de uso va más allá de imagen-texto hacia video, flujos con mucho OCR o modelos de borde con capacidad de audio.

Formato de prompt y control

Gemma 4
Añade soporte nativo para el rol de sistema y tokens de control especializados para herramientas, razonamiento, imágenes y audio.
Gemma 3
El formato heredado usa turnos de usuario/modelo; no se admite el rol de sistema por separado.

Los equipos que crean agentes o flujos de trabajo estructurados obtienen una superficie de control más limpia en Gemma 4.

Instantánea de benchmarks de nivel superior

Gemma 4
Gemma 4 31B: MMLU Pro 85.2, AIME 2026 89.2, LiveCodeBench v6 80.0, GPQA Diamond 84.3.
Gemma 3
Gemma 3 27B (sin razonamiento): MMLU Pro 67.6, AIME 2026 20.8, LiveCodeBench v6 29.1, GPQA Diamond 42.4.

Si se actualiza por razonamiento, codificación o preguntas y respuestas de alta dificultad, el salto del nivel superior de Gemma 4 es lo suficientemente grande como para justificar una migración.

Perfil de despliegue

Gemma 4
E2B y E4B para un uso local y en el dispositivo eficiente; 26B A4B y 31B para escenarios de GPU de consumo o estaciones de trabajo.
Gemma 3
Sigue siendo sólido para tamaños clásicos más pequeños como 1B y 4B, con un nivel superior de 27B y 128K de contexto en las variantes principales más grandes.

Quédate en Gemma 3 cuando los tamaños clásicos pequeños ya se ajusten a tu stack; cámbiate a Gemma 4 cuando desees nuevas funciones de control, modelos superiores con mayor contexto o variantes más potentes orientadas al borde.