Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.
Gemma 3 en local: VRAM exacta, instalación con Ollama y benchmarks
El modelo open de Google lanzado en marzo 2025. Tres tamaños: el 4B corre en CPU a 16 tok/s, el 12B cabe en una RTX 3060, el 27B en una RTX 3090. Context window de 128.000 tokens en todos. Datos exactos — sin estimaciones donde tenemos medidas reales.
1. La respuesta rápida
Si tienes prisa: el 4B corre en cualquier CPU moderna, el 12B en cualquier GPU ≥8 GB, el 27B necesita una RTX 3090 o equivalente. ¿No sabes cuánta VRAM tiene tu GPU? Usa nuestra calculadora de VRAM antes de descargar nada.
| Modelo | Parámetros | VRAM Q4 | Disco Q4 | GPU mínima | ¿CPU? | Calidad |
|---|---|---|---|---|---|---|
| Gemma 3 4B | 4B | 2.4 GB | 2 GB | Sin GPU (CPU) | ✓ 16 tok/s | 72/100 |
| Gemma 3 12B | 12B | 7.2 GB | 6 GB | RTX 3060 12GB | Lento | 83/100 |
| Gemma 3 27B | 27B | 16.2 GB | 13.5 GB | RTX 3090 24GB | No viable | 89/100 |
El dato que más sorprende: Gemma 3 4B es el único modelo de familia reciente que corre en CPU a velocidad usable — 16 tok/s medidos en i7. Para chat ocasional es perfectamente funcional. Sin GPU, sin instalación de drivers CUDA.
2. Qué es Gemma 3 y qué tiene de especial
Gemma 3 es la familia de modelos open de Google DeepMind lanzada en marzo 2025. No es el Gemini que pagas en Google One — es la versión descargable, ejecutable en tu máquina, con pesos públicos. Google la licencia bajo la licencia Gemma: gratuita para uso personal y comercial mientras tu producto no supere los 2.000 millones de usuarios activos mensuales. Para la práctica totalidad de proyectos individuales y empresas: libre sin restricciones.
Por qué el 4B es el modelo más interesante
La mayoría de familias de modelos tienen un "modelo de entrada" que requiere GPU. Gemma 3 4B es diferente: sus 4 mil millones de parámetros Q4 ocupan 2.4 GB de VRAM — o RAM del sistema si no hay GPU. Un Intel Core i7 lo corre a 16 tok/s medidos. Eso es conversación fluida.
Context window de 128.000 tokens — en todos los tamaños
128.000 tokens son aproximadamente 100 páginas de texto. Puedes pasar un PDF entero de documentación, analizar logs de servidor completos, o mantener conversaciones muy largas sin que el modelo "olvide" el principio. Esta ventana se aplica al 4B, 12B y 27B por igual — no es exclusiva del modelo grande.
Gemma 3 no tiene arquitectura MoE — son modelos densos. Eso significa que la relación VRAM/parámetros es predecible y directa: no hay "parámetros activos vs totales" que confunda los requisitos. Lo que ves en la tabla de arriba es exactamente lo que necesitas.
3. VRAM y disco por quantización — datos exactos
Estos datos son los valores reales extraídos de los modelos. La regla general es: VRAM ≈ parámetros × bytes_por_peso × 1.2 (overhead KV cache + activaciones). Q4 es el equilibrio recomendado: buena calidad con la mitad de VRAM que Q8.
Gemma 3 4B
Corre en CPU · entrada| FP16 | Q8 | Q4 (rec.) | Q2 |
|---|---|---|---|
| VRAM: 9.6 GB | VRAM: 4.8 GB | VRAM: 2.4 GB | VRAM: 1.2 GB |
| Disco: 8 GB | Disco: 4 GB | Disco: 2 GB | Disco: 1 GB |
Con Q4 (2.4 GB): cabe en cualquier GPU discreta, cualquier Mac con 8 GB de unified memory,
y en CPU (usa RAM del sistema). El ollama_tag es gemma3:4b.
Context: 128.000 tokens. Calidad: 72/100.
Gemma 3 12B
RTX 3060 · equilibrio| FP16 | Q8 | Q4 (rec.) | Q2 |
|---|---|---|---|
| VRAM: 28.8 GB | VRAM: 14.4 GB | VRAM: 7.2 GB | VRAM: 3.6 GB |
| Disco: 24 GB | Disco: 12 GB | Disco: 6 GB | Disco: 3 GB |
Con Q4 (7.2 GB): cabe en RTX 3060 12GB con 4.8 GB de margen, RTX 4060 8GB sin margen (justo),
o cualquier GPU ≥8 GB. El ollama_tag es gemma3:12b.
Context: 128.000 tokens. Calidad: 83/100.
Gemma 3 27B
RTX 3090 · máxima calidad| FP16 | Q8 | Q4 (rec.) | Q2 |
|---|---|---|---|
| VRAM: 64.8 GB | VRAM: 32.4 GB | VRAM: 16.2 GB | VRAM: 8.1 GB |
| Disco: 54 GB | Disco: 27 GB | Disco: 13.5 GB | Disco: 6.75 GB |
Con Q4 (16.2 GB): necesita RTX 3090 24GB, RTX 4090 24GB, o RX 7900 XTX 24GB.
Con RTX 4060 Ti 16GB (15.3 GB útiles): Q4 no cabe — usar Q2 (8.1 GB) con degradación de calidad.
El ollama_tag es gemma3:27b.
Context: 128.000 tokens. Calidad: 89/100.
Sobre Q2: Q2 reduce la calidad de forma perceptible — el modelo comete más errores factuales y la coherencia del texto cae. Úsalo solo si no tienes otra opción (GPU con VRAM justa). Para el 27B con RTX 3090 24GB, Q4 cabe sin problema y es el formato recomendado.
4. Instalación con Ollama (paso a paso)
Ollama es la forma más directa de correr Gemma 3 en local. Un comando descarga el modelo
y levanta una API REST en localhost:11434.
Si no tienes Ollama instalado, lee la guía completa de instalación de Ollama
— tarda menos de 5 minutos.
Descargar el modelo
# Gemma 3 4B — corre en CPU, sin GPU necesaria
ollama pull gemma3:4b
# Gemma 3 12B — necesita GPU ≥8 GB VRAM
ollama pull gemma3:12b
# Gemma 3 27B — necesita GPU ≥18 GB VRAM
ollama pull gemma3:27b Empezar a chatear
# Abrir sesión de chat interactiva
ollama run gemma3:4b
# Consulta directa desde terminal
ollama run gemma3:4b "Explica qué es la cuantización de modelos LLM" API REST (para integraciones)
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma3:4b",
"prompt": "¿Qué diferencia hay entre Q4 y Q8?",
"stream": false
}' Alternativa — LM Studio:
Si prefieres interfaz gráfica, Gemma 3 está disponible en LM Studio bajo el nombre
google/gemma-3-4b-it (y equivalentes para 12B y 27B).
Misma calidad, sin terminal. Para developers que quieren API o integraciones, Ollama es más directo.
Ollama detecta automáticamente si tienes GPU compatible (NVIDIA CUDA, AMD ROCm, Apple Metal) y la usa. Si no hay GPU, usa CPU sin configuración adicional. El 4B en CPU es el único que da resultados a velocidad conversacional.
5. Guía de selección: ¿qué versión te conviene?
La decisión es sencilla si partes de tu hardware. No al revés. ¿Tienes dudas sobre la VRAM de tu GPU? Compara GPUs para Gemma 3 con datos reales de VRAM y bandwidth.
Gemma 3 4B — única opción viable en CPU. 16 tok/s medidos en Intel Core i7. Para chat ocasional, generación de texto, resúmenes: completamente funcional. Para uso intensivo (coding continuo, sesiones largas): considera una GPU en el futuro.
Gemma 3 12B Q4 — 7.2 GB VRAM, cabe en RTX 3060 con margen. 83/100 de calidad. Para coding asistido, escritura, análisis de documentos: notable diferencia respecto al 4B. Rendimiento estimado ~30–40 tok/s en RTX 3060.
Gemma 3 27B Q4 — 16.2 GB VRAM, cabe en 24 GB con margen. 89/100 de calidad. El techo de la familia. Para tareas que necesitan máxima coherencia y capacidad de razonamiento. Rendimiento estimado ~28 tok/s en RTX 4090.
Si tienes RTX 4060 Ti 16GB: El 27B Q4 no cabe (necesita 16.2 GB, y la GPU reserva ~0.7 GB para el sistema). Opciones: (a) quedate con el 12B Q4 a plena calidad, o (b) usa 27B Q2 (8.1 GB) con degradación perceptible. La opción (a) es la recomendada — 83/100 a velocidad vs 89/100 degradado. Para calcular tu caso exacto: calculadora de VRAM.
6. Rendimiento: lo que puedes esperar
Solo el dato de CPU está medido directamente. Los valores de GPU son estimados a partir del bandwidth de memoria de cada tarjeta y el tamaño del modelo — metodología estándar para inferencia LLM donde el bottleneck es bandwidth, no FLOPS.
| Hardware | Gemma 3 4B Q4 | Gemma 3 12B Q4 | Gemma 3 27B Q4 |
|---|---|---|---|
| CPU i7 (DDR4) | 16 tok/s (medido) | ~5 tok/s (est.) | No viable |
| RTX 3060 12GB | ~80–100 tok/s (est.) | ~30–40 tok/s (est.) | offloading (~4 tok/s) |
| RTX 4090 24GB | ~160 tok/s (est.) | ~60 tok/s (est.) | ~28 tok/s (est.) |
| RX 7900 XTX 24GB | ~130 tok/s (est.) | ~50 tok/s (est.) | ~22 tok/s (est.) |
| M4 Max 36GB | ~110 tok/s (est.) | ~45 tok/s (est.) | ~20 tok/s (est.) |
4B en CPU i7 (16 tok/s medido): Una respuesta de 200 palabras tarda ~15 segundos. Perfectamente usable para chat. El limitante no es la velocidad del procesador sino el bandwidth de memoria RAM (~50 GB/s en DDR4). Con DDR5 o LPDDR5 de laptop se puede ganar un 15–20% adicional.
12B en RTX 3060 (~35 tok/s est.): Respuesta fluida para cualquier tarea. La diferencia de calidad respecto al 4B (83 vs 72) se nota en tareas de razonamiento, código y respuestas largas. Para coding asistido, el salto es perceptible en la primera sesión.
27B en RTX 4090 (~28 tok/s est.): Velocidad similar a Llama 3.1 70B en hardware inferior — la eficiencia de Gemma 3 es notable. Un modelo de 27B rindiendo como un 70B en velocidad es el resultado de la arquitectura densa bien optimizada y el entrenamiento de Google DeepMind.
7. Gemma 3 vs competencia en el mismo tamaño
La comparativa relevante no es "mejor modelo del mundo" — es "mejor modelo para tu hardware específico". Aquí las comparaciones donde Gemma 3 tiene ventaja o desventaja clara.
Gemma 3 4B vs Llama 3.2 3B
Gemma 3 4B tiene más parámetros (4B vs 3B) y más calidad (72 vs ~68 en nuestra escala). En CPU, el 4B de Gemma corre a 16 tok/s — el 3B de Llama a ~20 tok/s por ser más pequeño, pero con peor output. Para la mayoría de casos en CPU, Gemma 3 4B es la elección correcta. Excepción: si tu CPU es muy lenta y la velocidad importa más que la calidad.
Veredicto: Gemma 3 4B gana en calidad; Llama 3.2 3B gana en velocidad CPU.
Gemma 3 4B vs Phi-4 (14B)
Phi-4 tiene 14B parámetros y calidad superior, pero necesita ~8.4 GB de VRAM en Q4. Gemma 3 4B con 2.4 GB Q4 hace posible lo que Phi-4 no: correr en CPU a velocidad razonable o en GPUs de 4–6 GB (GTX 1060, RTX 3050). Si tienes GPU ≥8GB, Phi-4 probablemente da mejor output. Si corres en CPU o GPU pequeña, Gemma 3 4B es la única opción real.
Veredicto: Phi-4 gana en calidad; Gemma 3 4B gana en requisitos de hardware.
Gemma 3 12B vs Mistral 7B
Mistral 7B necesita ~4.1 GB Q4 — la mitad que Gemma 3 12B (7.2 GB). Si tienes una GPU de 8 GB y quieres maximizar velocidad, Mistral 7B va más rápido. Si tienes 12 GB o más, Gemma 3 12B tiene calidad significativamente superior (83 vs ~75 en nuestra escala) y el doble de context window. Con RTX 3060 12GB, la elección obvia es Gemma 3 12B.
Veredicto: Mistral 7B gana en requisitos; Gemma 3 12B gana en calidad y contexto.
Para comparativas detalladas de GPUs y cuál aguanta mejor cada modelo, usa el comparador de GPUs. Para ver todas las especificaciones de Gemma 3 4B y 12B en detalle: página del Gemma 3 4B y página del Gemma 3 12B.
8. Preguntas frecuentes
¿Cuánta VRAM necesita Gemma 3?
Depende del tamaño. Gemma 3 4B necesita 2.4 GB VRAM en Q4 — incluso corre en CPU a 16 tok/s en un i7. El 12B necesita 7.2 GB Q4 (cabe en RTX 3060 12GB con margen). El 27B necesita 16.2 GB Q4 (necesita RTX 3090 24GB o similar).
¿Gemma 3 corre sin GPU?
Sí, el Gemma 3 4B corre en CPU. En un Intel Core i7 alcanza ~16 tokens/segundo en cuantización Q4. Es lento para uso intensivo pero completamente funcional para chat ocasional. El 12B y 27B requieren GPU para velocidades útiles.
¿Cómo instalar Gemma 3 con Ollama?
Solo tres comandos. Para el 4B: ollama pull gemma3:4b.
Para el 12B: ollama pull gemma3:12b.
Para el 27B: ollama pull gemma3:27b.
Una vez descargado: ollama run gemma3:4b para empezar.
También está disponible en LM Studio bajo el nombre "google/gemma-3-4b-it".
¿Es Gemma 3 gratuito para uso comercial?
Sí, con condiciones. La licencia Gemma permite uso personal y comercial para productos con menos de 2.000 millones de usuarios activos mensuales. Para la mayoría de proyectos personales y empresas pequeñas: completamente libre.
¿Gemma 3 o Llama 3 para uso local?
Depende de tu hardware. Si tienes GPU NVIDIA ≥8GB: Llama 3.1 8B y Gemma 3 12B tienen calidad comparable (78 vs 83 en nuestra escala). Si corres en CPU: Gemma 3 4B es superior a Llama 3.1 8B (16 tok/s vs 7 tok/s en i7, porque el 4B es más pequeño y eficiente). Contexto de 128K tokens en Gemma 3 vs 131K en Llama 3.1 — prácticamente equivalente.
GPUs recomendadas para Gemma 3
Gemma 3 viene en 4B, 12B y 27B. La GPU que necesitas depende del tamaño:
Hardware recomendado para este modelo
GPUs verificadas para correr Gemma 3 en local — actualizado en 2026.
€269
RTX 3060 12GB
Pros
- Recomendación principal para Gemma 3 4B y 12B
- 12 GB VRAM cubre los tamaños más populares
- Mejor relación calidad-precio del mercado
Cons
- No alcanza para Gemma 3 27B Q4
€399
RTX 4060 Ti 8GB
Pros
- Ada Lovelace: más eficiente por watt
- Ideal para Gemma 3 4B con contexto amplio
- Consumo moderado
Cons
- 8 GB ajustados para modelos 12B
€449
RTX 4070 12GB
Pros
- 12 GB VRAM para Gemma 3 12B cómodamente
- Alta velocidad de inferencia Ada
- Equilibrio rendimiento/consumo
Cons
- Precio superior a RTX 3060
€249
Intel Arc B580 12GB
Pros
- 12 GB VRAM al mejor precio
- Soporte Ollama vía Vulkan
- Bajo consumo energético
Cons
- Ecosistema software menos maduro
Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.
9. Calcula tu caso exacto
Los números de este artículo son el punto de partida, pero hay variables que cambian el resultado: overhead del contexto, versión exacta del modelo, cantidad de RAM disponible para offloading. Para tu combinación específica de GPU + modelo + quantización, usa la calculadora.
Calculadora de VRAM
Selecciona tu GPU y el tamaño de Gemma 3. La calculadora te dice: si cabe en VRAM, cuántos tokens/seg obtendrás, y qué pasa si activas offloading.
Calcular mi GPU ahora →