Gemma 3 en local: VRAM y benchmarks

Q: ¿Cómo instalar Gemma 3 con Ollama?

Solo tres comandos. Para el 4B: ollama pull gemma3:4b. Para el 12B: ollama pull gemma3:12b. Para el 27B: ollama pull gemma3:27b. Una vez descargado: ollama run gemma3:4b para empezar. También está disponible en LM Studio bajo el nombre "google/gemma-3-4b-it".

1. La respuesta rápida

Si tienes prisa: el 4B corre en cualquier CPU moderna, el 12B en cualquier GPU ≥8 GB, el 27B necesita una RTX 3090 o equivalente. ¿No sabes cuánta VRAM tiene tu GPU? Usa nuestra calculadora de VRAM antes de descargar nada.

Modelo	Parámetros	VRAM Q4	Disco Q4	GPU mínima	¿CPU?	Calidad
Gemma 3 4B	4B	2.4 GB	2 GB	Sin GPU (CPU)	✓ 16 tok/s	72/100
Gemma 3 12B	12B	7.2 GB	6 GB	RTX 3060 12GB	Lento	83/100
Gemma 3 27B	27B	16.2 GB	13.5 GB	RTX 3090 24GB	No viable	89/100

El dato que más sorprende: Gemma 3 4B es el único modelo de familia reciente que corre en CPU a velocidad usable — 16 tok/s medidos en i7. Para chat ocasional es perfectamente funcional. Sin GPU, sin instalación de drivers CUDA.

2. Qué es Gemma 3 y qué tiene de especial

Gemma 3 es la familia de modelos open de Google DeepMind lanzada en marzo 2025. No es el Gemini que pagas en Google One — es la versión descargable, ejecutable en tu máquina, con pesos públicos. Google la licencia bajo la licencia Gemma: gratuita para uso personal y comercial mientras tu producto no supere los 2.000 millones de usuarios activos mensuales. Para la práctica totalidad de proyectos individuales y empresas: libre sin restricciones.

Por qué el 4B es el modelo más interesante

La mayoría de familias de modelos tienen un "modelo de entrada" que requiere GPU. Gemma 3 4B es diferente: sus 4 mil millones de parámetros Q4 ocupan 2.4 GB de VRAM — o RAM del sistema si no hay GPU. Un Intel Core i7 lo corre a 16 tok/s medidos. Eso es conversación fluida.

Context window de 128.000 tokens — en todos los tamaños

128.000 tokens son aproximadamente 100 páginas de texto. Puedes pasar un PDF entero de documentación, analizar logs de servidor completos, o mantener conversaciones muy largas sin que el modelo "olvide" el principio. Esta ventana se aplica al 4B, 12B y 27B por igual — no es exclusiva del modelo grande.

Gemma 3 no tiene arquitectura MoE — son modelos densos. Eso significa que la relación VRAM/parámetros es predecible y directa: no hay "parámetros activos vs totales" que confunda los requisitos. Lo que ves en la tabla de arriba es exactamente lo que necesitas.

3. VRAM y disco por quantización — datos exactos

Estos datos son los valores reales extraídos de los modelos. La regla general es: VRAM ≈ parámetros × bytes_por_peso × 1.2 (overhead KV cache + activaciones). Q4 es el equilibrio recomendado: buena calidad con la mitad de VRAM que Q8.

Gemma 3 4B

Corre en CPU · entrada

FP16	Q8	Q4 (rec.)	Q2
VRAM: 9.6 GB	VRAM: 4.8 GB	VRAM: 2.4 GB	VRAM: 1.2 GB
Disco: 8 GB	Disco: 4 GB	Disco: 2 GB	Disco: 1 GB

Con Q4 (2.4 GB): cabe en cualquier GPU discreta, cualquier Mac con 8 GB de unified memory, y en CPU (usa RAM del sistema). El ollama_tag es gemma3:4b. Context: 128.000 tokens. Calidad: 72/100.

Gemma 3 12B

RTX 3060 · equilibrio

FP16	Q8	Q4 (rec.)	Q2
VRAM: 28.8 GB	VRAM: 14.4 GB	VRAM: 7.2 GB	VRAM: 3.6 GB
Disco: 24 GB	Disco: 12 GB	Disco: 6 GB	Disco: 3 GB

Con Q4 (7.2 GB): cabe en RTX 3060 12GB con 4.8 GB de margen, RTX 4060 8GB sin margen (justo), o cualquier GPU ≥8 GB. El ollama_tag es gemma3:12b. Context: 128.000 tokens. Calidad: 83/100.

Gemma 3 27B

RTX 3090 · máxima calidad

FP16	Q8	Q4 (rec.)	Q2
VRAM: 64.8 GB	VRAM: 32.4 GB	VRAM: 16.2 GB	VRAM: 8.1 GB
Disco: 54 GB	Disco: 27 GB	Disco: 13.5 GB	Disco: 6.75 GB

Con Q4 (16.2 GB): necesita RTX 3090 24GB, RTX 4090 24GB, o RX 7900 XTX 24GB. Con RTX 4060 Ti 16GB (15.3 GB útiles): Q4 no cabe — usar Q2 (8.1 GB) con degradación de calidad. El ollama_tag es gemma3:27b. Context: 128.000 tokens. Calidad: 89/100.

Sobre Q2: Q2 reduce la calidad de forma perceptible — el modelo comete más errores factuales y la coherencia del texto cae. Úsalo solo si no tienes otra opción (GPU con VRAM justa). Para el 27B con RTX 3090 24GB, Q4 cabe sin problema y es el formato recomendado.

4. Instalación con Ollama (paso a paso)

Ollama es la forma más directa de correr Gemma 3 en local. Un comando descarga el modelo y levanta una API REST en localhost:11434. Si no tienes Ollama instalado, lee la guía completa de instalación de Ollama — tarda menos de 5 minutos.

Descargar el modelo

bash

# Gemma 3 4B — corre en CPU, sin GPU necesaria
ollama pull gemma3:4b

# Gemma 3 12B — necesita GPU ≥8 GB VRAM
ollama pull gemma3:12b

# Gemma 3 27B — necesita GPU ≥18 GB VRAM
ollama pull gemma3:27b

Empezar a chatear

bash

# Abrir sesión de chat interactiva
ollama run gemma3:4b

# Consulta directa desde terminal
ollama run gemma3:4b "Explica qué es la cuantización de modelos LLM"

API REST (para integraciones)

bash

curl http://localhost:11434/api/generate \
  -d '{
    "model": "gemma3:4b",
    "prompt": "¿Qué diferencia hay entre Q4 y Q8?",
    "stream": false
  }'

Alternativa — LM Studio: Si prefieres interfaz gráfica, Gemma 3 está disponible en LM Studio bajo el nombre google/gemma-3-4b-it (y equivalentes para 12B y 27B). Misma calidad, sin terminal. Para developers que quieren API o integraciones, Ollama es más directo.

Ollama detecta automáticamente si tienes GPU compatible (NVIDIA CUDA, AMD ROCm, Apple Metal) y la usa. Si no hay GPU, usa CPU sin configuración adicional. El 4B en CPU es el único que da resultados a velocidad conversacional.

5. Guía de selección: ¿qué versión te conviene?

La decisión es sencilla si partes de tu hardware. No al revés. ¿Tienes dudas sobre la VRAM de tu GPU? Compara GPUs para Gemma 3 con datos reales de VRAM y bandwidth.

Sin GPU i7 / Ryzen 7 / cualquier CPU moderna

Gemma 3 4B — única opción viable en CPU. 16 tok/s medidos en Intel Core i7. Para chat ocasional, generación de texto, resúmenes: completamente funcional. Para uso intensivo (coding continuo, sesiones largas): considera una GPU en el futuro.

ollama pull gemma3:4b

GPU 8–12 GB VRAM RTX 3060 12GB · RTX 4060 8GB · RX 7600 8GB

Gemma 3 12B Q4 — 7.2 GB VRAM, cabe en RTX 3060 con margen. 83/100 de calidad. Para coding asistido, escritura, análisis de documentos: notable diferencia respecto al 4B. Rendimiento estimado ~30–40 tok/s en RTX 3060.

ollama pull gemma3:12b

GPU 24 GB VRAM RTX 3090 · RTX 4090 · RX 7900 XTX

Gemma 3 27B Q4 — 16.2 GB VRAM, cabe en 24 GB con margen. 89/100 de calidad. El techo de la familia. Para tareas que necesitan máxima coherencia y capacidad de razonamiento. Rendimiento estimado ~28 tok/s en RTX 4090.

ollama pull gemma3:27b

Si tienes RTX 4060 Ti 16GB: El 27B Q4 no cabe (necesita 16.2 GB, y la GPU reserva ~0.7 GB para el sistema). Opciones: (a) quedate con el 12B Q4 a plena calidad, o (b) usa 27B Q2 (8.1 GB) con degradación perceptible. La opción (a) es la recomendada — 83/100 a velocidad vs 89/100 degradado. Para calcular tu caso exacto: calculadora de VRAM.

6. Rendimiento: lo que puedes esperar

Solo el dato de CPU está medido directamente. Los valores de GPU son estimados a partir del bandwidth de memoria de cada tarjeta y el tamaño del modelo — metodología estándar para inferencia LLM donde el bottleneck es bandwidth, no FLOPS.

Hardware	Gemma 3 4B Q4	Gemma 3 12B Q4	Gemma 3 27B Q4
CPU i7 (DDR4)	16 tok/s (medido)	~5 tok/s (est.)	No viable
RTX 3060 12GB	~80–100 tok/s (est.)	~30–40 tok/s (est.)	offloading (~4 tok/s)
RTX 4090 24GB	~160 tok/s (est.)	~60 tok/s (est.)	~28 tok/s (est.)
RX 7900 XTX 24GB	~130 tok/s (est.)	~50 tok/s (est.)	~22 tok/s (est.)
M4 Max 36GB	~110 tok/s (est.)	~45 tok/s (est.)	~20 tok/s (est.)

4B en CPU i7 (16 tok/s medido): Una respuesta de 200 palabras tarda ~15 segundos. Perfectamente usable para chat. El limitante no es la velocidad del procesador sino el bandwidth de memoria RAM (~50 GB/s en DDR4). Con DDR5 o LPDDR5 de laptop se puede ganar un 15–20% adicional.

12B en RTX 3060 (~35 tok/s est.): Respuesta fluida para cualquier tarea. La diferencia de calidad respecto al 4B (83 vs 72) se nota en tareas de razonamiento, código y respuestas largas. Para coding asistido, el salto es perceptible en la primera sesión.

27B en RTX 4090 (~28 tok/s est.): Velocidad similar a Llama 3.1 70B en hardware inferior — la eficiencia de Gemma 3 es notable. Un modelo de 27B rindiendo como un 70B en velocidad es el resultado de la arquitectura densa bien optimizada y el entrenamiento de Google DeepMind.

7. Gemma 3 vs competencia en el mismo tamaño

La comparativa relevante no es "mejor modelo del mundo" — es "mejor modelo para tu hardware específico". Aquí las comparaciones donde Gemma 3 tiene ventaja o desventaja clara.

Gemma 3 4B vs Llama 3.2 3B

Gemma 3 4B tiene más parámetros (4B vs 3B) y más calidad (72 vs ~68 en nuestra escala). En CPU, el 4B de Gemma corre a 16 tok/s — el 3B de Llama a ~20 tok/s por ser más pequeño, pero con peor output. Para la mayoría de casos en CPU, Gemma 3 4B es la elección correcta. Excepción: si tu CPU es muy lenta y la velocidad importa más que la calidad.

Veredicto: Gemma 3 4B gana en calidad; Llama 3.2 3B gana en velocidad CPU.

Gemma 3 4B vs Phi-4 (14B)

Phi-4 tiene 14B parámetros y calidad superior, pero necesita ~8.4 GB de VRAM en Q4. Gemma 3 4B con 2.4 GB Q4 hace posible lo que Phi-4 no: correr en CPU a velocidad razonable o en GPUs de 4–6 GB (GTX 1060, RTX 3050). Si tienes GPU ≥8GB, Phi-4 probablemente da mejor output. Si corres en CPU o GPU pequeña, Gemma 3 4B es la única opción real.

Veredicto: Phi-4 gana en calidad; Gemma 3 4B gana en requisitos de hardware.

Gemma 3 12B vs Mistral 7B

Mistral 7B necesita ~4.1 GB Q4 — la mitad que Gemma 3 12B (7.2 GB). Si tienes una GPU de 8 GB y quieres maximizar velocidad, Mistral 7B va más rápido. Si tienes 12 GB o más, Gemma 3 12B tiene calidad significativamente superior (83 vs ~75 en nuestra escala) y el doble de context window. Con RTX 3060 12GB, la elección obvia es Gemma 3 12B.

Veredicto: Mistral 7B gana en requisitos; Gemma 3 12B gana en calidad y contexto.

Para comparativas detalladas de GPUs y cuál aguanta mejor cada modelo, usa el comparador de GPUs. Para ver todas las especificaciones de Gemma 3 4B y 12B en detalle: página del Gemma 3 4B y página del Gemma 3 12B.

8. Preguntas frecuentes

¿Cuánta VRAM necesita Gemma 3?

Depende del tamaño. Gemma 3 4B necesita 2.4 GB VRAM en Q4 — incluso corre en CPU a 16 tok/s en un i7. El 12B necesita 7.2 GB Q4 (cabe en RTX 3060 12GB con margen). El 27B necesita 16.2 GB Q4 (necesita RTX 3090 24GB o similar).

¿Gemma 3 corre sin GPU?

Sí, el Gemma 3 4B corre en CPU. En un Intel Core i7 alcanza ~16 tokens/segundo en cuantización Q4. Es lento para uso intensivo pero completamente funcional para chat ocasional. El 12B y 27B requieren GPU para velocidades útiles.

¿Cómo instalar Gemma 3 con Ollama?

Solo tres comandos. Para el 4B: ollama pull gemma3:4b. Para el 12B: ollama pull gemma3:12b. Para el 27B: ollama pull gemma3:27b. Una vez descargado: ollama run gemma3:4b para empezar. También está disponible en LM Studio bajo el nombre "google/gemma-3-4b-it".

¿Es Gemma 3 gratuito para uso comercial?

Sí, con condiciones. La licencia Gemma permite uso personal y comercial para productos con menos de 2.000 millones de usuarios activos mensuales. Para la mayoría de proyectos personales y empresas pequeñas: completamente libre.

¿Gemma 3 o Llama 3 para uso local?

Depende de tu hardware. Si tienes GPU NVIDIA ≥8GB: Llama 3.1 8B y Gemma 3 12B tienen calidad comparable (78 vs 83 en nuestra escala). Si corres en CPU: Gemma 3 4B es superior a Llama 3.1 8B (16 tok/s vs 7 tok/s en i7, porque el 4B es más pequeño y eficiente). Contexto de 128K tokens en Gemma 3 vs 131K en Llama 3.1 — prácticamente equivalente.

GPUs recomendadas para Gemma 3

Gemma 3 viene en 4B, 12B y 27B. La GPU que necesitas depende del tamaño:

RTX 3060 12GB

Gemma 3 4B y 12B Q4 con margen

Ver precio en Amazon

RTX 4060 Ti 16GB

Gemma 3 12B Q4 con contexto amplio

Ver precio en Amazon

RTX 4090 24GB

Gemma 3 27B Q4 cómodamente

Ver precio en Amazon

Hardware recomendado para este modelo

GPUs verificadas para correr Gemma 3 en local — actualizado en 2026.

€269

budget Amazon Prime

RTX 3060 12GB

4.8 (1,400 reviews)

Pros

Recomendación principal para Gemma 3 4B y 12B
12 GB VRAM cubre los tamaños más populares
Mejor relación calidad-precio del mercado

Cons

No alcanza para Gemma 3 27B Q4

Ver en Amazon

€399

mid Amazon Prime

RTX 4060 Ti 8GB

4.6 (640 reviews)

Pros

Ada Lovelace: más eficiente por watt
Ideal para Gemma 3 4B con contexto amplio
Consumo moderado

Cons

8 GB ajustados para modelos 12B

Ver en Amazon

€449

mid Amazon Prime

RTX 4070 12GB

4.7 (890 reviews)

Pros

12 GB VRAM para Gemma 3 12B cómodamente
Alta velocidad de inferencia Ada
Equilibrio rendimiento/consumo

Cons

Precio superior a RTX 3060

Ver en Amazon

Product image

€249

budget Amazon Prime

Intel Arc B580 12GB

4.2 (180 reviews)

Pros

12 GB VRAM al mejor precio
Soporte Ollama vía Vulkan
Bajo consumo energético

Cons

Ecosistema software menos maduro

Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

9. Calcula tu caso exacto

Los números de este artículo son el punto de partida, pero hay variables que cambian el resultado: overhead del contexto, versión exacta del modelo, cantidad de RAM disponible para offloading. Para tu combinación específica de GPU + modelo + quantización, usa la calculadora.

Calculadora de VRAM

Selecciona tu GPU y el tamaño de Gemma 3. La calculadora te dice: si cabe en VRAM, cuántos tokens/seg obtendrás, y qué pasa si activas offloading.

Calcular mi GPU ahora →