¿Cuánta VRAM necesito para correr Llama 3 en local?

Llama 3.1 8B necesita exactamente 5 GB de VRAM en Q4. En FP16 necesita 16 GB. Con 8 GB de VRAM puedes correrlo cómodamente en Q4 con margen para el contexto. Llama 3.3 70B necesita 42 GB en Q4 — requiere multi-GPU o Apple Silicon con 48+ GB de memoria unificada.

¿Qué es la quantización Q4 y cuánta VRAM ahorra?

Q4 (quantización a 4 bits) comprime los pesos del modelo de FP16 (16 bits) a 4 bits, reduciendo el uso de VRAM aproximadamente 4x. Un modelo que ocupa 16 GB en FP16 ocupa ~4-5 GB en Q4. La pérdida de calidad es de aproximadamente 5-7% según benchmarks. Para uso general, Q4 es el punto óptimo entre VRAM y calidad.

¿Puedo correr IA con 8 GB de VRAM?

Sí. Con 8 GB de VRAM puedes correr modelos 7B-8B en Q4 cómodamente: Llama 3.1 8B (5 GB en Q4), Mistral 7B (4.5 GB en Q4), DeepSeek R1 Distill 8B (4.8 GB en Q4). El límite práctico son modelos de 8B parámetros. Para modelos de 13B+ necesitas al menos 10-12 GB de VRAM.

¿Qué pasa si el modelo no cabe en mi VRAM?

Ollama y llama.cpp soportan offloading automático: el modelo se divide entre VRAM y RAM del sistema. El resultado es que el modelo funciona pero mucho más lento — típicamente 5-8x más lento que corriendo completamente en VRAM. Un RTX 4090 con Llama 8B genera ~95 tokens/seg en VRAM. Con offloading a RAM, baja a ~15-20 tokens/seg.

¿La memoria unificada de Apple Silicon cuenta como VRAM?

Sí, la memoria unificada de Apple Silicon actúa como VRAM para los modelos de IA. Un M4 Max con 48 GB puede cargar modelos que requieren hasta ~44 GB (con margen para el sistema operativo). El M4 Max 48GB genera 20 tokens/seg con Llama 3.3 70B Q4 — más lento que un RTX 4090 por el menor bandwidth (546 GB/s vs 1008 GB/s), pero sin necesidad de GPU discreta.

¿Cuánta VRAM necesito para IA local? Guía 2026

1. La respuesta corta

Si tienes prisa, aquí está la tabla de referencia. Los números son exactos — extraídos directamente de los modelos más descargados en 2026, usando quantización Q4 que es el estándar para uso local.

Tu GPU tiene...	Puedes correr...	Ejemplo de modelo
4–6 GB VRAM	Modelos 3B–4B en Q4	Phi-3 Mini (2.5 GB), Gemma 3 4B (2.4 GB)
8 GB VRAM	Modelos 7B–8B en Q4	Llama 3.1 8B (5 GB), Mistral 7B (4.5 GB)
12 GB VRAM	Modelos 7B en FP16 o 12B en Q4	Llama 3.1 8B FP16 (16 GB — ajustado), Gemma 3 12B (7.2 GB)
16 GB VRAM	Modelos 13B–14B cómodamente	Phi-4 Q4 (8.4 GB), Qwen2.5 14B Q4 (8.4 GB)
24 GB VRAM	Modelos 27B–32B en Q4	Gemma 3 27B (16.2 GB), DeepSeek R1 Distill 32B (19.2 GB)
48 GB VRAM	Modelos 70B en Q4	Llama 3.3 70B Q4 (42 GB), Qwen2.5 72B Q4 (41 GB)
192 GB+ (unified)	Modelos 70B con holgura	Apple M3 Ultra — DeepSeek R1 671B Q4 necesita 403 GB, no cabe

¿Quieres el cálculo exacto para tu GPU y modelo? Nuestra calculadora de VRAM te dice exactamente si cabe, cuántos tokens/seg obtendrás y si necesitas offloading.

Nuestra recomendacion

8.0/10

16 GB VRAM es el minimo recomendado para la mayoria de usuarios: permite correr modelos 13B-14B en Q4 con comodidad, 7B en FP16 y tiene margen para contextos largos sin offloading.

Ventajas

13B-14B en Q4 entran completos con margen (8-9 GB usados)
7B en FP16 funciona sin compromiso de calidad
Sin offloading a RAM — velocidad maxima constante
Futuro-resistente para modelos de siguiente generacion
RTX 4060 Ti 16GB y RX 7800 XT son opciones asequibles en esta franja

Inconvenientes

Modelos 30B+ requieren quantizacion Q4 agresiva o parcial offload
Para 70B necesitas multi-GPU o upgrade a 24 GB+
Las GPUs de 16 GB son mas caras que las de 8 GB o 12 GB

Ver GPUs con 16 GB VRAM en Amazon

Enlace de afiliado — si compras a traves de este enlace recibimos una pequena comision sin coste adicional para ti.

Product image

Amazon

0.0 (0 reviews)

View undefined on Amazon →

Product image

Amazon

0.0 (0 reviews)

View undefined on Amazon →

2. Qué es la VRAM y por qué importa más que la RAM

La VRAM (Video RAM) es la memoria dedicada de tu GPU. No es la RAM del sistema — es un banco de memoria físicamente diferente, soldado en la tarjeta gráfica y diseñado para operar a velocidades que la RAM del sistema no puede alcanzar.

VRAM (GPU)

• RTX 4090: 1.008 GB/s de bandwidth
• RTX 3090: 936 GB/s de bandwidth
• M4 Max: 546 GB/s de bandwidth
•Inferencia de modelos a velocidad real

RAM del sistema

• DDR5: ~80–90 GB/s de bandwidth
• DDR4: ~50 GB/s de bandwidth
• 10–20x más lenta para inferencia
• Usado solo cuando no cabe en VRAM

Los LLMs necesitan leer los pesos del modelo completo en cada token que generan. Con un modelo de 8B parámetros en Q4 (~5 GB), el proceso de generar un token requiere leer esos 5 GB de datos. En VRAM eso ocurre en milisegundos. En RAM del sistema, en décimas de segundo.

Comparativa de velocidad real

Configuración	Modelo	Velocidad
RTX 4090 — 100% en VRAM	Llama 3.1 8B Q4	~95 tokens/seg
RTX 4090 — offloading a RAM	Llama 3.1 8B Q4	~15–20 tokens/seg
RTX 3060 12GB — 100% en VRAM	Llama 3.1 8B Q4	~30 tokens/seg

Regla directa: si el modelo no cabe en VRAM, puede correr, pero 5–8x más lento.

3. VRAM por modelo: datos reales

Los números de abajo son exactos — extraídos de los modelos tal como se cargan con Ollama y llama.cpp. Incluyen el overhead habitual de ~10–15% sobre el tamaño del archivo. Ordenados por tamaño ascendente.

Modelo	Params	FP16	Q8	Q4	Q2
Phi-3 Mini	3.8B	7.6 GB	4 GB	2.5 GB	1.5 GB
Gemma 3 4B	4B	9.6 GB	4.8 GB	2.4 GB	1.2 GB
Mistral 7B	7B	14 GB	7 GB	4.5 GB	2.5 GB
Llama 3.1 8B	8B	16 GB	8 GB	5 GB	3 GB
DeepSeek R1 Distill 8B	8B	19.2 GB	9.6 GB	4.8 GB	2.4 GB
Gemma 3 12B	12B	28.8 GB	14.4 GB	7.2 GB	3.6 GB
Phi-4	14B	33.6 GB	16.8 GB	8.4 GB	4.2 GB
Qwen2.5 14B	14B	33.6 GB	16.8 GB	8.4 GB	4.2 GB
DeepSeek R1 Distill 14B	14B	33.6 GB	16.8 GB	8.4 GB	4.2 GB
Mistral Small 3 (24B)	24B	57.6 GB	28.8 GB	14.4 GB	7.2 GB
Gemma 3 27B	27B	64.8 GB	32.4 GB	16.2 GB	8.1 GB
Qwen2.5 32B	32B	76.8 GB	38.4 GB	19.2 GB	9.6 GB
DeepSeek R1 Distill 32B	32B	76.8 GB	38.4 GB	19.2 GB	9.6 GB
Llama 3.3 70B	70B	168 GB	84 GB	42 GB	21 GB
Qwen2.5 72B	72B	144 GB	72 GB	41 GB	21 GB
DeepSeek R1 671B	671B	1.610 GB	805 GB	403 GB	201 GB

Nota sobre DeepSeek R1 671B: El modelo completo necesita 403 GB en Q4. No existe hardware de consumidor que pueda correrlo. El mito de "200 GB bastan" viene de confundir Q2 con Q4. Q2 (~201 GB) degrada la calidad notablemente. Para hardware real, usa las versiones Distill: 8B, 14B o 32B parámetros.

4. Las 4 quantizaciones explicadas

La quantización reduce los pesos del modelo de 16 bits a menos bits, ahorrando VRAM. La pregunta es: ¿cuánto ahorras y cuánto pierdes?

FP16 — Precisión completa

16 bits

Los pesos del modelo sin comprimir. Máxima calidad, máximo consumo de VRAM.

VRAM vs Q44x más

Pérdida calidad0%

Cuándo usarloFine-tuning, investigación

Q8 — Quantización 8 bits

8 bits

Mitad del tamaño FP16. Calidad casi idéntica. Buena opción si tienes suficiente VRAM.

VRAM vs Q42x más

Pérdida calidad~1–2%

Cuándo usarloCuando tienes VRAM de sobra

Q4 — El punto óptimo

Recomendado

Estándar de facto para IA local. Ocupa 4x menos VRAM que FP16 con una pérdida de calidad de solo ~5–7% según benchmarks (perplexity score). Ollama usa Q4 por defecto.

VRAM vs FP164x menos

Pérdida calidad~5–7%

Cuándo usarloUso general, siempre

Q2 — Mínimo viable

2 bits

El mínimo de VRAM posible. La calidad cae notablemente — los modelos pueden alucinar más, respuestas menos coherentes. Útil solo cuando literalmente no hay otra opción.

VRAM vs FP168x menos

Pérdida calidad~15–25%

Cuándo usarloSolo si no hay alternativa

5. ¿Mi GPU tiene suficiente VRAM? Guía por GPU

Para cada GPU popular, qué puede correr en la práctica. Los tokens/seg son benchmarks reales con Llama 3.1 8B en Q4 y Llama 3.3 70B en Q4.

NVIDIA

RTX 4090 24 GB GDDR6X · 1.008 GB/s

~95 tok/s (8B Q4)

Corre cómodamente modelos hasta 32B en Q4 (DeepSeek R1 Distill 32B: 19.2 GB — sin problema). Llama 3.3 70B Q4 (42 GB) requiere offloading pero a ~18 tok/s sigue siendo usable. La GPU de consumidor más potente para IA local.

RTX 4080 Super 16 GB GDDR6X · 736 GB/s

~72 tok/s (8B Q4)

16 GB con el mejor bandwidth de su tier. Corre Phi-4, Qwen2.5 14B y DeepSeek R1 Distill 14B en Q4 cómodamente (8.4 GB). Para 32B necesitas offloading. Mejor opción en 16 GB por velocidad.

RTX 4070 Ti Super 16 GB GDDR6X · 672 GB/s

~60 tok/s (8B Q4)

Corre modelos hasta 14B en Q4 sin problema. Con 16 GB puedes subir a Gemma 3 27B Q4 (16.2 GB) con muy poco margen — ajustado. Buena relacion VRAM/mercado en la gama alta de consumo.

RTX 4060 Ti 16GB 16 GB GDDR6 · 288 GB/s

~35 tok/s (8B Q4)

16 GB en bus de 128-bit — más lenta que la 4070 Ti Super para el mismo modelo. Corre bien hasta 14B en Q4, pero la velocidad baja notablemente vs GPUs con más bandwidth. Banda interesante si priorizas VRAM sobre velocidad.

RTX 3090 24 GB GDDR6X · 936 GB/s

~65 tok/s (8B Q4)

Equivalente al 4090 en VRAM (24 GB) pero con bandwidth inferior (936 vs 1.008 GB/s) y menos eficiente. En segunda mano suele entrar mucho mejor que un 4090 flagship. Corre los mismos modelos que el 4090, un ~30% más lento.

RTX 3080 10 GB GDDR6X · 760 GB/s

~45 tok/s (8B Q4)

10 GB justos. Llama 3.1 8B Q4 (5 GB) corre bien, pero hay poco margen de contexto. Para 13B+ necesitas offloading. El bandwidth es bueno pero la VRAM limita bastante.

RTX 3060 12GB 12 GB GDDR6 · 360 GB/s

~30 tok/s (8B Q4)

El punto de entrada más popular. Con 12 GB puedes correr Gemma 3 12B en Q4 (7.2 GB) con margen. Llama 3.1 8B en Q8 (8 GB) también cabe. El límite práctico son los 13B en Q4 (~8.4 GB) — ajustado. En segunda mano suele estar en banda de entrada.

AMD

RX 7900 XTX 24 GB GDDR6 · 960 GB/s

~80 tok/s (8B Q4)

Misma VRAM que el RTX 4090 (24 GB) y bandwidth similar (960 vs 1.008 GB/s). El problema: ROCm solo funciona bien en Linux, y el soporte de software es más limitado que CUDA. Si usas Linux y no te da miedo configurar ROCm, es una opción sólida en banda alta.

Apple Silicon

M4 Max 48GB 48 GB unified · 546 GB/s

~64 tok/s (8B) · ~20 tok/s (70B)

Con 48 GB de memoria unificada, corre Llama 3.3 70B Q4 (42 GB) cómodamente. La memoria unificada actúa como VRAM — no hay offloading. El bandwidth es menor que el RTX 4090 (546 vs 1.008 GB/s) pero para 70B Q4 no tienes alternativa consumer más barata.

M3 Ultra 192GB 192 GB unified · 800 GB/s

~95 tok/s (8B) · ~38 tok/s (70B)

192 GB de memoria unificada. Puede correr modelos de hasta ~180 GB. DeepSeek R1 671B Q4 necesita 403 GB — no cabe. DeepSeek R1 Q2 (201 GB) tampoco. El límite práctico es Llama 3.3 70B Q4 (42 GB) o varios modelos a la vez.

¿No ves tu GPU en la lista? Usa la calculadora de VRAM — cubre todas las GPUs del mercado y calcula si tu modelo concreto cabe, cuántos tokens/seg obtendrás, y qué pasa si activas offloading.

6. Qué pasa cuando no hay suficiente VRAM (offloading)

Cuando el modelo no cabe entero en VRAM, Ollama y llama.cpp tienen un mecanismo de rescate: offloading. Las capas que no caben en VRAM se mueven a RAM del sistema. El modelo sigue funcionando — pero a menor velocidad.

Cómo funciona

1. Las capas del transformer se dividen: las primeras N capas van a VRAM, el resto a RAM.
2. En cada token generado, el modelo procesa las capas en VRAM (rápido), luego las de RAM (lento), y vuelta.
3. Cuantas más capas en VRAM, más rápido. Cuantas más en RAM, más lento.

Caso práctico: RTX 3060 12GB corriendo Llama 3.3 70B Q4 (42 GB)

• 12 GB en VRAM → ~8 capas de las 80 totales del modelo
• 30 GB en RAM → las 72 capas restantes
• Resultado: ~2–3 tokens/seg — casi inutilizable para conversación fluida
• Conclusión: para 70B Q4 necesitas mínimo 48 GB de VRAM/memoria unificada

Regla del 50%:

Si más del 50% del modelo va a RAM, la experiencia será frustrante. El offloading tiene sentido cuando el modelo encaja casi todo en VRAM — quedan 1–2 capas en RAM. Si quedan 40+ capas en RAM, considera un modelo más pequeño o una GPU con más VRAM.

7. Recomendaciones: qué GPU comprar

Precios orientativos a marzo 2026. El mercado de segunda mano puede variar bastante.

Presupuesto	GPU recomendada	VRAM	Modelos que corre
<300€ (2ª mano)	RTX 3060 12GB	12 GB	Llama 8B Q4, Mistral 7B, Gemma 3 12B
400–500€	RTX 4060 Ti 16GB	16 GB	Phi-4, Qwen2.5 14B, DeepSeek R1 Distill 14B
700–850€	RTX 4070 Ti Super	16 GB	Hasta 14B rápido, Gemma 3 27B ajustado
950–1.100€	RTX 4080 Super	16 GB	16B rápido, mejor bandwidth que 4070 Ti Super
1.600–2.000€	RTX 4090	24 GB	27–32B cómodamente, 70B con offloading viable

Nota: No existe GPU de consumidor que corra DeepSeek R1 671B completo. Para Llama 3.3 70B Q4 (~42 GB) en hardware consumer, la opción más asequible es el M4 Max 48 GB (memoria unificada) o dos RTX 3090 con NVLink (48 GB combinados).

GPUs recomendadas por rango de VRAM

Compara precios de las GPUs mencionadas en este artículo:

RTX 3060 12GB

12 GB VRAM · <300€

Ver precio en Amazon

RTX 4060 Ti 16GB

16 GB VRAM · ~400€

Ver precio en Amazon

RTX 4090 24GB

24 GB VRAM · ~1600€

Ver precio en Amazon

8. Calcula tu caso exacto

Cada combinación de GPU + modelo + quantización + ventana de contexto es diferente. Los números de este artículo son el punto de partida — pero hay variables que cambian el resultado: el overhead del contexto, la versión del modelo, si usas flash attention, el sistema operativo.

Calculadora de VRAM

Selecciona tu GPU y el modelo que quieres correr. La calculadora te dice exactamente: si cabe en VRAM, cuántos tokens/seg obtendrás, y si necesitas offloading.

Calcular mi GPU ahora →

Herramientas y GPUs relacionadas

Herramientas útiles

GPUs de referencia

Preguntas frecuentes

¿Cuánta RAM del sistema necesito además de VRAM? ▾

Mínimo 16GB RAM del sistema. Para modelos grandes con CPU offloading, 32GB o más.

¿Qué pasa si mi modelo no cabe en VRAM? ▾

Ollama puede hacer offloading parcial a RAM del sistema, pero será 10-20x más lento que correr todo en GPU.

¿Sirve el iGPU (gráfica integrada) para IA local? ▾

Muy limitado. Los iGPUs comparten RAM con el sistema (8-16GB máximo) y son lentos. Solo para pruebas básicas.

Productos recomendados

Selección verificada con ASINs reales — actualizada en 2026.

€269

budget Amazon Prime

NVIDIA GeForce RTX 3060 12GB

4.8 (1,400 reviews)

Pros

12 GB VRAM — el doble que RTX 4060
Llama 8B cómodo a ~30 tok/s
Precio de entrada <300€

Cons

Menos eficiencia que Ada Lovelace

Ver en Amazon

€399

mid Amazon Prime

NVIDIA GeForce RTX 4060 Ti 8GB

4.6 (640 reviews)

Pros

Ada Lovelace — eficiencia superior
Modelos 7B-8B en Q4 con margen
Compacta y eficiente energéticamente

Cons

8 GB limita modelos 13B+

Ver en Amazon

€499

high Amazon Prime

NVIDIA GeForce RTX 4070 Super 12GB

4.7 (520 reviews)

Pros

12 GB VRAM GDDR6X
504 GB/s bandwidth
Modelos 13B Q4 con comodidad

Cons

No suficiente para 30B+ sin offloading

Ver en Amazon

€1799

pro Amazon Prime

NVIDIA GeForce RTX 4090 24GB

4.8 (1,200 reviews)

Pros

24 GB VRAM — máxima capacidad
95 tok/s con Llama 8B Q4
Fine-tuning y modelos 70B

Cons

~1800€ — uso profesional únicamente

Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

¿Cuánta VRAM necesito para correr IA en local? (2026)

1. La respuesta corta

2. Qué es la VRAM y por qué importa más que la RAM

VRAM (GPU)

RAM del sistema

Comparativa de velocidad real

3. VRAM por modelo: datos reales

4. Las 4 quantizaciones explicadas

FP16 — Precisión completa

Q8 — Quantización 8 bits

Q4 — El punto óptimo

Q2 — Mínimo viable

5. ¿Mi GPU tiene suficiente VRAM? Guía por GPU

NVIDIA

AMD

Apple Silicon

6. Qué pasa cuando no hay suficiente VRAM (offloading)

Cómo funciona

Caso práctico: RTX 3060 12GB corriendo Llama 3.3 70B Q4 (42 GB)

7. Recomendaciones: qué GPU comprar

GPUs recomendadas por rango de VRAM

RTX 3060 12GB

RTX 4060 Ti 16GB

RTX 4090 24GB

8. Calcula tu caso exacto

Calculadora de VRAM

Herramientas y GPUs relacionadas

Herramientas útiles

GPUs de referencia

Preguntas frecuentes

Productos recomendados

NVIDIA GeForce RTX 3060 12GB

NVIDIA GeForce RTX 4060 Ti 8GB

NVIDIA GeForce RTX 4070 Super 12GB

NVIDIA GeForce RTX 4090 24GB

Fuentes