Skip to main content
Guía técnica 15 min de lectura ·

Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.

Divulgación: Este artículo contiene enlaces de afiliado de Amazon. Si compras a través de ellos, recibimos una pequeña comisión sin coste adicional para ti.
Alex Chen AI Hardware Specialist
GitHub: github.com/javier-morales-ia

¿Cuánta VRAM necesito para correr IA en local? (2026)

Respuesta directa con datos reales: tablas de VRAM por modelo, comparativa de quantizaciones y qué puede correr cada GPU popular. Sin estimaciones — los números son de los modelos reales.

TL;DR: • 8 GB VRAM es suficiente para modelos 7B–8B en Q4; 12 GB abre la puerta a 13B • La quantización Q4 reduce el uso de VRAM ~4× respecto a FP16 con solo un 5–7% de pérdida de calidad • Si el modelo no cabe en VRAM hay offloading a RAM: funciona pero 5–8× más lento

¿Cuánta VRAM necesito para IA local?

Para modelos 7B necesitas mínimo 6-8GB VRAM. Para modelos 13B necesitas 12-16GB. Para 70B cuantizado, 24GB+.

1. La respuesta corta

Si tienes prisa, aquí está la tabla de referencia. Los números son exactos — extraídos directamente de los modelos más descargados en 2026, usando quantización Q4 que es el estándar para uso local.

Tu GPU tiene... Puedes correr... Ejemplo de modelo
4–6 GB VRAM Modelos 3B–4B en Q4 Phi-3 Mini (2.5 GB), Gemma 3 4B (2.4 GB)
8 GB VRAM Modelos 7B–8B en Q4 Llama 3.1 8B (5 GB), Mistral 7B (4.5 GB)
12 GB VRAM Modelos 7B en FP16 o 12B en Q4 Llama 3.1 8B FP16 (16 GB — ajustado), Gemma 3 12B (7.2 GB)
16 GB VRAM Modelos 13B–14B cómodamente Phi-4 Q4 (8.4 GB), Qwen2.5 14B Q4 (8.4 GB)
24 GB VRAM Modelos 27B–32B en Q4 Gemma 3 27B (16.2 GB), DeepSeek R1 Distill 32B (19.2 GB)
48 GB VRAM Modelos 70B en Q4 Llama 3.3 70B Q4 (42 GB), Qwen2.5 72B Q4 (41 GB)
192 GB+ (unified) Modelos 70B con holgura Apple M3 Ultra — DeepSeek R1 671B Q4 necesita 403 GB, no cabe

¿Quieres el cálculo exacto para tu GPU y modelo? Nuestra calculadora de VRAM te dice exactamente si cabe, cuántos tokens/seg obtendrás y si necesitas offloading.

2. Qué es la VRAM y por qué importa más que la RAM

La VRAM (Video RAM) es la memoria dedicada de tu GPU. No es la RAM del sistema — es un banco de memoria físicamente diferente, soldado en la tarjeta gráfica y diseñado para operar a velocidades que la RAM del sistema no puede alcanzar.

VRAM (GPU)

  • RTX 4090: 1.008 GB/s de bandwidth
  • RTX 3090: 936 GB/s de bandwidth
  • M4 Max: 546 GB/s de bandwidth
  • Inferencia de modelos a velocidad real

RAM del sistema

  • DDR5: ~80–90 GB/s de bandwidth
  • DDR4: ~50 GB/s de bandwidth
  • 10–20x más lenta para inferencia
  • Usado solo cuando no cabe en VRAM

Los LLMs necesitan leer los pesos del modelo completo en cada token que generan. Con un modelo de 8B parámetros en Q4 (~5 GB), el proceso de generar un token requiere leer esos 5 GB de datos. En VRAM eso ocurre en milisegundos. En RAM del sistema, en décimas de segundo.

Comparativa de velocidad real

Configuración Modelo Velocidad
RTX 4090 — 100% en VRAM Llama 3.1 8B Q4 ~95 tokens/seg
RTX 4090 — offloading a RAM Llama 3.1 8B Q4 ~15–20 tokens/seg
RTX 3060 12GB — 100% en VRAM Llama 3.1 8B Q4 ~30 tokens/seg

Regla directa: si el modelo no cabe en VRAM, puede correr, pero 5–8x más lento.

3. VRAM por modelo: datos reales

Los números de abajo son exactos — extraídos de los modelos tal como se cargan con Ollama y llama.cpp. Incluyen el overhead habitual de ~10–15% sobre el tamaño del archivo. Ordenados por tamaño ascendente.

Modelo Params FP16 Q8 Q4 Q2
Phi-3 Mini 3.8B 7.6 GB 4 GB 2.5 GB 1.5 GB
Gemma 3 4B 4B 9.6 GB 4.8 GB 2.4 GB 1.2 GB
Mistral 7B 7B 14 GB 7 GB 4.5 GB 2.5 GB
Llama 3.1 8B 8B 16 GB 8 GB 5 GB 3 GB
DeepSeek R1 Distill 8B 8B 19.2 GB 9.6 GB 4.8 GB 2.4 GB
Gemma 3 12B 12B 28.8 GB 14.4 GB 7.2 GB 3.6 GB
Phi-4 14B 33.6 GB 16.8 GB 8.4 GB 4.2 GB
Qwen2.5 14B 14B 33.6 GB 16.8 GB 8.4 GB 4.2 GB
DeepSeek R1 Distill 14B 14B 33.6 GB 16.8 GB 8.4 GB 4.2 GB
Mistral Small 3 (24B) 24B 57.6 GB 28.8 GB 14.4 GB 7.2 GB
Gemma 3 27B 27B 64.8 GB 32.4 GB 16.2 GB 8.1 GB
Qwen2.5 32B 32B 76.8 GB 38.4 GB 19.2 GB 9.6 GB
DeepSeek R1 Distill 32B 32B 76.8 GB 38.4 GB 19.2 GB 9.6 GB
Llama 3.3 70B 70B 168 GB 84 GB 42 GB 21 GB
Qwen2.5 72B 72B 144 GB 72 GB 41 GB 21 GB
DeepSeek R1 671B 671B 1.610 GB 805 GB 403 GB 201 GB

Nota sobre DeepSeek R1 671B: El modelo completo necesita 403 GB en Q4. No existe hardware de consumidor que pueda correrlo. El mito de "200 GB bastan" viene de confundir Q2 con Q4. Q2 (~201 GB) degrada la calidad notablemente. Para hardware real, usa las versiones Distill: 8B, 14B o 32B parámetros.

4. Las 4 quantizaciones explicadas

La quantización reduce los pesos del modelo de 16 bits a menos bits, ahorrando VRAM. La pregunta es: ¿cuánto ahorras y cuánto pierdes?

FP16 — Precisión completa

16 bits

Los pesos del modelo sin comprimir. Máxima calidad, máximo consumo de VRAM.

VRAM vs Q44x más
Pérdida calidad0%
Cuándo usarloFine-tuning, investigación

Q8 — Quantización 8 bits

8 bits

Mitad del tamaño FP16. Calidad casi idéntica. Buena opción si tienes suficiente VRAM.

VRAM vs Q42x más
Pérdida calidad~1–2%
Cuándo usarloCuando tienes VRAM de sobra

Q4 — El punto óptimo

Recomendado

Estándar de facto para IA local. Ocupa 4x menos VRAM que FP16 con una pérdida de calidad de solo ~5–7% según benchmarks (perplexity score). Ollama usa Q4 por defecto.

VRAM vs FP164x menos
Pérdida calidad~5–7%
Cuándo usarloUso general, siempre

Q2 — Mínimo viable

2 bits

El mínimo de VRAM posible. La calidad cae notablemente — los modelos pueden alucinar más, respuestas menos coherentes. Útil solo cuando literalmente no hay otra opción.

VRAM vs FP168x menos
Pérdida calidad~15–25%
Cuándo usarloSolo si no hay alternativa

5. ¿Mi GPU tiene suficiente VRAM? Guía por GPU

Para cada GPU popular, qué puede correr en la práctica. Los tokens/seg son benchmarks reales con Llama 3.1 8B en Q4 y Llama 3.3 70B en Q4.

NVIDIA

RTX 4090 24 GB GDDR6X · 1.008 GB/s
~95 tok/s (8B Q4)

Corre cómodamente modelos hasta 32B en Q4 (DeepSeek R1 Distill 32B: 19.2 GB — sin problema). Llama 3.3 70B Q4 (42 GB) requiere offloading pero a ~18 tok/s sigue siendo usable. La GPU de consumidor más potente para IA local.

RTX 4080 Super 16 GB GDDR6X · 736 GB/s
~72 tok/s (8B Q4)

16 GB con el mejor bandwidth de su tier. Corre Phi-4, Qwen2.5 14B y DeepSeek R1 Distill 14B en Q4 cómodamente (8.4 GB). Para 32B necesitas offloading. Mejor opción en 16 GB por velocidad.

RTX 4070 Ti Super 16 GB GDDR6X · 672 GB/s
~60 tok/s (8B Q4)

Corre modelos hasta 14B en Q4 sin problema. Con 16 GB puedes subir a Gemma 3 27B Q4 (16.2 GB) con muy poco margen — ajustado. Buena relacion VRAM/mercado en la gama alta de consumo.

RTX 4060 Ti 16GB 16 GB GDDR6 · 288 GB/s
~35 tok/s (8B Q4)

16 GB en bus de 128-bit — más lenta que la 4070 Ti Super para el mismo modelo. Corre bien hasta 14B en Q4, pero la velocidad baja notablemente vs GPUs con más bandwidth. Banda interesante si priorizas VRAM sobre velocidad.

RTX 3090 24 GB GDDR6X · 936 GB/s
~65 tok/s (8B Q4)

Equivalente al 4090 en VRAM (24 GB) pero con bandwidth inferior (936 vs 1.008 GB/s) y menos eficiente. En segunda mano suele entrar mucho mejor que un 4090 flagship. Corre los mismos modelos que el 4090, un ~30% más lento.

RTX 3080 10 GB GDDR6X · 760 GB/s
~45 tok/s (8B Q4)

10 GB justos. Llama 3.1 8B Q4 (5 GB) corre bien, pero hay poco margen de contexto. Para 13B+ necesitas offloading. El bandwidth es bueno pero la VRAM limita bastante.

RTX 3060 12GB 12 GB GDDR6 · 360 GB/s
~30 tok/s (8B Q4)

El punto de entrada más popular. Con 12 GB puedes correr Gemma 3 12B en Q4 (7.2 GB) con margen. Llama 3.1 8B en Q8 (8 GB) también cabe. El límite práctico son los 13B en Q4 (~8.4 GB) — ajustado. En segunda mano suele estar en banda de entrada.

AMD

RX 7900 XTX 24 GB GDDR6 · 960 GB/s
~80 tok/s (8B Q4)

Misma VRAM que el RTX 4090 (24 GB) y bandwidth similar (960 vs 1.008 GB/s). El problema: ROCm solo funciona bien en Linux, y el soporte de software es más limitado que CUDA. Si usas Linux y no te da miedo configurar ROCm, es una opción sólida en banda alta.

Apple Silicon

M4 Max 48GB 48 GB unified · 546 GB/s
~64 tok/s (8B) · ~20 tok/s (70B)

Con 48 GB de memoria unificada, corre Llama 3.3 70B Q4 (42 GB) cómodamente. La memoria unificada actúa como VRAM — no hay offloading. El bandwidth es menor que el RTX 4090 (546 vs 1.008 GB/s) pero para 70B Q4 no tienes alternativa consumer más barata.

M3 Ultra 192GB 192 GB unified · 800 GB/s
~95 tok/s (8B) · ~38 tok/s (70B)

192 GB de memoria unificada. Puede correr modelos de hasta ~180 GB. DeepSeek R1 671B Q4 necesita 403 GB — no cabe. DeepSeek R1 Q2 (201 GB) tampoco. El límite práctico es Llama 3.3 70B Q4 (42 GB) o varios modelos a la vez.

¿No ves tu GPU en la lista? Usa la calculadora de VRAM — cubre todas las GPUs del mercado y calcula si tu modelo concreto cabe, cuántos tokens/seg obtendrás, y qué pasa si activas offloading.

6. Qué pasa cuando no hay suficiente VRAM (offloading)

Cuando el modelo no cabe entero en VRAM, Ollama y llama.cpp tienen un mecanismo de rescate: offloading. Las capas que no caben en VRAM se mueven a RAM del sistema. El modelo sigue funcionando — pero a menor velocidad.

Cómo funciona

  • 1. Las capas del transformer se dividen: las primeras N capas van a VRAM, el resto a RAM.
  • 2. En cada token generado, el modelo procesa las capas en VRAM (rápido), luego las de RAM (lento), y vuelta.
  • 3. Cuantas más capas en VRAM, más rápido. Cuantas más en RAM, más lento.

Caso práctico: RTX 3060 12GB corriendo Llama 3.3 70B Q4 (42 GB)

  • 12 GB en VRAM → ~8 capas de las 80 totales del modelo
  • 30 GB en RAM → las 72 capas restantes
  • Resultado: ~2–3 tokens/seg — casi inutilizable para conversación fluida
  • Conclusión: para 70B Q4 necesitas mínimo 48 GB de VRAM/memoria unificada

Regla del 50%:

Si más del 50% del modelo va a RAM, la experiencia será frustrante. El offloading tiene sentido cuando el modelo encaja casi todo en VRAM — quedan 1–2 capas en RAM. Si quedan 40+ capas en RAM, considera un modelo más pequeño o una GPU con más VRAM.

7. Recomendaciones: qué GPU comprar

Precios orientativos a marzo 2026. El mercado de segunda mano puede variar bastante.

Presupuesto GPU recomendada VRAM Modelos que corre
<300€ (2ª mano) RTX 3060 12GB 12 GB Llama 8B Q4, Mistral 7B, Gemma 3 12B
400–500€ RTX 4060 Ti 16GB 16 GB Phi-4, Qwen2.5 14B, DeepSeek R1 Distill 14B
700–850€ RTX 4070 Ti Super 16 GB Hasta 14B rápido, Gemma 3 27B ajustado
950–1.100€ RTX 4080 Super 16 GB 16B rápido, mejor bandwidth que 4070 Ti Super
1.600–2.000€ RTX 4090 24 GB 27–32B cómodamente, 70B con offloading viable

Nota: No existe GPU de consumidor que corra DeepSeek R1 671B completo. Para Llama 3.3 70B Q4 (~42 GB) en hardware consumer, la opción más asequible es el M4 Max 48 GB (memoria unificada) o dos RTX 3090 con NVLink (48 GB combinados).

GPUs recomendadas por rango de VRAM

Compara precios de las GPUs mencionadas en este artículo:

RTX 3060 12GB

12 GB VRAM · <300€

Ver precio en Amazon

RTX 4060 Ti 16GB

16 GB VRAM · ~400€

Ver precio en Amazon

RTX 4090 24GB

24 GB VRAM · ~1600€

Ver precio en Amazon

8. Calcula tu caso exacto

Cada combinación de GPU + modelo + quantización + ventana de contexto es diferente. Los números de este artículo son el punto de partida — pero hay variables que cambian el resultado: el overhead del contexto, la versión del modelo, si usas flash attention, el sistema operativo.

Calculadora de VRAM

Selecciona tu GPU y el modelo que quieres correr. La calculadora te dice exactamente: si cabe en VRAM, cuántos tokens/seg obtendrás, y si necesitas offloading.

Calcular mi GPU ahora →

Herramientas y GPUs relacionadas

Preguntas frecuentes

¿Cuánta RAM del sistema necesito además de VRAM?

Mínimo 16GB RAM del sistema. Para modelos grandes con CPU offloading, 32GB o más.

¿Qué pasa si mi modelo no cabe en VRAM?

Ollama puede hacer offloading parcial a RAM del sistema, pero será 10-20x más lento que correr todo en GPU.

¿Sirve el iGPU (gráfica integrada) para IA local?

Muy limitado. Los iGPUs comparten RAM con el sistema (8-16GB máximo) y son lentos. Solo para pruebas básicas.

Productos recomendados

Selección verificada con ASINs reales — actualizada en 2026.

NVIDIA GeForce RTX 3060 12GB

€269

budget Amazon Prime

NVIDIA GeForce RTX 3060 12GB

4.8 (1,400 reviews)

Pros

  • 12 GB VRAM — el doble que RTX 4060
  • Llama 8B cómodo a ~30 tok/s
  • Precio de entrada <300€

Cons

  • Menos eficiencia que Ada Lovelace
Ver en Amazon
NVIDIA GeForce RTX 4060 Ti 8GB

€399

mid Amazon Prime

NVIDIA GeForce RTX 4060 Ti 8GB

4.6 (640 reviews)

Pros

  • Ada Lovelace — eficiencia superior
  • Modelos 7B-8B en Q4 con margen
  • Compacta y eficiente energéticamente

Cons

  • 8 GB limita modelos 13B+
Ver en Amazon
NVIDIA GeForce RTX 4070 Super 12GB

€499

high Amazon Prime

NVIDIA GeForce RTX 4070 Super 12GB

4.7 (520 reviews)

Pros

  • 12 GB VRAM GDDR6X
  • 504 GB/s bandwidth
  • Modelos 13B Q4 con comodidad

Cons

  • No suficiente para 30B+ sin offloading
Ver en Amazon
NVIDIA GeForce RTX 4090 24GB

€1799

pro Amazon Prime

NVIDIA GeForce RTX 4090 24GB

4.8 (1,200 reviews)

Pros

  • 24 GB VRAM — máxima capacidad
  • 95 tok/s con Llama 8B Q4
  • Fine-tuning y modelos 70B

Cons

  • ~1800€ — uso profesional únicamente
Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

Fuentes

GPU 16 GB VRAM

Ver mejor precio