Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.
¿Cuánta VRAM necesito para correr IA en local? (2026)
Respuesta directa con datos reales: tablas de VRAM por modelo, comparativa de quantizaciones y qué puede correr cada GPU popular. Sin estimaciones — los números son de los modelos reales.
TL;DR: • 8 GB VRAM es suficiente para modelos 7B–8B en Q4; 12 GB abre la puerta a 13B • La quantización Q4 reduce el uso de VRAM ~4× respecto a FP16 con solo un 5–7% de pérdida de calidad • Si el modelo no cabe en VRAM hay offloading a RAM: funciona pero 5–8× más lento
¿Cuánta VRAM necesito para IA local?
Para modelos 7B necesitas mínimo 6-8GB VRAM. Para modelos 13B necesitas 12-16GB. Para 70B cuantizado, 24GB+.
1. La respuesta corta
Si tienes prisa, aquí está la tabla de referencia. Los números son exactos — extraídos directamente de los modelos más descargados en 2026, usando quantización Q4 que es el estándar para uso local.
| Tu GPU tiene... | Puedes correr... | Ejemplo de modelo |
|---|---|---|
| 4–6 GB VRAM | Modelos 3B–4B en Q4 | Phi-3 Mini (2.5 GB), Gemma 3 4B (2.4 GB) |
| 8 GB VRAM | Modelos 7B–8B en Q4 | Llama 3.1 8B (5 GB), Mistral 7B (4.5 GB) |
| 12 GB VRAM | Modelos 7B en FP16 o 12B en Q4 | Llama 3.1 8B FP16 (16 GB — ajustado), Gemma 3 12B (7.2 GB) |
| 16 GB VRAM | Modelos 13B–14B cómodamente | Phi-4 Q4 (8.4 GB), Qwen2.5 14B Q4 (8.4 GB) |
| 24 GB VRAM | Modelos 27B–32B en Q4 | Gemma 3 27B (16.2 GB), DeepSeek R1 Distill 32B (19.2 GB) |
| 48 GB VRAM | Modelos 70B en Q4 | Llama 3.3 70B Q4 (42 GB), Qwen2.5 72B Q4 (41 GB) |
| 192 GB+ (unified) | Modelos 70B con holgura | Apple M3 Ultra — DeepSeek R1 671B Q4 necesita 403 GB, no cabe |
¿Quieres el cálculo exacto para tu GPU y modelo? Nuestra calculadora de VRAM te dice exactamente si cabe, cuántos tokens/seg obtendrás y si necesitas offloading.
2. Qué es la VRAM y por qué importa más que la RAM
La VRAM (Video RAM) es la memoria dedicada de tu GPU. No es la RAM del sistema — es un banco de memoria físicamente diferente, soldado en la tarjeta gráfica y diseñado para operar a velocidades que la RAM del sistema no puede alcanzar.
VRAM (GPU)
- • RTX 4090: 1.008 GB/s de bandwidth
- • RTX 3090: 936 GB/s de bandwidth
- • M4 Max: 546 GB/s de bandwidth
- •Inferencia de modelos a velocidad real
RAM del sistema
- • DDR5: ~80–90 GB/s de bandwidth
- • DDR4: ~50 GB/s de bandwidth
- • 10–20x más lenta para inferencia
- • Usado solo cuando no cabe en VRAM
Los LLMs necesitan leer los pesos del modelo completo en cada token que generan. Con un modelo de 8B parámetros en Q4 (~5 GB), el proceso de generar un token requiere leer esos 5 GB de datos. En VRAM eso ocurre en milisegundos. En RAM del sistema, en décimas de segundo.
Comparativa de velocidad real
| Configuración | Modelo | Velocidad |
|---|---|---|
| RTX 4090 — 100% en VRAM | Llama 3.1 8B Q4 | ~95 tokens/seg |
| RTX 4090 — offloading a RAM | Llama 3.1 8B Q4 | ~15–20 tokens/seg |
| RTX 3060 12GB — 100% en VRAM | Llama 3.1 8B Q4 | ~30 tokens/seg |
Regla directa: si el modelo no cabe en VRAM, puede correr, pero 5–8x más lento.
3. VRAM por modelo: datos reales
Los números de abajo son exactos — extraídos de los modelos tal como se cargan con Ollama y llama.cpp. Incluyen el overhead habitual de ~10–15% sobre el tamaño del archivo. Ordenados por tamaño ascendente.
| Modelo | Params | FP16 | Q8 | Q4 | Q2 |
|---|---|---|---|---|---|
| Phi-3 Mini | 3.8B | 7.6 GB | 4 GB | 2.5 GB | 1.5 GB |
| Gemma 3 4B | 4B | 9.6 GB | 4.8 GB | 2.4 GB | 1.2 GB |
| Mistral 7B | 7B | 14 GB | 7 GB | 4.5 GB | 2.5 GB |
| Llama 3.1 8B | 8B | 16 GB | 8 GB | 5 GB | 3 GB |
| DeepSeek R1 Distill 8B | 8B | 19.2 GB | 9.6 GB | 4.8 GB | 2.4 GB |
| Gemma 3 12B | 12B | 28.8 GB | 14.4 GB | 7.2 GB | 3.6 GB |
| Phi-4 | 14B | 33.6 GB | 16.8 GB | 8.4 GB | 4.2 GB |
| Qwen2.5 14B | 14B | 33.6 GB | 16.8 GB | 8.4 GB | 4.2 GB |
| DeepSeek R1 Distill 14B | 14B | 33.6 GB | 16.8 GB | 8.4 GB | 4.2 GB |
| Mistral Small 3 (24B) | 24B | 57.6 GB | 28.8 GB | 14.4 GB | 7.2 GB |
| Gemma 3 27B | 27B | 64.8 GB | 32.4 GB | 16.2 GB | 8.1 GB |
| Qwen2.5 32B | 32B | 76.8 GB | 38.4 GB | 19.2 GB | 9.6 GB |
| DeepSeek R1 Distill 32B | 32B | 76.8 GB | 38.4 GB | 19.2 GB | 9.6 GB |
| Llama 3.3 70B | 70B | 168 GB | 84 GB | 42 GB | 21 GB |
| Qwen2.5 72B | 72B | 144 GB | 72 GB | 41 GB | 21 GB |
| DeepSeek R1 671B | 671B | 1.610 GB | 805 GB | 403 GB | 201 GB |
Nota sobre DeepSeek R1 671B: El modelo completo necesita 403 GB en Q4. No existe hardware de consumidor que pueda correrlo. El mito de "200 GB bastan" viene de confundir Q2 con Q4. Q2 (~201 GB) degrada la calidad notablemente. Para hardware real, usa las versiones Distill: 8B, 14B o 32B parámetros.
4. Las 4 quantizaciones explicadas
La quantización reduce los pesos del modelo de 16 bits a menos bits, ahorrando VRAM. La pregunta es: ¿cuánto ahorras y cuánto pierdes?
FP16 — Precisión completa
16 bitsLos pesos del modelo sin comprimir. Máxima calidad, máximo consumo de VRAM.
Q8 — Quantización 8 bits
8 bitsMitad del tamaño FP16. Calidad casi idéntica. Buena opción si tienes suficiente VRAM.
Q4 — El punto óptimo
RecomendadoEstándar de facto para IA local. Ocupa 4x menos VRAM que FP16 con una pérdida de calidad de solo ~5–7% según benchmarks (perplexity score). Ollama usa Q4 por defecto.
Q2 — Mínimo viable
2 bitsEl mínimo de VRAM posible. La calidad cae notablemente — los modelos pueden alucinar más, respuestas menos coherentes. Útil solo cuando literalmente no hay otra opción.
5. ¿Mi GPU tiene suficiente VRAM? Guía por GPU
Para cada GPU popular, qué puede correr en la práctica. Los tokens/seg son benchmarks reales con Llama 3.1 8B en Q4 y Llama 3.3 70B en Q4.
NVIDIA
Corre cómodamente modelos hasta 32B en Q4 (DeepSeek R1 Distill 32B: 19.2 GB — sin problema). Llama 3.3 70B Q4 (42 GB) requiere offloading pero a ~18 tok/s sigue siendo usable. La GPU de consumidor más potente para IA local.
16 GB con el mejor bandwidth de su tier. Corre Phi-4, Qwen2.5 14B y DeepSeek R1 Distill 14B en Q4 cómodamente (8.4 GB). Para 32B necesitas offloading. Mejor opción en 16 GB por velocidad.
Corre modelos hasta 14B en Q4 sin problema. Con 16 GB puedes subir a Gemma 3 27B Q4 (16.2 GB) con muy poco margen — ajustado. Buena relacion VRAM/mercado en la gama alta de consumo.
16 GB en bus de 128-bit — más lenta que la 4070 Ti Super para el mismo modelo. Corre bien hasta 14B en Q4, pero la velocidad baja notablemente vs GPUs con más bandwidth. Banda interesante si priorizas VRAM sobre velocidad.
Equivalente al 4090 en VRAM (24 GB) pero con bandwidth inferior (936 vs 1.008 GB/s) y menos eficiente. En segunda mano suele entrar mucho mejor que un 4090 flagship. Corre los mismos modelos que el 4090, un ~30% más lento.
10 GB justos. Llama 3.1 8B Q4 (5 GB) corre bien, pero hay poco margen de contexto. Para 13B+ necesitas offloading. El bandwidth es bueno pero la VRAM limita bastante.
El punto de entrada más popular. Con 12 GB puedes correr Gemma 3 12B en Q4 (7.2 GB) con margen. Llama 3.1 8B en Q8 (8 GB) también cabe. El límite práctico son los 13B en Q4 (~8.4 GB) — ajustado. En segunda mano suele estar en banda de entrada.
AMD
Misma VRAM que el RTX 4090 (24 GB) y bandwidth similar (960 vs 1.008 GB/s). El problema: ROCm solo funciona bien en Linux, y el soporte de software es más limitado que CUDA. Si usas Linux y no te da miedo configurar ROCm, es una opción sólida en banda alta.
Apple Silicon
Con 48 GB de memoria unificada, corre Llama 3.3 70B Q4 (42 GB) cómodamente. La memoria unificada actúa como VRAM — no hay offloading. El bandwidth es menor que el RTX 4090 (546 vs 1.008 GB/s) pero para 70B Q4 no tienes alternativa consumer más barata.
192 GB de memoria unificada. Puede correr modelos de hasta ~180 GB. DeepSeek R1 671B Q4 necesita 403 GB — no cabe. DeepSeek R1 Q2 (201 GB) tampoco. El límite práctico es Llama 3.3 70B Q4 (42 GB) o varios modelos a la vez.
¿No ves tu GPU en la lista? Usa la calculadora de VRAM — cubre todas las GPUs del mercado y calcula si tu modelo concreto cabe, cuántos tokens/seg obtendrás, y qué pasa si activas offloading.
6. Qué pasa cuando no hay suficiente VRAM (offloading)
Cuando el modelo no cabe entero en VRAM, Ollama y llama.cpp tienen un mecanismo de rescate: offloading. Las capas que no caben en VRAM se mueven a RAM del sistema. El modelo sigue funcionando — pero a menor velocidad.
Cómo funciona
- 1. Las capas del transformer se dividen: las primeras N capas van a VRAM, el resto a RAM.
- 2. En cada token generado, el modelo procesa las capas en VRAM (rápido), luego las de RAM (lento), y vuelta.
- 3. Cuantas más capas en VRAM, más rápido. Cuantas más en RAM, más lento.
Caso práctico: RTX 3060 12GB corriendo Llama 3.3 70B Q4 (42 GB)
- • 12 GB en VRAM → ~8 capas de las 80 totales del modelo
- • 30 GB en RAM → las 72 capas restantes
- • Resultado: ~2–3 tokens/seg — casi inutilizable para conversación fluida
- • Conclusión: para 70B Q4 necesitas mínimo 48 GB de VRAM/memoria unificada
Regla del 50%:
Si más del 50% del modelo va a RAM, la experiencia será frustrante. El offloading tiene sentido cuando el modelo encaja casi todo en VRAM — quedan 1–2 capas en RAM. Si quedan 40+ capas en RAM, considera un modelo más pequeño o una GPU con más VRAM.
7. Recomendaciones: qué GPU comprar
Precios orientativos a marzo 2026. El mercado de segunda mano puede variar bastante.
| Presupuesto | GPU recomendada | VRAM | Modelos que corre |
|---|---|---|---|
| <300€ (2ª mano) | RTX 3060 12GB | 12 GB | Llama 8B Q4, Mistral 7B, Gemma 3 12B |
| 400–500€ | RTX 4060 Ti 16GB | 16 GB | Phi-4, Qwen2.5 14B, DeepSeek R1 Distill 14B |
| 700–850€ | RTX 4070 Ti Super | 16 GB | Hasta 14B rápido, Gemma 3 27B ajustado |
| 950–1.100€ | RTX 4080 Super | 16 GB | 16B rápido, mejor bandwidth que 4070 Ti Super |
| 1.600–2.000€ | RTX 4090 | 24 GB | 27–32B cómodamente, 70B con offloading viable |
Nota: No existe GPU de consumidor que corra DeepSeek R1 671B completo. Para Llama 3.3 70B Q4 (~42 GB) en hardware consumer, la opción más asequible es el M4 Max 48 GB (memoria unificada) o dos RTX 3090 con NVLink (48 GB combinados).
GPUs recomendadas por rango de VRAM
Compara precios de las GPUs mencionadas en este artículo:
8. Calcula tu caso exacto
Cada combinación de GPU + modelo + quantización + ventana de contexto es diferente. Los números de este artículo son el punto de partida — pero hay variables que cambian el resultado: el overhead del contexto, la versión del modelo, si usas flash attention, el sistema operativo.
Calculadora de VRAM
Selecciona tu GPU y el modelo que quieres correr. La calculadora te dice exactamente: si cabe en VRAM, cuántos tokens/seg obtendrás, y si necesitas offloading.
Calcular mi GPU ahora →Herramientas y GPUs relacionadas
Herramientas útiles
GPUs de referencia
Preguntas frecuentes
¿Cuánta RAM del sistema necesito además de VRAM? ▾
Mínimo 16GB RAM del sistema. Para modelos grandes con CPU offloading, 32GB o más.
¿Qué pasa si mi modelo no cabe en VRAM? ▾
Ollama puede hacer offloading parcial a RAM del sistema, pero será 10-20x más lento que correr todo en GPU.
¿Sirve el iGPU (gráfica integrada) para IA local? ▾
Muy limitado. Los iGPUs comparten RAM con el sistema (8-16GB máximo) y son lentos. Solo para pruebas básicas.
Productos recomendados
Selección verificada con ASINs reales — actualizada en 2026.
€269
NVIDIA GeForce RTX 3060 12GB
Pros
- 12 GB VRAM — el doble que RTX 4060
- Llama 8B cómodo a ~30 tok/s
- Precio de entrada <300€
Cons
- Menos eficiencia que Ada Lovelace
€399
NVIDIA GeForce RTX 4060 Ti 8GB
Pros
- Ada Lovelace — eficiencia superior
- Modelos 7B-8B en Q4 con margen
- Compacta y eficiente energéticamente
Cons
- 8 GB limita modelos 13B+
€499
NVIDIA GeForce RTX 4070 Super 12GB
Pros
- 12 GB VRAM GDDR6X
- 504 GB/s bandwidth
- Modelos 13B Q4 con comodidad
Cons
- No suficiente para 30B+ sin offloading
€1799
NVIDIA GeForce RTX 4090 24GB
Pros
- 24 GB VRAM — máxima capacidad
- 95 tok/s con Llama 8B Q4
- Fine-tuning y modelos 70B
Cons
- ~1800€ — uso profesional únicamente
Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.