Calculadora de VRAM
La calculadora de VRAM de RunAIatHome te dice si tu GPU puede ejecutar cualquier modelo de IA. Selecciona tu hardware y descúbrelo al instante.
La regla práctica es: parámetros × bytes_por_parámetro + 1-2 GB de overhead de contexto. Q4 usa 0.5 bytes/parámetro, Q8 usa 1 byte, FP16 usa 2 bytes. La RTX 3060 12 GB cubre cualquier 7B en Q8 con margen.
— RunAIatHome VRAM Calculator — fórmula validada con Ollama 0.5.xDecision Engine Framing Strip
Resolve fit, offload, or shortfall before you leave the tool
Compare real VRAM requirements against the live catalog, surface confidence for the result, and move to the next internal step when you need a lighter model or a stronger GPU.
Found this useful? Get guides like this in your inbox every week.
How RunAIatHome VRAM Calculation Works
1. Model Size
Each parameter takes 2 bytes (FP16), 1 byte (Q8), 0.5 bytes (Q4), or 0.25 bytes (Q2).
2. KV Cache
Runtime overhead for context processing adds ~0.5-2 GB depending on context length.
3. Offloading
If VRAM overflows, layers offload to system RAM — usable but slower.
Quantization Explained
See exactly how Q4, Q8, and FP16 affect VRAM requirements and speed for any model.
Guía práctica de VRAM para modelos de IA local
La VRAM (Video RAM) es la memoria de tu GPU y el recurso más crítico para ejecutar modelos de IA en local. A diferencia de la RAM del sistema, es mucho más rápida pero también más limitada. Cuando un modelo no cabe completamente en VRAM, el sistema hace offloading de capas a RAM, lo que puede reducir la velocidad de inferencia en un 50–80%.
El cálculo básico de VRAM necesaria es: número de parámetros × bytes por parámetro según cuantización + overhead de KV cache. Para un modelo de 7B en Q4 (0.5 bytes/parámetro): 7000M × 0.5 bytes ≈ 3.5 GB + ~1 GB de overhead = unos 4.5–5 GB totales. Esta calculadora hace ese cálculo automáticamente para cualquier combinación de modelo y cuantización.
¿Qué nivel de cuantización debo usar?
La cuantización reduce la precisión de los pesos del modelo para ahorrar memoria. Estos son los niveles más comunes y cuándo usar cada uno:
- FP16: Precisión completa. La mejor calidad posible, pero necesita el doble de VRAM que Q8. Solo recomendable para fine-tuning o evaluaciones donde la calidad exacta es crítica. Un modelo de 7B necesita ~14 GB de VRAM.
- Q8: Pérdida de calidad prácticamente imperceptible. Reduce la VRAM a la mitad respecto a FP16. Ideal cuando tienes VRAM suficiente y quieres calidad máxima sin el coste de FP16. Un modelo de 7B necesita ~7 GB.
- Q4_K_M: El punto dulce. Reduce la VRAM a la mitad respecto a Q8 con una pérdida de calidad del 5–10%. La opción más popular en Ollama y llama.cpp para uso diario. Un modelo de 7B necesita ~4.5 GB. Recomendado para la mayoría de usuarios.
- Q2: Máxima compresión. Permite cargar modelos muy grandes en poca VRAM, pero con una pérdida de calidad notable. Solo recomendable cuando no hay otra opción y necesitas el modelo sí o sí en tu hardware.
Casos reales: qué modelos caben en cada GPU
Estos son los modelos más populares y la cuantización máxima recomendada según la VRAM disponible:
| GPU / VRAM | Modelos compatibles en Q4 |
|---|---|
| RTX 3060 (12 GB) | Llama 3.1 8B (Q8), Mistral 7B (Q8), Phi-4 14B (Q4), DeepSeek R1 8B (Q8) |
| RTX 4060 Ti (16 GB) | Qwen2.5 14B (Q8), Gemma 3 12B (Q8), Mistral Small 24B (Q4) |
| RTX 4090 (24 GB) | Llama 3.3 70B (Q2), Qwen2.5 32B (Q8), Mixtral 8x7B (Q4) |