Calculadora de VRAM
La calculadora de VRAM de RunAIatHome te dice si tu GPU puede ejecutar cualquier modelo de IA. Selecciona tu hardware y descúbrelo al instante.
La regla práctica es: parámetros × bytes_por_parámetro + 1-2 GB de overhead de contexto. Q4 usa 0.5 bytes/parámetro, Q8 usa 1 byte, FP16 usa 2 bytes. La RTX 3060 12 GB cubre cualquier 7B en Q8 con margen.
— RunAIatHome VRAM Calculator — fórmula validada con Ollama 0.5.xMarco del motor de decisión
Resuelve encaje, offload o déficit antes de salir de la herramienta
Compara los requisitos reales de VRAM con el catálogo en vivo, muestra un indicador de confianza y pasa al siguiente paso cuando necesites un modelo más ligero o una GPU más potente.
GPUs compatibles según VRAM requerida
La calculadora te dice cuánta VRAM necesitas. Aquí tienes las GPUs más populares en cada nivel — filtradas a las que realmente cumplen los requisitos.
NVIDIA GeForce RTX 3060
Corre Llama 3.1 8B en Q8, Mistral 7B en Q8 y modelos hasta 13B en Q4 sin offloading
Ver disponibilidad →
NVIDIA GeForce RTX 4060 Ti 16GB
Corre modelos 13B en Q8 fluido, Qwen2.5 14B, Gemma 3 12B y Stable Diffusion XL sin límite
Ver disponibilidad →
NVIDIA GeForce RTX 4090
Corre modelos 30B en Q4, Llama 3.3 70B con offloading parcial, fine-tuning de 7B a FP16
Ver disponibilidad →Aviso de afiliado: Los enlaces anteriores son de afiliado (Amazon Associates). Si compras a través de ellos, recibimos una pequeña comisión sin coste adicional para ti. Los precios y disponibilidad pueden cambiar.
¿Te resultó útil? Recibe guías como esta en tu correo cada semana.
Cómo funciona el cálculo de VRAM de RunAIatHome
1. Tamaño del modelo
Cada parámetro ocupa 2 bytes (FP16), 1 byte (Q8), 0,5 bytes (Q4) o 0,25 bytes (Q2).
2. KV Cache
El overhead de runtime para el contexto añade unos 0,5-2 GB según la longitud del contexto.
3. Offloading
Si la VRAM se desborda, algunas capas pasan a la RAM del sistema: funciona pero va más lento.
Cuantización explicada
Mira exactamente cómo Q4, Q8 y FP16 afectan a los requisitos de VRAM y la velocidad en cualquier modelo.
Guía práctica de VRAM para modelos de IA local
La VRAM (Video RAM) es la memoria de tu GPU y el recurso más crítico para ejecutar modelos de IA en local. A diferencia de la RAM del sistema, es mucho más rápida pero también más limitada. Cuando un modelo no cabe completamente en VRAM, el sistema hace offloading de capas a RAM, lo que puede reducir la velocidad de inferencia en un 50–80%.
El cálculo básico de VRAM necesaria es: número de parámetros × bytes por parámetro según cuantización + overhead de KV cache. Para un modelo de 7B en Q4 (0.5 bytes/parámetro): 7000M × 0.5 bytes ≈ 3.5 GB + ~1 GB de overhead = unos 4.5–5 GB totales. Esta calculadora hace ese cálculo automáticamente para cualquier combinación de modelo y cuantización.
¿Qué nivel de cuantización debo usar?
La cuantización reduce la precisión de los pesos del modelo para ahorrar memoria. Estos son los niveles más comunes y cuándo usar cada uno:
- FP16: Precisión completa. La mejor calidad posible, pero necesita el doble de VRAM que Q8. Solo recomendable para fine-tuning o evaluaciones donde la calidad exacta es crítica. Un modelo de 7B necesita ~14 GB de VRAM.
- Q8: Pérdida de calidad prácticamente imperceptible. Reduce la VRAM a la mitad respecto a FP16. Ideal cuando tienes VRAM suficiente y quieres calidad máxima sin el coste de FP16. Un modelo de 7B necesita ~7 GB.
- Q4_K_M: El punto dulce. Reduce la VRAM a la mitad respecto a Q8 con una pérdida de calidad del 5–10%. La opción más popular en Ollama y llama.cpp para uso diario. Un modelo de 7B necesita ~4.5 GB. Recomendado para la mayoría de usuarios.
- Q2: Máxima compresión. Permite cargar modelos muy grandes en poca VRAM, pero con una pérdida de calidad notable. Solo recomendable cuando no hay otra opción y necesitas el modelo sí o sí en tu hardware.
Casos reales: qué modelos caben en cada GPU
Estos son los modelos más populares y la cuantización máxima recomendada según la VRAM disponible:
| GPU / VRAM | Modelos compatibles en Q4 |
|---|---|
| RTX 3060 (12 GB) | Llama 3.1 8B (Q8), Mistral 7B (Q8), Phi-4 14B (Q4), DeepSeek R1 8B (Q8) |
| RTX 4060 Ti (16 GB) | Qwen2.5 14B (Q8), Gemma 3 12B (Q8), Mistral Small 24B (Q4) |
| RTX 4090 (24 GB) | Llama 3.3 70B (Q2), Qwen2.5 32B (Q8), Mixtral 8x7B (Q4) |