Skip to main content

Calculadora de VRAM

La calculadora de VRAM de RunAIatHome te dice si tu GPU puede ejecutar cualquier modelo de IA. Selecciona tu hardware y descúbrelo al instante.

Javier Morales Especialista en Hardware e IA Local — 8 años de experiencia
GitHub: github.com/javier-morales-ia
Un modelo de 7B parámetros en cuantización Q4 requiere 4.5 GB de VRAM; el mismo modelo en Q8 sube a 7.5 GB y en FP16 necesita 14 GB

La regla práctica es: parámetros × bytes_por_parámetro + 1-2 GB de overhead de contexto. Q4 usa 0.5 bytes/parámetro, Q8 usa 1 byte, FP16 usa 2 bytes. La RTX 3060 12 GB cubre cualquier 7B en Q8 con margen.

— RunAIatHome VRAM Calculator — fórmula validada con Ollama 0.5.x
Calculator Confidence Layer Active

Decision Engine Framing Strip

Resolve fit, offload, or shortfall before you leave the tool

Compare real VRAM requirements against the live catalog, surface confidence for the result, and move to the next internal step when you need a lighter model or a stronger GPU.

94
Indexed Models
40
GPU Profiles

Found this useful? Get guides like this in your inbox every week.

No spam. Unsubscribe in one click.

How RunAIatHome VRAM Calculation Works

1. Model Size

Each parameter takes 2 bytes (FP16), 1 byte (Q8), 0.5 bytes (Q4), or 0.25 bytes (Q2).

2. KV Cache

Runtime overhead for context processing adds ~0.5-2 GB depending on context length.

3. Offloading

If VRAM overflows, layers offload to system RAM — usable but slower.

Quantization Explained

See exactly how Q4, Q8, and FP16 affect VRAM requirements and speed for any model.

Guía práctica de VRAM para modelos de IA local

La VRAM (Video RAM) es la memoria de tu GPU y el recurso más crítico para ejecutar modelos de IA en local. A diferencia de la RAM del sistema, es mucho más rápida pero también más limitada. Cuando un modelo no cabe completamente en VRAM, el sistema hace offloading de capas a RAM, lo que puede reducir la velocidad de inferencia en un 50–80%.

El cálculo básico de VRAM necesaria es: número de parámetros × bytes por parámetro según cuantización + overhead de KV cache. Para un modelo de 7B en Q4 (0.5 bytes/parámetro): 7000M × 0.5 bytes ≈ 3.5 GB + ~1 GB de overhead = unos 4.5–5 GB totales. Esta calculadora hace ese cálculo automáticamente para cualquier combinación de modelo y cuantización.

¿Qué nivel de cuantización debo usar?

La cuantización reduce la precisión de los pesos del modelo para ahorrar memoria. Estos son los niveles más comunes y cuándo usar cada uno:

  • FP16: Precisión completa. La mejor calidad posible, pero necesita el doble de VRAM que Q8. Solo recomendable para fine-tuning o evaluaciones donde la calidad exacta es crítica. Un modelo de 7B necesita ~14 GB de VRAM.
  • Q8: Pérdida de calidad prácticamente imperceptible. Reduce la VRAM a la mitad respecto a FP16. Ideal cuando tienes VRAM suficiente y quieres calidad máxima sin el coste de FP16. Un modelo de 7B necesita ~7 GB.
  • Q4_K_M: El punto dulce. Reduce la VRAM a la mitad respecto a Q8 con una pérdida de calidad del 5–10%. La opción más popular en Ollama y llama.cpp para uso diario. Un modelo de 7B necesita ~4.5 GB. Recomendado para la mayoría de usuarios.
  • Q2: Máxima compresión. Permite cargar modelos muy grandes en poca VRAM, pero con una pérdida de calidad notable. Solo recomendable cuando no hay otra opción y necesitas el modelo sí o sí en tu hardware.

Casos reales: qué modelos caben en cada GPU

Estos son los modelos más populares y la cuantización máxima recomendada según la VRAM disponible:

GPU / VRAM Modelos compatibles en Q4
RTX 3060 (12 GB) Llama 3.1 8B (Q8), Mistral 7B (Q8), Phi-4 14B (Q4), DeepSeek R1 8B (Q8)
RTX 4060 Ti (16 GB) Qwen2.5 14B (Q8), Gemma 3 12B (Q8), Mistral Small 24B (Q4)
RTX 4090 (24 GB) Llama 3.3 70B (Q2), Qwen2.5 32B (Q8), Mixtral 8x7B (Q4)