Saltar al contenido principal

Calculadora de VRAM

La calculadora de VRAM de RunAIatHome te dice si tu GPU puede ejecutar cualquier modelo de IA. Selecciona tu hardware y descúbrelo al instante.

Javier Morales Especialista en infraestructura e IA local — 8 años de experiencia
GitHub: github.com/javier-morales-ia
Un modelo de 7B parámetros en cuantización Q4 requiere 4.5 GB de VRAM; el mismo modelo en Q8 sube a 7.5 GB y en FP16 necesita 14 GB

La regla práctica es: parámetros × bytes_por_parámetro + 1-2 GB de overhead de contexto. Q4 usa 0.5 bytes/parámetro, Q8 usa 1 byte, FP16 usa 2 bytes. La RTX 3060 12 GB cubre cualquier 7B en Q8 con margen.

— RunAIatHome VRAM Calculator — fórmula validada con Ollama 0.5.x
Capa de confianza del cálculo activa

Marco del motor de decisión

Resuelve encaje, offload o déficit antes de salir de la herramienta

Compara los requisitos reales de VRAM con el catálogo en vivo, muestra un indicador de confianza y pasa al siguiente paso cuando necesites un modelo más ligero o una GPU más potente.

GPUs compatibles según VRAM requerida

La calculadora te dice cuánta VRAM necesitas. Aquí tienes las GPUs más populares en cada nivel — filtradas a las que realmente cumplen los requisitos.

Entrada 12 GB VRAM
NVIDIA GeForce RTX 3060

NVIDIA GeForce RTX 3060

Corre Llama 3.1 8B en Q8, Mistral 7B en Q8 y modelos hasta 13B en Q4 sin offloading

Ver disponibilidad →
Equilibrio 16 GB VRAM
NVIDIA GeForce RTX 4060 Ti 16GB

NVIDIA GeForce RTX 4060 Ti 16GB

Corre modelos 13B en Q8 fluido, Qwen2.5 14B, Gemma 3 12B y Stable Diffusion XL sin límite

Ver disponibilidad →
Alto rendimiento 24 GB VRAM
NVIDIA GeForce RTX 4090

NVIDIA GeForce RTX 4090

Corre modelos 30B en Q4, Llama 3.3 70B con offloading parcial, fine-tuning de 7B a FP16

Ver disponibilidad →

Aviso de afiliado: Los enlaces anteriores son de afiliado (Amazon Associates). Si compras a través de ellos, recibimos una pequeña comisión sin coste adicional para ti. Los precios y disponibilidad pueden cambiar.

¿Te resultó útil? Recibe guías como esta en tu correo cada semana.

Sin spam. Date de baja con un clic.

Cómo funciona el cálculo de VRAM de RunAIatHome

1. Tamaño del modelo

Cada parámetro ocupa 2 bytes (FP16), 1 byte (Q8), 0,5 bytes (Q4) o 0,25 bytes (Q2).

2. KV Cache

El overhead de runtime para el contexto añade unos 0,5-2 GB según la longitud del contexto.

3. Offloading

Si la VRAM se desborda, algunas capas pasan a la RAM del sistema: funciona pero va más lento.

Cuantización explicada

Mira exactamente cómo Q4, Q8 y FP16 afectan a los requisitos de VRAM y la velocidad en cualquier modelo.

Guía práctica de VRAM para modelos de IA local

La VRAM (Video RAM) es la memoria de tu GPU y el recurso más crítico para ejecutar modelos de IA en local. A diferencia de la RAM del sistema, es mucho más rápida pero también más limitada. Cuando un modelo no cabe completamente en VRAM, el sistema hace offloading de capas a RAM, lo que puede reducir la velocidad de inferencia en un 50–80%.

El cálculo básico de VRAM necesaria es: número de parámetros × bytes por parámetro según cuantización + overhead de KV cache. Para un modelo de 7B en Q4 (0.5 bytes/parámetro): 7000M × 0.5 bytes ≈ 3.5 GB + ~1 GB de overhead = unos 4.5–5 GB totales. Esta calculadora hace ese cálculo automáticamente para cualquier combinación de modelo y cuantización.

¿Qué nivel de cuantización debo usar?

La cuantización reduce la precisión de los pesos del modelo para ahorrar memoria. Estos son los niveles más comunes y cuándo usar cada uno:

  • FP16: Precisión completa. La mejor calidad posible, pero necesita el doble de VRAM que Q8. Solo recomendable para fine-tuning o evaluaciones donde la calidad exacta es crítica. Un modelo de 7B necesita ~14 GB de VRAM.
  • Q8: Pérdida de calidad prácticamente imperceptible. Reduce la VRAM a la mitad respecto a FP16. Ideal cuando tienes VRAM suficiente y quieres calidad máxima sin el coste de FP16. Un modelo de 7B necesita ~7 GB.
  • Q4_K_M: El punto dulce. Reduce la VRAM a la mitad respecto a Q8 con una pérdida de calidad del 5–10%. La opción más popular en Ollama y llama.cpp para uso diario. Un modelo de 7B necesita ~4.5 GB. Recomendado para la mayoría de usuarios.
  • Q2: Máxima compresión. Permite cargar modelos muy grandes en poca VRAM, pero con una pérdida de calidad notable. Solo recomendable cuando no hay otra opción y necesitas el modelo sí o sí en tu hardware.

Casos reales: qué modelos caben en cada GPU

Estos son los modelos más populares y la cuantización máxima recomendada según la VRAM disponible:

GPU / VRAM Modelos compatibles en Q4
RTX 3060 (12 GB) Llama 3.1 8B (Q8), Mistral 7B (Q8), Phi-4 14B (Q4), DeepSeek R1 8B (Q8)
RTX 4060 Ti (16 GB) Qwen2.5 14B (Q8), Gemma 3 12B (Q8), Mistral Small 24B (Q4)
RTX 4090 (24 GB) Llama 3.3 70B (Q2), Qwen2.5 32B (Q8), Mixtral 8x7B (Q4)