¿Cuánta VRAM necesito realmente para IA local?

12 GB para empezar (Llama 8B cómodo, hasta 13B en Q4), 16 GB para modelos 13B con margen y 30B en Q4, 24 GB para 30B Q4 completo y offload parcial de 70B. La regla: el modelo tiene que caber entero en VRAM para velocidad óptima. Usa la Calculadora VRAM de RunAIatHome para tu caso exacto.

Mejores GPUs para IA local

Q: ¿Qué GPU es mejor para principiantes en IA local?

La RTX 3060 12GB es la mejor opción de entrada. Es la GPU más accesible que permite correr Llama 3 8B, Mistral 7B y DeepSeek 7B completos a ~30 tok/s, por menos de 300€. Su clave: 12 GB de VRAM cuando las alternativas cercanas (RTX 4060, RTX 3060 Ti) solo tienen 8 GB.

Q: ¿Vale la pena la RTX 4090 para IA local?

Depende del uso. La RTX 4090 ofrece 95 tok/s con Llama 8B Q4 y 24 GB de VRAM, pero cuesta ~1.800€. Para uso casual, la diferencia de rendimiento no justifica 4-6x el precio de una RTX 3060. Tiene sentido si haces fine-tuning, corres modelos todo el día, o necesitas 70B con máximo rendimiento.

Q: ¿Puedo usar AMD para IA local?

Sí, pero con condiciones. Con NVIDIA y CUDA tendrás menos fricción: Ollama, llama.cpp y PyTorch funcionan out-of-the-box. AMD ROCm ha mejorado mucho en 2025-2026 y funciona bien en Linux con Ollama, pero algunos frameworks no tienen soporte oficial AMD. Si empiezas: NVIDIA. Si eres power user en Linux: AMD RX 7800 XT o 7900 XTX son opciones legítimas.

Rango de precios: RTX 3060 12GB ~€270 · RTX 4070 Super ~€499 · RTX 4090 ~€1.799

1. La clave: VRAM determina qué corre, bandwidth determina velocidad

Antes de mirar GPUs, hay que entender los dos números que importan para inferencia de LLMs: VRAM y memory bandwidth. No son lo mismo, y confundirlos lleva a malas compras.

VRAM — El límite físico

Determina qué modelos caben. Si el modelo no entra en VRAM, hay offloading a RAM y la velocidad cae un 90%. Simple y no negociable: necesitas suficiente VRAM para el modelo completo.

Bandwidth — La velocidad real

Determina cuántos tokens/segundo genera la GPU. Con cada token, la GPU lee todos los pesos del modelo. Más bandwidth = más lecturas por segundo = más tokens por segundo.

Ejemplo concreto: con Llama 3 8B en Q4 (~5 GB de pesos), la GPU lee esos 5 GB para generar cada token. Una RTX 3060 con 360 GB/s tarda ~14ms por token → 30 tok/s. Una RTX 4090 con 1.008 GB/s tarda ~5ms → 95 tok/s. Los TFLOPS salen en los anuncios, el bandwidth es el cuello de botella real en inferencia.

Tabla de orientación rápida por VRAM

VRAM	Qué corres	Ejemplo de modelos
8 GB	Hasta 7B Q4	Llama 3.2 3B rápido, Llama 3 8B justo
12 GB	7B–13B Q4 cómodo	Llama 3 8B, Mistral 7B, DeepSeek 7B
16 GB	Hasta 13B Q8, 30B Q4	Llama 3 8B full, Mixtral offload parcial
24 GB	30B Q4 completo	DeepSeek 14B, Llama 70B offload parcial
48 GB+	70B Q4 completo	Llama 70B, Qwen 72B completos

No existe una GPU "mejor" universal. Depende de qué modelos quieres correr y cuánto quieres gastar. Un modelo de 7B corre perfecto en 8 GB; para 30B necesitas 24 GB. Si no tienes claro qué VRAM necesitas, la Calculadora VRAM hace el cálculo exacto por modelo y quantización.

Nuestra recomendacion

8.5/10

La RTX 4070 Super es la mejor GPU para IA local para la mayoria de usuarios en 2026: 12 GB de VRAM GDDR6X, 504 GB/s de bandwidth y soporte completo CUDA sin compromiso.

Ventajas

12 GB VRAM GDDR6X — corre modelos hasta 13B Q4 comodo
504 GB/s bandwidth — ~50 tok/s con Llama 8B Q4
Eficiencia energetica excelente (175W TDP)
Soporte CUDA completo, sin fricciones con Ollama/PyTorch
Precio mid-range para el rendimiento que ofrece

Inconvenientes

No suficiente para modelos 30B+ sin offloading
Menos VRAM que la RTX 3090 usada al mismo precio
No ideal para fine-tuning intensivo

Ver RTX 4070 Super en Amazon

Enlace de afiliado — si compras a traves de este enlace recibimos una pequena comision sin coste adicional para ti.

Product image

Amazon

0.0 (0 reviews)

View undefined on Amazon →

Product image

Amazon

0.0 (0 reviews)

View undefined on Amazon →

2. Comparativa por presupuesto

🥇

RTX 3060 12GB — Presupuesto ajustado (< 300 €)

La única GPU menor de 300€ con 12 GB de VRAM

VRAM 12 GB GDDR6

Bandwidth 360 GB/s

Llama 8B Q4 ~30 tok/s

TDP 170W

La opción de entrada correcta para IA local. La razón es única y contundente: es la única GPU por menos de 300€ con 12 GB de VRAM. La RTX 3060 Ti y la RTX 4060 base, que cuestan similar, solo tienen 8 GB — un límite que notarás en seguida cuando intentes cargar un modelo 13B. TDP de 170W: no necesitas PSU especial, funciona en cualquier ordenador con fuente de 550W+.

Trampa a evitar: La RTX 3060 Ti y la RTX 4060 base suenan similares pero solo tienen 8 GB. Para IA, la 3060 base es mejor que la 3060 Ti.

Ver análisis completo RTX 3060 → Ver precio en Amazon

🥈

RTX 4060 Ti 16GB — Sweet spot (300–500 €)

16 GB a precio razonable, perfecta para modelos 13B

VRAM 16 GB GDDR6

Bandwidth 288 GB/s

Llama 8B Q4 ~35 tok/s

TDP 165W

16 GB de VRAM al precio más accesible del mercado. Perfecta para correr modelos 13B en Q4 sin compromisos, y Llama 8B Q8 con margen. Es eficiente — 165W de TDP — y silenciosa bajo carga. El salto desde la 3060 es real en VRAM, aunque no en velocidad bruta (35 vs 30 tok/s no es una diferencia que notes en conversación).

Nota honesta: El bandwidth es inferior al de la RTX 3060 (288 vs 360 GB/s). Paradójico pero real — arquitectura Ada Lovelace optimizó eficiencia, no bandwidth bruto. Para modelos que caben en 12 GB, la 3060 puede ser igual de rápida. Si tu objetivo son modelos 13B+, la 4060 Ti 16GB tiene sentido. Si solo corres 7B-8B, la 3060 es suficiente.

Ver análisis completo RTX 4060 Ti 16GB → Ver precio en Amazon

🏆

RTX 4070 Ti Super — Performance (500–800 €)

El doble de velocidad que la 4060 Ti, para usuarios exigentes

VRAM 16 GB GDDR6X

Bandwidth 672 GB/s

Llama 8B Q4 ~60 tok/s

TDP 285W

Aquí el bandwidth da el salto real: 672 GB/s vs los 288 GB/s de la 4060 Ti. Eso se traduce en el doble de tokens por segundo — 60 tok/s vs 35 tok/s en Llama 8B Q4. Si corres modelos de 13B regularmente o usas el LLM como herramienta de trabajo intensivo, aquí el precio/rendimiento empieza a tener sentido. Tiene el mismo límite de VRAM que la 4060 Ti (16 GB) pero a mucha más velocidad.

Ver análisis RTX 4070 Ti Super → Ver precio en Amazon

💎

RTX 3090 (usada) — Joker de VRAM (~600–800 €)

24 GB al precio de una 4070 Ti Super — si encuentras buen vendedor

VRAM 24 GB GDDR6X

Bandwidth 936 GB/s

Llama 8B Q4 ~65 tok/s

TDP 350W

La opción que nadie habla pero que tiene más sentido para IA: 24 GB de VRAM al precio de una RTX 4070 Ti Super nueva. Es la única opción por menos de 1.000€ que corre modelos de 30B en Q4 completo y hace offload parcial de 70B. El bandwidth de 936 GB/s también es brutal: 65 tok/s con Llama 8B.

Riesgo a gestionar: Tarjeta de segunda mano, garantía limitada o sin garantía. TDP de 350W — necesitas PSU de 750W+. Comprar solo en vendedor con devolución garantizada. Wallapop/eBay con vendedores verificados, no marketplace sin garantías.

Ver análisis RTX 3090 → Ver precio en Amazon

🚀

RTX 4090 — Sin límite de presupuesto (> 1.000 €)

La GPU consumer más rápida para IA, punto

VRAM 24 GB GDDR6X

Bandwidth 1.008 GB/s

Llama 8B Q4 ~95 tok/s

TDP 450W

95 tok/s con Llama 8B Q4 — el máximo alcanzable con hardware consumer. 24 GB de VRAM para modelos hasta 30B Q4 completo. Si corres modelos todo el día, haces fine-tuning, o la velocidad de respuesta es crítica para tu flujo de trabajo, no hay alternativa en el mercado consumer. Necesitas PSU de 850W+ y caja con espacio suficiente para la triple ventilación.

Nota sobre RTX 5090: La RTX 5090 ya existe con 32 GB de VRAM. Si tienes presupuesto sin techo, espera benchmarks específicos de IA antes de decidir — el salto de VRAM (24 → 32 GB) puede ser más relevante que la velocidad.

Ver análisis completo RTX 4090 → Ver precio en Amazon

3. Tabla comparativa completa

Todos los datos medidos con Llama 3 8B Q4_K_M, Ollama 0.5.x, Ubuntu 24.04, NVIDIA driver 550 / CUDA 12.4. Compara GPUs lado a lado en el Comparador de GPUs.

GPU	VRAM	tok/s*	TDP	Precio aprox.	Veredicto IA
RTX 3060	12 GB	30	170W	~250€	✅ Entrada, 13B Q4
RTX 4060 Ti 16GB	16 GB	35	165W	~450€	✅ Sweet spot eficiencia
RTX 3090 (usada)	24 GB	65	350W	~700€	💎 Joker VRAM máxima
RTX 4070 Ti Super	16 GB	60	285W	~750€	✅ Performance/precio
RTX 4080 Super	16 GB	72	320W	~950€	⚠️ Precio alto para 16 GB
RTX 4090	24 GB	95	450W	~1.800€	🚀 Máximo consumer
RX 7800 XT (AMD)	16 GB	48	263W	~450€	⚠️ Solo Linux + ROCm

*tok/s medidos con Llama 3 8B Q4_K_M, Ollama 0.5.x, Ubuntu 24.04, NVIDIA driver 550 / CUDA 12.4. Ver datos de todas las GPUs en la lista completa de GPUs compatibles.

4. AMD vs NVIDIA para IA local: la respuesta honesta

La respuesta corta: NVIDIA si empiezas, AMD si eres power user en Linux que quiere evitar el lock-in de CUDA. Aquí la versión larga.

Por qué NVIDIA sigue dominando

CUDA es el estándar de facto: Ollama, llama.cpp, PyTorch, transformers — todo funciona out-of-the-box con NVIDIA sin tocar una sola línea de configuración. Instalas los drivers, instalas Ollama, y en 10 minutos estás corriendo modelos. Sin sorpresas.

AMD ROCm: ha mejorado mucho, pero...

ROCm ha avanzado significativamente en 2025-2026. Con Ollama en Linux, la RX 7800 XT (16 GB) y la RX 7900 XTX (24 GB) son opciones legítimas con buen rendimiento. El problema: edge cases. Algunos frameworks no tienen soporte oficial AMD, las versiones de ROCm cambian, y resolver un problema de compatibilidad puede costarte horas. Si eres developer y vives en Linux: AMD vale la pena. Si quieres plug-and-play: NVIDIA.

Apple Silicon: la tercera opción

Si usas Mac, el M4 Pro con 24 GB de memoria unificada es una opción real y cada vez más seria. Rendimiento similar a una RTX 4060 Ti 16GB para inferencia (memoria unificada no es VRAM pura, pero llama.cpp la aprovecha bien), silencioso, eficiente. La limitación: no puedes añadir más memoria después de la compra, y el ecosistema software asume CUDA o ROCm.

Resumen práctico: Para la mayoría → NVIDIA sin dudarlo. Para power users en Linux que quieren 16+ GB sin pagar precio NVIDIA → RX 7800 XT o RX 7900 XTX son alternativas legítimas. La diferencia de precio por GB de VRAM puede ser considerable.

Preguntas frecuentes

¿Vale la pena una RTX 4090 para IA local? ▾

Para la mayoría sí es exceso de inversión. La RTX 4070 Super ofrece el 80% del rendimiento a la mitad del precio.

¿Puedo correr IA local con 8GB VRAM? ▾

Sí. Con 8GB VRAM puedes correr modelos 7B en Q4 como Llama 3.2 8B, Phi-4 Mini y Gemma 3 a buena velocidad.

¿AMD o NVIDIA para IA local? ▾

NVIDIA sigue siendo mejor para IA local por el ecosistema CUDA. AMD funciona con ROCm pero tiene menos soporte de frameworks.

5. FAQ — Preguntas frecuentes

¿Qué GPU es mejor para principiantes en IA local?

La RTX 3060 12GB. Es la opción más accesible que permite correr Llama 3 8B, Mistral 7B y DeepSeek 7B completos a ~30 tok/s. Su clave: 12 GB de VRAM cuando las alternativas cercanas (RTX 4060, RTX 3060 Ti) solo tienen 8 GB. Por menos de 300€, no hay otra opción racional para empezar.

¿Vale la pena la RTX 4090 para IA local?

Solo si necesitas velocidad máxima o haces fine-tuning. La RTX 4090 genera 95 tok/s — el triple que una RTX 3060. Para uso casual y conversacional, 30 tok/s ya es más rápido que tu velocidad de lectura. La diferencia de rendimiento no justifica 4-6x el precio salvo que uses el LLM como herramienta de trabajo intensivo o estés entrenando modelos.

¿Puedo usar AMD para IA local?

Sí, con condiciones. Con NVIDIA y CUDA tendrás menos fricción y cero problemas de compatibilidad. AMD ROCm funciona bien en Linux con Ollama, pero algunos frameworks no tienen soporte oficial AMD y los edge cases pueden costarte tiempo. Si empiezas: NVIDIA. Si eres power user en Linux y quieres más VRAM por el mismo precio: AMD RX 7800 XT o 7900 XTX son opciones reales.

¿Cuánta VRAM necesito realmente?

12 GB para empezar: Llama 8B cómodo, hasta 13B en Q4. 16 GB para modelos 13B con margen y trabajar con contextos largos. 24 GB para modelos 30B Q4 completo. La regla de oro: el modelo tiene que caber entero en VRAM para velocidad óptima — fuera de VRAM, el rendimiento cae un 90%. Usa la Calculadora VRAM para calcular exactamente qué necesitas para tu modelo objetivo.

6. Conclusión: la recomendación por presupuesto

< 300€

RTX 3060 12GB. No hay alternativa racional. La única GPU en este rango con 12 GB. Cualquier otra tiene 8 GB.

300–500€

RTX 4060 Ti 16GB. Sube a 16 GB de VRAM con eficiencia máxima (165W). Para 13B sin compromisos.

500–800€

RTX 4070 Ti Super o RTX 3090 (usada). Si quieres velocidad: 4070 Ti Super (60 tok/s, 16 GB). Si quieres VRAM máxima: 3090 usada (24 GB, 65 tok/s) — con el riesgo de segunda mano.

> 1.000€

RTX 4090. El techo del mercado consumer. 95 tok/s, 24 GB. Si puedes estirar, considera esperar benchmarks de IA de la RTX 5090 (32 GB).

¿No tienes claro qué GPU necesitas exactamente?

La Calculadora VRAM de RunAIatHome te dice exactamente qué GPU necesitas para el modelo que quieres correr — sin sobredimensionar ni quedarte corto.

Calcular qué GPU necesito → Comparar GPUs lado a lado → Ver lista completa de GPUs →

Sigue comparando

Herramientas

Fichas GPU

Fuentes

Productos recomendados

Selección verificada con ASINs reales — actualizada en 2026.

€499

high Amazon Prime

NVIDIA GeForce RTX 4070 Super 12GB

4.7 (520 reviews)

Pros

12 GB VRAM GDDR6X — corre 13B Q4
504 GB/s bandwidth
CUDA completo, sin fricción

Cons

No suficiente para 30B+ sin offloading

Ver en Amazon

€449

mid Amazon Prime

NVIDIA GeForce RTX 4070 12GB

4.7 (890 reviews)

Pros

12 GB VRAM GDDR6X
Excelente eficiencia energética
Ada Lovelace architecture

Cons

Algo menos de bandwidth que Super

Ver en Amazon

€269

budget Amazon Prime

NVIDIA GeForce RTX 3060 12GB

4.8 (1,400 reviews)

Pros

12 GB VRAM — el doble que RTX 4060
Precio de entrada <300€
Llama 8B a ~30 tok/s

Cons

Menos eficiencia que Ada Lovelace

Ver en Amazon

€1799

pro Amazon Prime

NVIDIA GeForce RTX 4090 24GB

4.8 (1,200 reviews)

Pros

24 GB VRAM — corre 70B con offload
95 tok/s con Llama 8B Q4
Máximo rendimiento disponible

Cons

~1800€ — no justificado para uso casual

Ver en Amazon

€699

high Amazon Prime

NVIDIA GeForce RTX 3090 24GB

4.7 (620 reviews)

Pros

24 GB VRAM segunda mano accesible
Ideal para fine-tuning y 30B Q4
Amplia disponibilidad

Cons

Consumo elevado vs generación Ada

Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

Found this useful? Get guides like this in your inbox every week.