GPU Comparator
RunAIatHome GPU Comparator: compare 2 or 3 GPUs side by side across AI performance metrics, VRAM, power consumption, and model compatibility.
Con 8 GB de VRAM en Q4, los modelos de 13B o mayores requieren offload parcial a RAM del sistema, lo que reduce la velocidad a 3-8 tokens/segundo. Con 16 GB se mantienen 15-25 tokens/segundo en modelos de hasta 13B.
— RunAIatHome GPU Comparator — benchmarks RTX 4060 vs RTX 4060 TiFound this useful? Get guides like this in your inbox every week.
RunAIatHome: qué métricas importan al comparar GPUs para IA local
Comparar GPUs para IA local no es lo mismo que hacerlo para gaming. Los benchmarks de FPS en juegos son completamente irrelevantes; lo que importa es el rendimiento en inferencia de modelos de lenguaje e imagen. Las métricas que debes comparar son: VRAM total, ancho de banda de memoria, TFLOPs en FP16/BF16, y los tokens por segundo reales con modelos de referencia como Llama 7B en Q4.
El ancho de banda de memoria es a menudo más determinante que los TFLOPs para LLMs. Esto es porque la inferencia en LLMs es memory-bound: el cuello de botella está en cuántos GB/s puede mover la GPU, no en su capacidad de cálculo puro. Por eso la RTX 4090 (con 1008 GB/s) produce casi el doble de tokens por segundo que la RTX 4070 (448 GB/s) aunque sus VRAM no sean tan distintas.
NVIDIA vs AMD para IA local: ¿cuál elegir?
La mayoría del ecosistema de IA local (llama.cpp, Ollama, LM Studio, ComfyUI) está optimizado primariamente para CUDA de NVIDIA. Las GPUs AMD con ROCm funcionan cada vez mejor, pero el soporte aún no es tan completo y la configuración puede ser más compleja. Para Stable Diffusion e imagen, las GPUs AMD son una opción viable en Linux. Para LLMs con Ollama, NVIDIA ofrece la experiencia más fluida y el mejor rendimiento por euro en gamas media y alta.
La RX 7900 XTX de AMD con 24 GB de VRAM es una excepción notable: ofrece la misma VRAM que la RTX 4090 a menor precio y su soporte ROCm en Linux ha mejorado notablemente. Si usas Linux y no necesitas características específicas de CUDA (como algunas capacidades de fine-tuning), merece la pena considerarla.
Comparativa rápida por rango de presupuesto
- Hasta 300 EUR: RTX 3060 12 GB (nueva o segunda mano). Perfecto para modelos de 7B–8B. 12 GB de VRAM ofrecen buen margen para crecer.
- 300–500 EUR: RTX 4060 Ti 16 GB. El punto dulce actual: 16 GB de VRAM GDDR6 modernas, bajo consumo (165 W TDP), y soporte para modelos de 13B en Q4 con holgura.
- 500–900 EUR: RTX 4070 Ti Super 16 GB o RTX 3090 24 GB de segunda mano. La RTX 3090 en segunda mano es especialmente atractiva si buscas VRAM para modelos 30B.
- Más de 1500 EUR: RTX 4090 24 GB. La mejor GPU consumer para IA local. Corre modelos de 30B a buena velocidad y hace offloading parcial para 70B. Inversión a largo plazo.
Tokens por segundo: la métrica real de productividad
Para que un LLM en local se sienta fluido, necesitas al menos 15–20 tokens por segundo con el modelo que usas habitualmente. Por debajo de eso, la respuesta se percibe lenta. Por encima de 50 tok/s, ya supera la velocidad de lectura humana y se siente instantáneo. Aquí la referencia con Llama 3.1 8B en Q4:
- RTX 3060 12 GB: ~25–35 tok/s — fluido para uso personal.
- RTX 4060 Ti 16 GB: ~45–55 tok/s — muy cómodo, prácticamente sin espera.
- RTX 4070 Ti Super 16 GB: ~70–85 tok/s — velocidad profesional.
- RTX 4090 24 GB: ~100–130 tok/s — lo más rápido en hardware consumer.
Preguntas frecuentes al comparar GPUs para IA
¿Vale la pena la RTX 4070 Super sobre la RTX 4070 para IA local?
La RTX 4070 Super ofrece ~20% más de ancho de banda de memoria y más CUDA cores que la RTX 4070 estándar, con un diferencial de precio generalmente bajo (50–80 EUR). Para IA local, ese aumento en ancho de banda se traduce en 5–10 tok/s adicionales con modelos de 7B–13B. Si el precio es similar, la Super es la opción más sensata.
¿Las GPUs AMD son compatibles con Ollama y llama.cpp?
Sí, pero con matices. Ollama y llama.cpp tienen soporte para GPUs AMD mediante ROCm, que funciona bien en Linux con tarjetas RX 6000 y 7000. En Windows, el soporte es más limitado y algunas versiones de llama.cpp requieren compilación manual. En macOS, solo las GPUs NVIDIA mediante eGPU o los chips Apple Silicon tienen soporte nativo. Para máxima compatibilidad, NVIDIA sigue siendo la opción sin fricciones.
¿Dos GPUs de 8 GB equivalen a una GPU de 16 GB?
No directamente. Para IA local con llama.cpp, el soporte multi-GPU en consumer grade es limitado: los modelos se reparten por capas entre GPUs, pero hay latencia de transferencia entre ellas. Dos RTX 4060 de 8 GB pueden correr un modelo de 14B con rendimiento aceptable, pero una sola RTX 4060 Ti 16 GB será más rápida y simple de configurar. El setup multi-GPU tiene sentido principalmente con GPUs de datacenter que soportan NVLink.