Model-First Compatibility Flow

AI PC Build Configurator

RunAIatHome AI PC Build Configurator starts model-first: pick what you want to run, confirm required VRAM, then choose hardware with compatibility checks built in.

Start Model-First Setup Compare VRAM Needs

Javier Morales Especialista en Hardware e IA Local — 8 años de experiencia Actualizado 2026-03-31

GitHub: github.com/javier-morales-ia

Una build de IA local para modelos de 7B puede montarse desde ~400€ con RTX 3060 12GB y 32 GB de RAM DDR4

La RTX 3060 12GB ofrece 30 tokens/segundo en Llama 7B Q4 y cabe en cualquier caja ATX estándar con una PSU de 550W. Es el punto de entrada más equilibrado para IA local en 2026 según nuestros benchmarks.

— RunAIatHome Build Configurator — precios orientativos, mercado europeo

Found this useful? Get guides like this in your inbox every week.

RunAIatHome: cómo configurar un PC para IA local — guía de componentes

Montar un PC para inteligencia artificial local no es lo mismo que construir un gaming rig. Las prioridades cambian: aquí la GPU manda, pero no por sus capacidades gráficas, sino por su VRAM y el ancho de banda de memoria. Cuanta más VRAM tenga tu GPU, más grande es el modelo de IA que puedes cargar completamente en ella sin recurrir a offloading lento a RAM del sistema.

El flujo de trabajo es sencillo: selecciona primero la GPU según la VRAM que necesitas, después elige la RAM del sistema (mínimo 32 GB, idealmente 64 GB para no sufrir swapping), y por último un SSD NVMe rápido donde almacenar tus modelos. Un modelo de 7B en Q4 ocupa unos 4–5 GB en disco; uno de 70B en Q4 puede superar los 40 GB, así que el almacenamiento no es un detalle menor.

Requisitos de hardware según el tipo de modelo

La elección de componentes depende directamente del tamaño del modelo que quieres ejecutar. Aquí el desglose práctico por niveles:

7B–8B: Requieren 4.5–6 GB de VRAM en Q4. Una RTX 3060 12 GB o cualquier GPU con 8 GB es más que suficiente. Son los modelos ideales para un primer build de IA local, con velocidades de 20–60 tokens/segundo según la GPU.
13B–14B: Necesitan 8–10 GB de VRAM en Q4. La RTX 4060 Ti 16 GB es aquí el punto dulce: permite ejecutar modelos como Phi-4, Qwen2.5 14B y DeepSeek R1 Distill 14B con margen de sobra y a buena velocidad.
32B–70B: Los modelos grandes exigen 20–42 GB de VRAM en Q4. La RTX 4090 24 GB puede ejecutar modelos de 32B cómodamente. Para 70B completos necesitas memoria unificada grande (Mac M-series con 64–128 GB) o configuraciones multi-GPU con NVLink.
Imagen (Flux, SDXL): Stable Diffusion XL funciona con 8 GB VRAM. Flux.1 Dev y SD 3.5 Large requieren 12 GB. Para generación de imágenes a resoluciones altas con batch size > 1, 16–24 GB es lo recomendable.

Fuente de alimentación y refrigeración: no los olvides

La IA local tiene una particularidad: los modelos de lenguaje saturan la GPU al 100% durante la inferencia de manera continua. Esto significa que el consumo de la tarjeta es sostenido, no en picos cortos como en gaming. Una RTX 4090 puede consumir 450 W de manera ininterrumpida durante horas. Por eso la fuente de alimentación debe tener un margen cómodo: para una RTX 4090, una PSU de 850–1000 W con certificación 80+ Gold es la mínima recomendada.

La refrigeración también importa. Si el servidor va a correr 24/7 como asistente personal o API local, asegúrate de que el chasis tenga buena ventilación y que la GPU tenga espacio suficiente para disipar calor. Las GPUs de referencia con diseño de doble slot y ventiladores grandes son más silenciosas bajo carga sostenida que las compactas de un slot y medio.

Tips de optimización para sacar el máximo rendimiento

01. Usa cuantización Q4_K_M. Es la cuantización más popular en llama.cpp y Ollama porque ofrece el mejor equilibrio entre calidad de salida y uso de VRAM. Reduce la memoria a la mitad respecto a Q8 con una pérdida de calidad mínima (5–10%).
02. Instala los modelos en SSD NVMe. Cargar un modelo de 7 GB desde un HDD puede tardar más de 30 segundos. Un SSD NVMe PCIe 4.0 lo reduce a 2–4 segundos. Configura la carpeta de modelos de Ollama en tu unidad más rápida.
03. Ajusta el parámetro num_gpu en Ollama. Si tu GPU no tiene VRAM suficiente para el modelo completo, puedes hacer offloading parcial a RAM con OLLAMA_NUM_GPU. Esto reduce la velocidad pero permite ejecutar modelos mayores a tu VRAM disponible.
04. Considera un build de segunda mano. Las RTX 3080 (10 GB) y RTX 3090 (24 GB) de segunda mano ofrecen una relación precio/VRAM imbatible para modelos de 13B y 30B respectivamente. Verifica el estado del sistema de refrigeración y el historial de uso antes de comprar.

Aprende Más

Montar un PC equilibrado para IA local Mejores GPUs para IA local 2026: comparativa real ¿Cuánta VRAM necesito para IA local?