Skip to main content
Guía de compra 15 min de lectura ·

Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.

Divulgación: Este artículo contiene enlaces de afiliado de Amazon. Si compras a través de ellos, recibimos una pequeña comisión sin coste adicional para ti.
Alex Chen AI Hardware Specialist
GitHub: github.com/javier-morales-ia

Montar un PC para IA local con presupuesto ajustado

Llama 3.1 8B a 30 tokens por segundo en tu propio hardware, sin APIs, sin cuotas, sin que tus datos salgan de tu red. Este build cae en una banda de entrada solvente, usa una RTX 3060 12GB como corazón, y está probado: los benchmarks de esta guía son reales.

¿Ya tienes GPU y solo quieres saber qué modelos correrás? Usa nuestra calculadora de VRAM — te dice exactamente qué modelos caben, a qué velocidad y si necesitas offloading.

TL;DR: • Build recomendado: RTX 3060 12 GB + Ryzen 5 7600 + 32 GB DDR5 en una banda de precio de entrada solvente • La RTX 3060 genera ~30 tok/s con Llama 3.1 8B Q4 — soporta modelos hasta 13B en Q4 • La GPU es el componente clave: sin al menos 8 GB de VRAM la experiencia no es usable en el día a día

1. Por qué montar un PC dedicado para IA

La pregunta legítima: ¿merece la pena frente a usar ChatGPT o la API de Claude? La respuesta depende de cuánto lo uses. Aquí los argumentos reales, sin vender la moto.

Las ventajas que sí importan

  • Privacidad total. Tu código, tus documentos, tus conversaciones — nada sale de tu red local. Para trabajo con datos sensibles o código propietario, esto no es negociable.
  • Sin límites de API ni cuotas. Puedes hacer 10.000 requests al día si quieres. Construir herramientas de automatización sin preocuparte por el coste por token.
  • GPU dedicada sin compartir recursos. El SO usa la GPU para la pantalla, pero la VRAM disponible para el modelo es tuya al 100% cuando corres IA. Sin throttling por otros usuarios.
  • ROI real. GPT-4o con uso intensivo puede suponer una suscripción mensual relevante. Este build se amortiza en 12-18 meses solo en costes de API — y los modelos open-source han cerrado mucho la brecha de calidad.

Lo que debes saber antes

  • Los modelos locales no igualan a GPT-4o. Llama 3.1 8B es muy capaz para tareas de coding, resúmenes y uso general, pero GPT-4o sigue siendo más capaz en razonamiento complejo. Sé honesto con tus necesidades.
  • 30 tok/s es rápido pero no instantáneo. Para una respuesta de 200 tokens, esperas ~7 segundos. En conversación está bien. Para batch processing de documentos largos, nota la diferencia vs APIs en la nube.
  • La gestión es tuya. Actualizaciones, drivers, modelos — tú lo administras. No es un servicio gestionado.

¿Tiene sentido para ti? Si usas IA más de 1 hora al día, valoras la privacidad, o quieres construir herramientas sin preocuparte por costes de API — sí, tiene sentido. Si usas IA ocasionalmente para consultas puntuales, el build no se amortiza y las APIs son la elección racional.

2. La clave es la VRAM: elige bien antes de comprar

Antes de mirar CPU, RAM o NVMe — elige la GPU. La VRAM disponible determina qué modelos puedes correr. Es el spec más importante para IA local, más que los TFLOPS o el número de CUDA cores. Empieza por aquí.

VRAM Modelos accesibles GPU recomendada Banda de mercado
8 GB 7B Q4, 3B Q8 RTX 4060, RTX 3060 Ti Entrada
12 GB ← MEJOR 7B Q8, 13B Q4 — rango completo útil RTX 3060 12GB Entrada alta
16+ GB 13B Q8, 30B Q4, multimodales RTX 4060 Ti 16GB Gama media

Por qué 12 GB es el punto óptimo para un build de entrada serio

Con 8 GB puedes correr Llama 8B o Mistral 7B en Q4 — funciona, pero sin margen. Contextos largos o modelos ligeramente más grandes ya saturan la VRAM. Con 12 GB tienes el rango completo de modelos útiles: todos los 7B-8B con soltura, y los 13B en Q4 cuando los necesites. La RTX 3060 12GB es una de las pocas GPU de banda de entrada con 12 GB de VRAM — el resto en ese rango tiene 8 GB.

Trampa común que hay que saber: La RTX 3060 Ti, la RTX 3070 Ti y la RTX 4060 tienen todas 8 GB de VRAM, no 12 GB. El sufijo "Ti" indica más potencia de cómputo (gaming), no más memoria. Para IA, la RTX 3060 base (12 GB) es mejor que la 3060 Ti (8 GB) o la 4060 (8 GB), aunque para gaming ocurra lo contrario. Véase el artículo detallado: RTX 3060 para IA.

3. El build completo (banda de entrada solvente)

Este build está optimizado para IA local con presupuesto ajustado. La filosofía: máxima VRAM en GPU, CPU suficiente (la IA carga sobre GPU, no CPU), y RAM generosa para no tener cuellos de botella al cargar modelos.

Componente Modelo elegido Por qué este Banda Link
GPU RTX 3060 12GB Mejor punto de entrada para 12 GB VRAM en hardware consumer Entrada alta Ver oferta en Amazon
CPU AMD Ryzen 5 7600 6 núcleos, eficiente, AM5 con DDR5 nativo Entrada Ver oferta en Amazon
RAM 2x16 GB DDR5-5600 32 GB mínimo — modelos se cargan en RAM antes de VRAM Entrada Ver oferta en Amazon
NVMe SSD Samsung 990 Pro 1 TB / WD SN850X 1 TB PCIe 4.0 — los modelos son grandes (7B Q4 = ~4.7 GB) Entrada Ver oferta en Amazon
Placa base MSI MAG B650M Mortar AM5, DDR5, PCIe 4.0 para NVMe y GPU Entrada alta Ver oferta en Amazon
Fuente Corsair CV650 650W 80+ Bronze RTX 3060 consume 170W — 650W da margen amplio Entrada Ver oferta en Amazon
Caja Fractal Design Focus 2 / NZXT H5 Mid-tower, buen flujo de aire para carga sostenida Entrada Ver oferta en Amazon
TOTAL (sin periféricos) Entrada solvente

GPU — el corazón

El 60-70% del presupuesto va aquí, y tiene sentido. La RTX 3060 12GB es el componente que determina qué modelos corres y a qué velocidad. Todo lo demás es infraestructura.

CPU — suficiente

Durante la inferencia de un LLM, la CPU está al 5-15% de carga. Lo que hace trabajo real es la GPU. El Ryzen 5 7600 es más que suficiente — no gastes más en CPU para IA.

RAM — no escatimes

32 GB DDR5 no es capricho. Los modelos se leen del SSD a RAM, y desde RAM la GPU los carga en VRAM. Con 16 GB estás justo; con 32 GB tienes margen para tener varios modelos descargados.

Nota sobre el SSD: Con 10-15 modelos de 4-8 GB cada uno, 1 TB se llena antes de lo que parece. Considera 2 TB si planeas tener una biblioteca variada. El coste extra de subir un escalon en almacenamiento merece la pena.

4. Benchmarks reales de este build

Estos números son de la RTX 3060 12GB con Ollama en Ubuntu 24.04. Driver NVIDIA 550, CUDA 12.4, Ollama 0.5.x. Sin otras cargas en GPU durante el benchmark. Los modelos están 100% en VRAM — sin offloading a RAM del sistema.

Tarea Modelo / Config VRAM usada Resultado
LLM — conversación Llama 3.1 8B Q4 ~5 GB ~30 tok/s
LLM — instrucción Mistral 7B Q4 ~4.5 GB ~31 tok/s
LLM — razonamiento DeepSeek-R1 7B Q4 ~5 GB ~28 tok/s
LLM — alta calidad Llama 3.1 8B Q8 ~9 GB ~22 tok/s
Imagen — SD 1.5 Stable Diffusion 1.5, 512px ~4-5 GB ~7 seg/imagen
Transcripción audio Whisper Large-v3 ~3 GB RTF 0.9 (casi tiempo real)

¿Qué significa 30 tok/s en la práctica?

Una respuesta típica de 150-200 tokens tarda 5-7 segundos. Para conversación fluida, es perfectamente usable — comparable a leer texto a velocidad normal. Para respuestas muy largas (500+ tokens) hay espera perceptible, pero sigue siendo funcional.

DeepSeek-R1: por qué es más lento

Los modelos de razonamiento como DeepSeek-R1 generan tokens de "pensamiento" interno antes de responder. La velocidad de ~28 tok/s es real, pero genera más tokens en total por respuesta — el tiempo de respuesta percibido es mayor que con modelos de instrucción directa.

Por qué el bandwidth de memoria manda: La RTX 3060 tiene 360 GB/s de bandwidth. Generar un token con Llama 8B Q4 (~5 GB de pesos) requiere leer esos 5 GB de VRAM. A 360 GB/s, eso tarda ~14ms por token — de ahí los ~30 tok/s. Más VRAM no lo hace más rápido; más bandwidth sí. El RTX 4090 con 1.008 GB/s saca ~95 tok/s con el mismo modelo.

5. Alternativas por presupuesto

No todo el mundo tiene el mismo presupuesto. Aquí las tres rutas reales, con qué cambia en cada una y si el salto de gama merece la pena.

Opción de entrada estricta — RTX 4060 en lugar de RTX 3060

Presupuesto ajustado

Reemplaza la RTX 3060 de banda de entrada alta por una RTX 4060 de entrada. El ahorro existe, pero el coste real es la VRAM: pasas de 12 GB a 8 GB. Con 8 GB puedes correr Llama 8B y Mistral 7B en Q4 sin problema — pero los modelos 13B y Q8 quedan fuera. La arquitectura Ada Lovelace (4060) es más eficiente energéticamente (115W vs 170W), lo que se nota en factura eléctrica en uso continuado.

✅ Baja un escalon de gasto, más eficiente eléctricamente ❌ 4 GB menos de VRAM — límite real en modelos 13B

Opción de gama media — RTX 4060 Ti 16GB

Recomendado si puedes

Sube la GPU a RTX 4060 Ti 16GB en banda media. Con 16 GB de VRAM accedes a modelos 13B en Q8, 30B en Q4 (con cierto offloading), y tienes margen para contextos largos sin que la VRAM se sature. La arquitectura Ada Lovelace también es más rápida que la Ampere de la RTX 3060 — espera unos ~38-42 tok/s con Llama 8B en Q4. El salto de gama sobre el build base puede merecer la pena si planeas usar modelos 13B regularmente.

✅ 16 GB VRAM, más rápida, menor consumo (165W) ⚠️ Solo compensa si necesitas modelos 13B con frecuencia

Opción "ya tengo PC" — solo añadir GPU

El caso más frecuente

Si tienes un PC de los últimos 4-5 años con PCIe 3.0 o superior y una fuente de 500W+, puedes añadir solo la RTX 3060. El rendimiento de inferencia LLM es idéntico — la CPU, la RAM del sistema y la plataforma no importan casi nada para velocidad de inferencia. Lo que necesitas verificar: que la fuente aguanta (RTX 3060 = 170W bajo carga total), y que tienes al menos 16 GB de RAM del sistema (idealmente 32 GB).

✅ Solo compras la GPU y reaprovechas el resto del equipo ⚠️ Verifica fuente: mínimo 500W, recomendado 650W

6. Software: en marcha en 30 minutos

Una vez montado el PC, el proceso de software es directo. Aquí la ruta más rápida para tener Llama 8B corriendo en tu hardware en menos de media hora.

1

Sistema operativo: Ubuntu 24.04 LTS (recomendado)

Ubuntu 24.04 tiene el mejor soporte de drivers NVIDIA para IA. Windows 11 funciona también, pero el setup es más complejo y las herramientas como Ollama tienen mejor soporte en Linux. Si ya tienes Windows y no quieres reinstalar, funciona — pero los benchmarks de referencia son en Ubuntu.

2

Instalar drivers NVIDIA

bash — Ubuntu 24.04
sudo apt update
sudo apt install nvidia-driver-550
sudo reboot

Después del reboot, verifica con nvidia-smi que aparece la RTX 3060 con 12 GB. Si no aparece, comprueba que la GPU está bien asentada en el slot PCIe.

3

Instalar Ollama

bash
curl -fsSL https://ollama.com/install.sh | sh

Ollama detecta automáticamente los drivers CUDA y configura la aceleración GPU. Si hay un problema con los drivers, lo verás en los logs de Ollama al correr el primer modelo.

4

Primer modelo: Llama 3.1 8B

bash — descarga ~4.7 GB
ollama run llama3.1:8b

La primera ejecución descarga el modelo y lo carga en VRAM (~5-10 segundos). Verás un prompt. Escribe algo y comprueba que las respuestas llegan a ~30 tok/s. Para verificar que está usando la GPU (no CPU):

bash — en otro terminal mientras corre el modelo
nvidia-smi
ollama ps

ollama ps debe mostrar el modelo con 100% de capas en GPU. nvidia-smi debe mostrar ~5 GB de VRAM usados.

¿Prefieres interfaz gráfica?

LM Studio ofrece una UI visual con historial de chats, gestión de modelos descargados y comparativa side-by-side. Funciona con la RTX 3060 en Windows y Linux. El rendimiento es equivalente a Ollama (ambos usan llama.cpp por debajo — diferencias menores al 5%). Para comparativa detallada de ambas herramientas, ver: Ollama vs LM Studio.

7. FAQ

¿Necesito una GPU dedicada para correr IA local?

Sí. La VRAM de la GPU es el factor limitante para inferencia de LLMs. La GPU integrada no tiene VRAM propia — usa RAM del sistema, que tiene 5-10× menos bandwidth que la VRAM de una GPU dedicada. Con una RTX 3060 generas ~30 tok/s con Llama 8B. Con GPU integrada: 2-3 tok/s, y el sistema va lento. La GPU dedicada no es opcional si quieres una experiencia usable. La CPU casi no importa durante la inferencia.

¿Puedo usar una GPU AMD para IA local?

Sí, ROCm funciona con Ollama en Linux, pero tiene menos soporte que CUDA. Las Radeon RX 7900 XTX (24 GB) son interesantes por la VRAM, pero el soporte de herramientas es más complejo. Para la mayoría, NVIDIA + CUDA es el camino sin fricción — especialmente en Windows. Si eres usuario de Linux con experiencia técnica y encuentras una RX 7900 XTX a buen precio, puede merecer la pena.

¿Cuánta RAM del sistema (DDR5) necesito?

32 GB es el mínimo recomendado para este build. Los modelos se cargan desde el SSD a RAM antes de pasar a VRAM. Con 16 GB y un modelo de ~5 GB, el SO y apps ya consumen ~8-10 GB — poco margen. 64 GB solo tiene sentido si haces offloading deliberado de modelos grandes a RAM, con el coste de velocidad que implica (RAM es ~10× más lenta que VRAM para inferencia).

¿Es mejor comprar un PC de segunda mano?

La RTX 3060 12GB de segunda mano es excelente — las GPUs gaming no se desgastan como otros componentes si no vienen de minería. Ahorrarte un tramo visible de presupuesto comprando la GPU de segunda mano y lo demás nuevo es una estrategia válida. Evita: GPUs GTX 10xx (sin Tensor Cores), GPUs de minería (degradadas), y cualquier GPU con menos de 8 GB. La RTX 3060 base de 12 GB es la recomendación de segunda mano más clara del mercado.

8. Conclusión

1

La GPU es el 70% de la decisión. RTX 3060 12GB es uno de los pocos puntos de entrada reales a 12 GB de VRAM en hardware consumer. Lo demás es infraestructura — CPU, RAM y placa solo necesitan ser suficientes.

2

Una banda de entrada solvente te da un setup completo y funcional. 30 tok/s con Llama 8B Q4 es perfectamente usable para conversación, coding y automatización. No es un servidor de datos, pero para uso personal es más que suficiente.

3

Si ya tienes PC, la opción más eficiente es añadir solo la GPU. Para un PC de los últimos 5 años con fuente de 500W+, agregar la RTX 3060 da el mismo rendimiento de inferencia que el build completo. El resto del hardware no limita la velocidad de los LLMs.

4

Si puedes subir a la gama media, la RTX 4060 Ti 16GB es mejor inversión. 16 GB abren los modelos 13B con margen, y la arquitectura Ada Lovelace es más eficiente. El salto de calidad a largo plazo justifica subir un escalon sobre la RTX 3060.

¿Qué modelos correrás con tu build?

Mete los specs de tu GPU (o la que estás considerando) y la calculadora de VRAM te dice exactamente qué modelos caben, a qué quantización y si necesitarás offloading.

Calcula exactamente qué modelos puedes correr →

Componentes recomendados para PC de IA local

Hardware verificado para montar tu PC de IA en 2026.

NVIDIA GeForce RTX 3060 12GB

€269

budget Amazon Prime

NVIDIA GeForce RTX 3060 12GB

4.8 (1,400 reviews)

Pros

  • GPU de entrada para IA local
  • 12 GB VRAM — corre Llama 8B Q4
  • Mejor relación precio/VRAM

Cons

  • Menos eficiencia vs Ada Lovelace
Ver en Amazon
NVIDIA GeForce RTX 4070 Super 12GB

€499

high Amazon Prime

NVIDIA GeForce RTX 4070 Super 12GB

4.7 (520 reviews)

Pros

  • GPU recomendada para PC IA 2026
  • 12 GB GDDR6X + 504 GB/s
  • Corre modelos 13B sin problema

Cons

  • No suficiente para 70B
Ver en Amazon
NVIDIA GeForce RTX 4090 24GB

€1799

pro Amazon Prime

NVIDIA GeForce RTX 4090 24GB

4.8 (1,200 reviews)

Pros

  • GPU definitiva para IA local
  • 24 GB VRAM — modelos 70B Q4
  • 95 tok/s con Llama 8B

Cons

  • Precio premium ~1800€
Ver en Amazon
AMD Radeon RX 7800 XT 16GB

€449

high Amazon Prime

AMD Radeon RX 7800 XT 16GB

4.6 (380 reviews)

Pros

  • 16 GB VRAM a precio de mid-range
  • Excelente para ROCm/Ollama
  • Alternativa AMD sólida

Cons

  • ROCm menos maduro en Windows
Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

Found this useful? Get guides like this in your inbox every week.

No spam. Unsubscribe in one click.

Fuentes

RTX 3060 12GB — Primer paso

Ver mejor precio