¿Cuánta RAM del sistema (DDR5) necesito para IA local?

32 GB es el mínimo recomendado. Los modelos se cargan desde el SSD a RAM antes de pasar a VRAM. Con 16 GB y un modelo de 7-8 GB (Llama 8B Q4), el SO y las apps ya consumen ~8-10 GB, dejando poco margen. 32 GB te da comodidad para tener el modelo en RAM mientras usas el navegador y otras herramientas. 64 GB solo tiene sentido si haces offloading deliberado de modelos grandes a RAM (con el coste de velocidad que eso implica).

¿Es mejor comprar un PC de segunda mano para IA?

La RTX 3060 12GB de segunda mano es excelente — las GPUs no se desgastan como otros componentes si se han usado para gaming (no minería). Comprar la GPU de segunda mano y los demás componentes nuevos es una estrategia válida si quieres mantener el gasto contenido. Evita: GPUs de la serie GTX 10xx (sin Tensor Cores, soporte CUDA limitado), GPUs sin CUDA (AMD de gama media-baja), y cualquier GPU con menos de 8 GB de VRAM. La RTX 3060 de primera generación (12 GB) es la recomendación de segunda mano más clara del mercado ahora mismo.

Montar PC para IA local con presupuesto ajustado

Q: ¿Necesito una GPU dedicada para correr IA local?

Sí. La VRAM de la GPU es el factor limitante para correr LLMs en local. La GPU integrada de un procesador no tiene VRAM propia — comparte la RAM del sistema, que es mucho más lenta (hasta 10× menos bandwidth). Con una GPU dedicada como la RTX 3060, generas ~30 tokens/segundo con Llama 8B. Con GPU integrada, apenas 2-3 tok/s y el sistema va a trancas. La GPU dedicada no es opcional si quieres una experiencia usable.

Q: ¿Puedo usar una GPU AMD para IA local?

Sí, ROCm (el equivalente de CUDA para AMD) funciona con Ollama en Linux, pero tiene menos soporte que CUDA. Las GPUs AMD Radeon RX 7900 XT y XTX (20 GB y 24 GB de VRAM respectivamente) son opciones interesantes si quieres más VRAM. El problema: el soporte de drivers es más complejo, especialmente en Windows. Si eres usuario de Linux con experiencia técnica, AMD puede ser viable. Para la mayoría, NVIDIA + CUDA es el camino sin fricción.

1. Por qué montar un PC dedicado para IA

La pregunta legítima: ¿merece la pena frente a usar ChatGPT o la API de Claude? La respuesta depende de cuánto lo uses. Aquí los argumentos reales, sin vender la moto.

Las ventajas que sí importan

•
Privacidad total. Tu código, tus documentos, tus conversaciones — nada sale de tu red local. Para trabajo con datos sensibles o código propietario, esto no es negociable.
•
Sin límites de API ni cuotas. Puedes hacer 10.000 requests al día si quieres. Construir herramientas de automatización sin preocuparte por el coste por token.
•
GPU dedicada sin compartir recursos. El SO usa la GPU para la pantalla, pero la VRAM disponible para el modelo es tuya al 100% cuando corres IA. Sin throttling por otros usuarios.
•
ROI real. GPT-4o con uso intensivo puede suponer una suscripción mensual relevante. Este build se amortiza en 12-18 meses solo en costes de API — y los modelos open-source han cerrado mucho la brecha de calidad.

Lo que debes saber antes

•
Los modelos locales no igualan a GPT-4o. Llama 3.1 8B es muy capaz para tareas de coding, resúmenes y uso general, pero GPT-4o sigue siendo más capaz en razonamiento complejo. Sé honesto con tus necesidades.
•
30 tok/s es rápido pero no instantáneo. Para una respuesta de 200 tokens, esperas ~7 segundos. En conversación está bien. Para batch processing de documentos largos, nota la diferencia vs APIs en la nube.
•
La gestión es tuya. Actualizaciones, drivers, modelos — tú lo administras. No es un servicio gestionado.

¿Tiene sentido para ti? Si usas IA más de 1 hora al día, valoras la privacidad, o quieres construir herramientas sin preocuparte por costes de API — sí, tiene sentido. Si usas IA ocasionalmente para consultas puntuales, el build no se amortiza y las APIs son la elección racional.

Product image

Amazon

0.0 (0 reviews)

View undefined on Amazon →

Product image

Amazon

0.0 (0 reviews)

View undefined on Amazon →

2. La clave es la VRAM: elige bien antes de comprar

Antes de mirar CPU, RAM o NVMe — elige la GPU. La VRAM disponible determina qué modelos puedes correr. Es el spec más importante para IA local, más que los TFLOPS o el número de CUDA cores. Empieza por aquí.

VRAM	Modelos accesibles	GPU recomendada	Banda de mercado
8 GB	7B Q4, 3B Q8	RTX 4060, RTX 3060 Ti	Entrada
12 GB ← MEJOR	7B Q8, 13B Q4 — rango completo útil	RTX 3060 12GB	Entrada alta
16+ GB	13B Q8, 30B Q4, multimodales	RTX 4060 Ti 16GB	Gama media

Por qué 12 GB es el punto óptimo para un build de entrada serio

Con 8 GB puedes correr Llama 8B o Mistral 7B en Q4 — funciona, pero sin margen. Contextos largos o modelos ligeramente más grandes ya saturan la VRAM. Con 12 GB tienes el rango completo de modelos útiles: todos los 7B-8B con soltura, y los 13B en Q4 cuando los necesites. La RTX 3060 12GB es una de las pocas GPU de banda de entrada con 12 GB de VRAM — el resto en ese rango tiene 8 GB.

Trampa común que hay que saber: La RTX 3060 Ti, la RTX 3070 Ti y la RTX 4060 tienen todas 8 GB de VRAM, no 12 GB. El sufijo "Ti" indica más potencia de cómputo (gaming), no más memoria. Para IA, la RTX 3060 base (12 GB) es mejor que la 3060 Ti (8 GB) o la 4060 (8 GB), aunque para gaming ocurra lo contrario. Véase el artículo detallado: RTX 3060 para IA.

3. El build completo (banda de entrada solvente)

Este build está optimizado para IA local con presupuesto ajustado. La filosofía: máxima VRAM en GPU, CPU suficiente (la IA carga sobre GPU, no CPU), y RAM generosa para no tener cuellos de botella al cargar modelos.

Componente	Modelo elegido	Por qué este	Banda	Link
GPU	RTX 3060 12GB	Mejor punto de entrada para 12 GB VRAM en hardware consumer	Entrada alta	Ver oferta en Amazon
CPU	AMD Ryzen 5 7600	6 núcleos, eficiente, AM5 con DDR5 nativo	Entrada	Ver oferta en Amazon
RAM	2x16 GB DDR5-5600	32 GB mínimo — modelos se cargan en RAM antes de VRAM	Entrada	Ver oferta en Amazon
NVMe SSD	Samsung 990 Pro 1 TB / WD SN850X 1 TB	PCIe 4.0 — los modelos son grandes (7B Q4 = ~4.7 GB)	Entrada	Ver oferta en Amazon
Placa base	MSI MAG B650M Mortar	AM5, DDR5, PCIe 4.0 para NVMe y GPU	Entrada alta	Ver oferta en Amazon
Fuente	Corsair CV650 650W 80+ Bronze	RTX 3060 consume 170W — 650W da margen amplio	Entrada	Ver oferta en Amazon
Caja	Fractal Design Focus 2 / NZXT H5	Mid-tower, buen flujo de aire para carga sostenida	Entrada	Ver oferta en Amazon
TOTAL (sin periféricos)			Entrada solvente

GPU — el corazón

El 60-70% del presupuesto va aquí, y tiene sentido. La RTX 3060 12GB es el componente que determina qué modelos corres y a qué velocidad. Todo lo demás es infraestructura.

CPU — suficiente

Durante la inferencia de un LLM, la CPU está al 5-15% de carga. Lo que hace trabajo real es la GPU. El Ryzen 5 7600 es más que suficiente — no gastes más en CPU para IA.

RAM — no escatimes

32 GB DDR5 no es capricho. Los modelos se leen del SSD a RAM, y desde RAM la GPU los carga en VRAM. Con 16 GB estás justo; con 32 GB tienes margen para tener varios modelos descargados.

Nota sobre el SSD: Con 10-15 modelos de 4-8 GB cada uno, 1 TB se llena antes de lo que parece. Considera 2 TB si planeas tener una biblioteca variada. El coste extra de subir un escalon en almacenamiento merece la pena.

4. Benchmarks reales de este build

Estos números son de la RTX 3060 12GB con Ollama en Ubuntu 24.04. Driver NVIDIA 550, CUDA 12.4, Ollama 0.5.x. Sin otras cargas en GPU durante el benchmark. Los modelos están 100% en VRAM — sin offloading a RAM del sistema.

Tarea	Modelo / Config	VRAM usada	Resultado
LLM — conversación	Llama 3.1 8B Q4	~5 GB	~30 tok/s
LLM — instrucción	Mistral 7B Q4	~4.5 GB	~31 tok/s
LLM — razonamiento	DeepSeek-R1 7B Q4	~5 GB	~28 tok/s
LLM — alta calidad	Llama 3.1 8B Q8	~9 GB	~22 tok/s
Imagen — SD 1.5	Stable Diffusion 1.5, 512px	~4-5 GB	~7 seg/imagen
Transcripción audio	Whisper Large-v3	~3 GB	RTF 0.9 (casi tiempo real)

¿Qué significa 30 tok/s en la práctica?

Una respuesta típica de 150-200 tokens tarda 5-7 segundos. Para conversación fluida, es perfectamente usable — comparable a leer texto a velocidad normal. Para respuestas muy largas (500+ tokens) hay espera perceptible, pero sigue siendo funcional.

DeepSeek-R1: por qué es más lento

Los modelos de razonamiento como DeepSeek-R1 generan tokens de "pensamiento" interno antes de responder. La velocidad de ~28 tok/s es real, pero genera más tokens en total por respuesta — el tiempo de respuesta percibido es mayor que con modelos de instrucción directa.

Por qué el bandwidth de memoria manda: La RTX 3060 tiene 360 GB/s de bandwidth. Generar un token con Llama 8B Q4 (~5 GB de pesos) requiere leer esos 5 GB de VRAM. A 360 GB/s, eso tarda ~14ms por token — de ahí los ~30 tok/s. Más VRAM no lo hace más rápido; más bandwidth sí. El RTX 4090 con 1.008 GB/s saca ~95 tok/s con el mismo modelo.

5. Alternativas por presupuesto

No todo el mundo tiene el mismo presupuesto. Aquí las tres rutas reales, con qué cambia en cada una y si el salto de gama merece la pena.

Opción de entrada estricta — RTX 4060 en lugar de RTX 3060

Presupuesto ajustado

Reemplaza la RTX 3060 de banda de entrada alta por una RTX 4060 de entrada. El ahorro existe, pero el coste real es la VRAM: pasas de 12 GB a 8 GB. Con 8 GB puedes correr Llama 8B y Mistral 7B en Q4 sin problema — pero los modelos 13B y Q8 quedan fuera. La arquitectura Ada Lovelace (4060) es más eficiente energéticamente (115W vs 170W), lo que se nota en factura eléctrica en uso continuado.

✅ Baja un escalon de gasto, más eficiente eléctricamente ❌ 4 GB menos de VRAM — límite real en modelos 13B

Opción de gama media — RTX 4060 Ti 16GB

Recomendado si puedes

Sube la GPU a RTX 4060 Ti 16GB en banda media. Con 16 GB de VRAM accedes a modelos 13B en Q8, 30B en Q4 (con cierto offloading), y tienes margen para contextos largos sin que la VRAM se sature. La arquitectura Ada Lovelace también es más rápida que la Ampere de la RTX 3060 — espera unos ~38-42 tok/s con Llama 8B en Q4. El salto de gama sobre el build base puede merecer la pena si planeas usar modelos 13B regularmente.

✅ 16 GB VRAM, más rápida, menor consumo (165W) ⚠️ Solo compensa si necesitas modelos 13B con frecuencia

Opción "ya tengo PC" — solo añadir GPU

El caso más frecuente

Si tienes un PC de los últimos 4-5 años con PCIe 3.0 o superior y una fuente de 500W+, puedes añadir solo la RTX 3060. El rendimiento de inferencia LLM es idéntico — la CPU, la RAM del sistema y la plataforma no importan casi nada para velocidad de inferencia. Lo que necesitas verificar: que la fuente aguanta (RTX 3060 = 170W bajo carga total), y que tienes al menos 16 GB de RAM del sistema (idealmente 32 GB).

✅ Solo compras la GPU y reaprovechas el resto del equipo ⚠️ Verifica fuente: mínimo 500W, recomendado 650W

6. Software: en marcha en 30 minutos

Una vez montado el PC, el proceso de software es directo. Aquí la ruta más rápida para tener Llama 8B corriendo en tu hardware en menos de media hora.

Sistema operativo: Ubuntu 24.04 LTS (recomendado)

Ubuntu 24.04 tiene el mejor soporte de drivers NVIDIA para IA. Windows 11 funciona también, pero el setup es más complejo y las herramientas como Ollama tienen mejor soporte en Linux. Si ya tienes Windows y no quieres reinstalar, funciona — pero los benchmarks de referencia son en Ubuntu.

Instalar drivers NVIDIA

bash — Ubuntu 24.04

sudo apt update
sudo apt install nvidia-driver-550
sudo reboot

Después del reboot, verifica con nvidia-smi que aparece la RTX 3060 con 12 GB. Si no aparece, comprueba que la GPU está bien asentada en el slot PCIe.

Instalar Ollama

bash

curl -fsSL https://ollama.com/install.sh | sh

Ollama detecta automáticamente los drivers CUDA y configura la aceleración GPU. Si hay un problema con los drivers, lo verás en los logs de Ollama al correr el primer modelo.

Primer modelo: Llama 3.1 8B

bash — descarga ~4.7 GB

ollama run llama3.1:8b

La primera ejecución descarga el modelo y lo carga en VRAM (~5-10 segundos). Verás un prompt. Escribe algo y comprueba que las respuestas llegan a ~30 tok/s. Para verificar que está usando la GPU (no CPU):

bash — en otro terminal mientras corre el modelo

nvidia-smi
ollama ps

ollama ps debe mostrar el modelo con 100% de capas en GPU. nvidia-smi debe mostrar ~5 GB de VRAM usados.

¿Prefieres interfaz gráfica?

LM Studio ofrece una UI visual con historial de chats, gestión de modelos descargados y comparativa side-by-side. Funciona con la RTX 3060 en Windows y Linux. El rendimiento es equivalente a Ollama (ambos usan llama.cpp por debajo — diferencias menores al 5%). Para comparativa detallada de ambas herramientas, ver: Ollama vs LM Studio.

7. FAQ

¿Necesito una GPU dedicada para correr IA local?

Sí. La VRAM de la GPU es el factor limitante para inferencia de LLMs. La GPU integrada no tiene VRAM propia — usa RAM del sistema, que tiene 5-10× menos bandwidth que la VRAM de una GPU dedicada. Con una RTX 3060 generas ~30 tok/s con Llama 8B. Con GPU integrada: 2-3 tok/s, y el sistema va lento. La GPU dedicada no es opcional si quieres una experiencia usable. La CPU casi no importa durante la inferencia.

¿Puedo usar una GPU AMD para IA local?

Sí, ROCm funciona con Ollama en Linux, pero tiene menos soporte que CUDA. Las Radeon RX 7900 XTX (24 GB) son interesantes por la VRAM, pero el soporte de herramientas es más complejo. Para la mayoría, NVIDIA + CUDA es el camino sin fricción — especialmente en Windows. Si eres usuario de Linux con experiencia técnica y encuentras una RX 7900 XTX a buen precio, puede merecer la pena.

¿Cuánta RAM del sistema (DDR5) necesito?

32 GB es el mínimo recomendado para este build. Los modelos se cargan desde el SSD a RAM antes de pasar a VRAM. Con 16 GB y un modelo de ~5 GB, el SO y apps ya consumen ~8-10 GB — poco margen. 64 GB solo tiene sentido si haces offloading deliberado de modelos grandes a RAM, con el coste de velocidad que implica (RAM es ~10× más lenta que VRAM para inferencia).

¿Es mejor comprar un PC de segunda mano?

La RTX 3060 12GB de segunda mano es excelente — las GPUs gaming no se desgastan como otros componentes si no vienen de minería. Ahorrarte un tramo visible de presupuesto comprando la GPU de segunda mano y lo demás nuevo es una estrategia válida. Evita: GPUs GTX 10xx (sin Tensor Cores), GPUs de minería (degradadas), y cualquier GPU con menos de 8 GB. La RTX 3060 base de 12 GB es la recomendación de segunda mano más clara del mercado.

8. Conclusión

La GPU es el 70% de la decisión. RTX 3060 12GB es uno de los pocos puntos de entrada reales a 12 GB de VRAM en hardware consumer. Lo demás es infraestructura — CPU, RAM y placa solo necesitan ser suficientes.

Una banda de entrada solvente te da un setup completo y funcional. 30 tok/s con Llama 8B Q4 es perfectamente usable para conversación, coding y automatización. No es un servidor de datos, pero para uso personal es más que suficiente.

Si ya tienes PC, la opción más eficiente es añadir solo la GPU. Para un PC de los últimos 5 años con fuente de 500W+, agregar la RTX 3060 da el mismo rendimiento de inferencia que el build completo. El resto del hardware no limita la velocidad de los LLMs.

Si puedes subir a la gama media, la RTX 4060 Ti 16GB es mejor inversión. 16 GB abren los modelos 13B con margen, y la arquitectura Ada Lovelace es más eficiente. El salto de calidad a largo plazo justifica subir un escalon sobre la RTX 3060.

Calculadora de VRAM Calcula exactamente qué modelos correrás con tu GPU RTX 3060 — ficha técnica Specs completas, benchmarks por modelo y comparativas Ollama vs LM Studio Qué software instalar una vez tengas el hardware listo

¿Qué modelos correrás con tu build?

Mete los specs de tu GPU (o la que estás considerando) y la calculadora de VRAM te dice exactamente qué modelos caben, a qué quantización y si necesitarás offloading.

Calcula exactamente qué modelos puedes correr →

Componentes recomendados para PC de IA local

Hardware verificado para montar tu PC de IA en 2026.

€269

budget Amazon Prime

NVIDIA GeForce RTX 3060 12GB

4.8 (1,400 reviews)

Pros

GPU de entrada para IA local
12 GB VRAM — corre Llama 8B Q4
Mejor relación precio/VRAM

Cons

Menos eficiencia vs Ada Lovelace

Ver en Amazon

€499

high Amazon Prime

NVIDIA GeForce RTX 4070 Super 12GB

4.7 (520 reviews)

Pros

GPU recomendada para PC IA 2026
12 GB GDDR6X + 504 GB/s
Corre modelos 13B sin problema

Cons

No suficiente para 70B

Ver en Amazon

€1799

pro Amazon Prime

NVIDIA GeForce RTX 4090 24GB

4.8 (1,200 reviews)

Pros

GPU definitiva para IA local
24 GB VRAM — modelos 70B Q4
95 tok/s con Llama 8B

Cons

Precio premium ~1800€

Ver en Amazon

€449

high Amazon Prime

AMD Radeon RX 7800 XT 16GB

4.6 (380 reviews)

Pros

16 GB VRAM a precio de mid-range
Excelente para ROCm/Ollama
Alternativa AMD sólida

Cons

ROCm menos maduro en Windows

Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

Found this useful? Get guides like this in your inbox every week.

Montar un PC para IA local con presupuesto ajustado

1. Por qué montar un PC dedicado para IA

Las ventajas que sí importan

Lo que debes saber antes

2. La clave es la VRAM: elige bien antes de comprar

Por qué 12 GB es el punto óptimo para un build de entrada serio

3. El build completo (banda de entrada solvente)

GPU — el corazón

CPU — suficiente

RAM — no escatimes

4. Benchmarks reales de este build

¿Qué significa 30 tok/s en la práctica?

DeepSeek-R1: por qué es más lento

5. Alternativas por presupuesto

Opción de entrada estricta — RTX 4060 en lugar de RTX 3060

Opción de gama media — RTX 4060 Ti 16GB

Opción "ya tengo PC" — solo añadir GPU

6. Software: en marcha en 30 minutos

Sistema operativo: Ubuntu 24.04 LTS (recomendado)

Instalar drivers NVIDIA

Instalar Ollama

Primer modelo: Llama 3.1 8B

¿Prefieres interfaz gráfica?

7. FAQ

¿Necesito una GPU dedicada para correr IA local?

¿Puedo usar una GPU AMD para IA local?

¿Cuánta RAM del sistema (DDR5) necesito?

¿Es mejor comprar un PC de segunda mano?

8. Conclusión

¿Qué modelos correrás con tu build?

Componentes recomendados para PC de IA local

NVIDIA GeForce RTX 3060 12GB

NVIDIA GeForce RTX 4070 Super 12GB

NVIDIA GeForce RTX 4090 24GB

AMD Radeon RX 7800 XT 16GB

Fuentes