IA local sin GPU: corre LLMs con CPU

1. ¿Por qué correr IA en CPU? Casos de uso reales

No todo el mundo tiene una RTX 3060 esperando en el cajón. La mayoría tiene un laptop de trabajo, un PC de ofimática, o simplemente no quiere gastar 200–400 € en hardware nuevo antes de saber si la IA local les sirve. Correr LLMs en CPU tiene sentido en estos escenarios concretos:

Cuándo tiene sentido el CPU

• Laptop de trabajo sin GPU discreta (iGPU o Intel Iris)
• Quieres probar IA antes de invertir en hardware
• Tareas en background: resúmenes, generación de texto, código básico
• Sin coste adicional de electricidad vs una GPU TDP 200W
• Entorno sin acceso a internet — modelos edge privados

Cuándo necesitas una GPU

• Conversación fluida con modelos 13B+
• Generación de código en tiempo real
• RAG con latencias menores a 2s
• Varios usuarios simultáneos
• Fine-tuning o entrenamiento (aunque sea pequeño)

La honestidad primero: CPU no es la solución ideal para IA local en términos de rendimiento puro. Pero es una solución real para muchos casos, y mejor que pagar 20 € al mes en APIs de OpenAI si solo necesitas un asistente local ocasional o automatizaciones simples. Usa la calculadora de VRAM para verificar si tu hardware aguanta el modelo que quieres antes de descargar nada.

2. Qué esperar — expectativas honestas

El bottleneck en inferencia LLM no es la potencia de cómputo — es el bandwidth de memoria. Para generar un token, el modelo tiene que leer todos sus pesos desde RAM. Un modelo de 4 GB de parámetros Q4 necesita mover 4 GB de datos por cada token generado. Con un i7 a 50 GB/s, eso se traduce en ~8 tok/s. Una RTX 3060 con 360 GB/s hace ese mismo trabajo ~7 veces más rápido.

CPU vs GPU — comparativa directa

Hardware	Bandwidth	phi-3-mini	Llama 3.1 8B	Coste extra
Core i5-12400	38 GB/s	11 tok/s	6 tok/s	0 €
Core i7-12700	50 GB/s	14 tok/s	7 tok/s	0 €
Ryzen 7 7700X	50 GB/s	14 tok/s	7 tok/s	0 €
RTX 3060 12GB	360 GB/s	75+ tok/s	30 tok/s	~250 €
RTX 4060 8GB	272 GB/s	55+ tok/s	22 tok/s	~300 €

Regla de usabilidad: ≥10 tok/s es conversación fluida. 7–9 tok/s es funcional pero pausado — como chatear con alguien que escribe lento pero responde bien. Por debajo de 5 tok/s, mejor lanzar tareas en batch y hacer otra cosa mientras.

3. Los mejores modelos para CPU

Benchmarks medidos en Intel Core i7-12700 (50 GB/s DDR4-3200, dual channel). Para i5: multiplica por ~0.70. Para i9 moderno: ~1.30. Para Ryzen 5: ~0.80. Para Ryzen 7: prácticamente igual al i7.

TOP PICK conversación

phi-3-mini

14 tok/s

2.2 GB RAM · Inteligente y eficiente · Microsoft

El mejor modelo pequeño para conversación. Sorprende con razonamiento muy por encima de su tamaño. Ideal para laptop con 8 GB RAM.

TOP PICK velocidad

llama-3.2:1b

52 tok/s

0.7 GB RAM · Ultra rápido · Meta

Responde tan rápido que parece streaming instantáneo. Calidad limitada para tareas complejas, pero perfecto para apps de autocompletado o CLI.

Tabla completa — todos los modelos CPU (benchmark i7)

Modelo	RAM (Q4)	tok/s (i7)	Usabilidad	Mejor para
llama-3.2:1b	0.7 GB	52 tok/s	● Fluido	Apps, CLI tools
llama-3.2:3b	1.9 GB	18 tok/s	● Fluido	Chat general, equilibrio
phi-3-mini	2.2 GB	14 tok/s	● Fluido	Chat, razonamiento
gemma-3:4b	2.5 GB	16 tok/s	● Fluido	Chat, instrucciones
qwen2.5-coder:7b	4.4 GB	9 tok/s	● Pausado	Código — vale esperar
qwen2.5:7b	4.4 GB	8 tok/s	● Pausado	Chat avanzado, límite práctico
mistral:7b	4.1 GB	8 tok/s	● Pausado	Chat general, si tienes paciencia
phi-3-small	4.1 GB	8 tok/s	● Pausado	Razonamiento equilibrado
codellama:7b	4.1 GB	8 tok/s	● Pausado	Código legacy
deepseek-r1:8b	4.0 GB	8 tok/s	● Pausado	Razonamiento batch
llama-3.1:8b	4.7 GB	7 tok/s	● Pausado	Al límite — 16 GB RAM mínimo

Veredicto para CPU: el punto dulce es la franja 2–4 GB de RAM (phi-3-mini, llama-3.2-3b, gemma-3-4b). Velocidad fluida, calidad decente, y dejan RAM libre para el sistema. Los modelos 7B son funcionales pero costará la paciencia si los usas para conversación en tiempo real.

4. ¿Cuánta RAM necesitas?

En CPU la "VRAM" es tu RAM del sistema. La regla es simple: tamaño del modelo Q4 × 1.2 + ~2 GB para el OS. Un modelo de 4 GB en Q4 necesita ~7 GB totales (4 × 1.2 = 4.8 GB modelo + 2 GB OS). Usa la calculadora VRAM para cálculo exacto.

8 GB

Modelos recomendados: phi-3-mini, llama-3.2-3b, gemma-3-4b

Perfectos. Quedan ~3 GB libres para el OS. Experiencia fluida si dejas el navegador con pocas pestañas.

16 GB

Modelos recomendados: cualquier modelo hasta 7B/8B

Sweet spot. Puedes correr mistral:7b o llama-3.1:8b con margen cómodo para Chrome, VS Code y el modelo activo simultáneamente.

32 GB

Modelos recomendados: hasta 13B en CPU

Puedes intentar modelos de 13B (~8 GB en Q4). Velocidad ~4 tok/s — útil para batch, no para chat. Si llegas aquí, considera mejor una GPU de segunda mano.

Nunca uses swap para inferencia. Si el modelo no cabe en RAM y el OS empieza a swappear, la velocidad cae de 8 tok/s a menos de 1 tok/s — literalmente más lento que leer el texto tú mismo. Si tu sistema empieza a paginar, reduce el modelo o cierra aplicaciones.

5. Cómo instalar y correr modelos

Ollama es la opción recomendada para CPU: un solo binario, cero configuración, detecta automáticamente si tienes GPU o no. Si no hay GPU compatible, usa CPU sin que tengas que hacer nada.

Instalación en Linux/macOS

# Instalar Ollama (Linux y macOS)

curl -fsSL https://ollama.com/install.sh | sh

# Modelo ultra-rápido CPU (52 tok/s en i7)

ollama run llama3.2:1b

# Mejor equilibrio calidad/velocidad (14 tok/s)

ollama run phi3:mini

# Verificar que usa CPU (sin GPU detectada = CPU automático)

ollama run phi3:mini --verbose

# Forzar CPU aunque tengas GPU débil (ej: GPU con 4 GB VRAM)

OLLAMA_NUM_GPU=0 ollama run phi3:mini

Instalación en Windows

Descarga el instalador desde ollama.com, ejecútalo, y usa PowerShell: ollama run phi3:mini. Mismo resultado, sin configuración adicional para CPU.

Alternativa: LM Studio (GUI)

Si prefieres interfaz gráfica, LM Studio también soporta inferencia en CPU. Descarga el modelo desde su interfaz, activa "CPU Mode" en configuración. La velocidad es comparable a Ollama para CPU (mismo backend llama.cpp). Útil si quieres comparar modelos sin tocar terminal.

6. Configuración Ollama para maximizar velocidad CPU

Ollama usa llama.cpp bajo el capó, que ya tiene buenas optimizaciones para CPU. Pero hay variables de entorno que marcan diferencia real:

# Hilos CPU — dejar 2 libres para el OS (ej: i7 con 12 hilos → 10)

OLLAMA_NUM_THREAD=10 ollama run phi3:mini

# Para sesión persistente (añadir a ~/.bashrc o ~/.zshrc)

export OLLAMA_NUM_THREAD=10

# Verificar cuántos hilos tiene tu CPU

nproc # Linux/macOS

Configuración recomendada por escenario

Cuantización Usa Q4_K_M en CPU. Es el mejor balance velocidad/calidad: ~20% más rápido que Q5 con pérdida de calidad mínima. Q8 no merece la pena en CPU — duplica el tamaño y el tiempo por token.

Flash Attention Activado por defecto en Ollama. Mejora ~10% en velocidad y reduce el uso de memoria. No lo desactives.

Context size Reduce a 2048 si vas a hacer conversaciones cortas: ollama run phi3:mini --ctx 2048. El context se carga en RAM y un context de 4096 usa el doble que uno de 2048.

7. Benchmarks por modelo de CPU

La velocidad de inferencia en CPU está determinada casi exclusivamente por el bandwidth de memoria. Si conoces el bandwidth de tu CPU (o puedes buscarlo), puedes estimar tus tok/s con la fórmula: tok/s ≈ bandwidth_GB/s ÷ tamaño_modelo_GB.

Velocidad estimada por CPU (tok/s con Q4_K_M)

CPU	Bandwidth	llama-3.2-3b	phi-3-mini	mistral-7b
Core i5-12400	38 GB/s	14 tok/s	11 tok/s	6 tok/s
Core i7-12700	50 GB/s	18 tok/s	14 tok/s	8 tok/s
Core i9-13900	65 GB/s	24 tok/s	18 tok/s	10 tok/s
Ryzen 5 7600	40 GB/s	15 tok/s	11 tok/s	6 tok/s
Ryzen 7 7700X	50 GB/s	18 tok/s	14 tok/s	8 tok/s
Apple M2 Pro	200 GB/s	~65 tok/s	~45 tok/s	~28 tok/s

* Apple M-series se incluye como referencia — ver artículo completo Mac AI. Su arquitectura de memoria unificada lo pone en otra liga.

La diferencia entre Intel y AMD en igualdad de bandwidth es mínima (<5%). Lo que realmente distingue rendimiento CPU para IA es DDR4 vs DDR5 y la frecuencia del módulo. DDR5-4800 da ~75 GB/s en dual channel, vs ~50 GB/s del DDR4-3200 — casi 50% de mejora en tok/s solo por generación de RAM.

8. ¿Vale la pena comprar una GPU?

La GPU cambia completamente la ecuación. Una RTX 3060 de segunda mano (~250 €) hace que mistral:7b pase de 8 tok/s a 30 tok/s — conversación completamente fluida. Y con 12 GB de VRAM tienes margen para modelos de 13B en Q4.

Ya tienes laptop/PC

Empieza con CPU

Prueba si la IA local te aporta valor antes de invertir

Usas IA >2h/semana

GPU ≥8 GB VRAM

La diferencia justifica la inversión rápido

Quieres 70B o fine-tuning

GPU ≥24 GB VRAM

RTX 3090 usada o RTX 4090 nueva

Usa el comparador de GPUs para ver exactamente cuántos tok/s gana tu modelo favorito con cada GPU y calcular si el salto merece la inversión. Y si no sabes qué GPU comprar para IA local, esta guía tiene la respuesta por presupuesto.

9. FAQ

¿Cuánta RAM necesito para correr LLMs en CPU? ⌄

La regla práctica es multiplicar el tamaño del modelo Q4 por 1.2 y añadir ~2 GB para el sistema operativo. Con 8 GB de RAM puedes correr phi-3-mini (2.2 GB) o llama-3.2-3b (1.9 GB) perfectamente. Con 16 GB, cualquier modelo hasta 7B tiene margen suficiente. Con 32 GB puedes intentar modelos de 13B en CPU, aunque la velocidad será baja (~4 tok/s). Nunca uses swap para inferencia — la penalización de velocidad es brutal.

¿Qué es más lento, CPU o GPU, para IA local? ⌄

La GPU es entre 4x y 20x más rápida para inferencia LLM. Una RTX 3060 con 12 GB hace 30 tok/s con Llama 3.1 8B Q4, mientras que un i7-12700 hace 7 tok/s con el mismo modelo. La diferencia es el bandwidth de memoria: una GPU moderna tiene 360–1000 GB/s frente a los 38–65 GB/s de una CPU consumer. Para modelos pequeños (1B–3B) la diferencia es menor porque los modelos caben enteramente en cache L3 de la CPU.

¿Puedo usar RAM de laptop (LPDDR5) para IA en CPU? ⌄

Sí, y LPDDR5 es mejor que DDR4 estándar para inferencia. LPDDR5 ofrece ~68 GB/s de bandwidth frente a los ~50 GB/s del DDR4-3200 de escritorio. Esto significa que un laptop con i7 y LPDDR5 puede ser un 15-20% más rápido que un PC de escritorio con i7 y DDR4 estándar para inferencia LLM. El Apple M-series lleva esto al extremo con 200–273 GB/s en su memoria unificada LPDDR5X.

¿Vale más Ryzen o Intel para inferencia LLM en CPU? ⌄

En igualdad de bandwidth de memoria, son prácticamente equivalentes. Un Ryzen 7 7700X y un Core i7-12700 tienen ambos ~50 GB/s y dan resultados casi idénticos en benchmarks LLM. Lo que realmente diferencia rendimiento CPU para IA es la generación de RAM (DDR4 vs DDR5) y la velocidad del módulo — no la marca del procesador. Los Ryzen 9 7900X/7950X con DDR5 pueden superar a i7 equivalente simplemente por el mayor bandwidth de memoria.

Hardware recomendado para IA en CPU

Si corres IA en CPU, la RAM y el bandwidth de memoria son los factores clave. Si te planteas dar el salto a GPU, aquí las opciones con mejor valor:

DDR5 32GB (2x16GB)

Más bandwidth = más tok/s en CPU

Ver precio en Amazon

RTX 3060 12GB

El salto de CPU a GPU: 4x velocidad

Ver precio en Amazon

Ryzen 7 7700X

Buen CPU para inferencia con DDR5

Ver precio en Amazon

Cuando sí quieras GPU: opciones económicas

GPUs verificadas para dar el salto de CPU a GPU sin gastar de más — actualizado en 2026.

€269

budget Amazon Prime

RTX 3060 12GB

4.8 (1,400 reviews)

Pros

La GPU de entrada por excelencia para IA
12 GB VRAM multiplica por 4 la velocidad vs CPU
Enorme comunidad y soporte en Linux/Windows

Cons

Requiere alimentación PCIe adicional

Ver en Amazon

€299

budget Amazon Prime

RTX 4060 8GB

4.6 (1,100 reviews)

Pros

Ada Lovelace: eficiente por watt
Perfecto para modelos 7B-8B
Bajo consumo: solo 115W

Cons

8 GB VRAM limita modelos grandes

Ver en Amazon

Product image

€249

budget Amazon Prime

Intel Arc B580 12GB

4.2 (180 reviews)

Pros

12 GB VRAM al precio más bajo del mercado
Bajo consumo energético
Soporte Ollama vía Vulkan

Cons

Soporte software en maduración

Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

10. Conclusión

Correr IA local en CPU en 2026 es una opción real, no un experimento de laboratorio. Con phi-3-mini a 14 tok/s en un i7 normal tienes un asistente de conversación fluido, privado y sin costes de API. Con llama-3.2-3b a 18 tok/s tienes equilibrio calidad/velocidad perfecto para 8 GB de RAM.

El límite práctico son los modelos 7B–8B: funcionales a 7-9 tok/s, pero si los vas a usar más de una hora al día, la GPU empieza a tener ROI claro. Una RTX 3060 de segunda mano a 250 € multiplicará tu velocidad por 4 y desbloqueará modelos que en CPU no son viables.

Antes de gastar en hardware, prueba. Instala Ollama, descarga phi-3-mini, y comprueba si la velocidad te vale para lo que necesitas. Solo después decide si la GPU tiene sentido para tu caso de uso.

¿Quieres saber exactamente qué modelos caben en tu RAM?

Calculadora VRAM →

Introduce tu hardware, ve qué modelos puedes correr en CPU o GPU

IA local sin GPU: corre LLMs solo con CPU en 2026

1. ¿Por qué correr IA en CPU? Casos de uso reales

Cuándo tiene sentido el CPU

Cuándo necesitas una GPU

2. Qué esperar — expectativas honestas

CPU vs GPU — comparativa directa

3. Los mejores modelos para CPU

phi-3-mini

llama-3.2:1b

Tabla completa — todos los modelos CPU (benchmark i7)

4. ¿Cuánta RAM necesitas?

5. Cómo instalar y correr modelos

Instalación en Linux/macOS

Instalación en Windows

Alternativa: LM Studio (GUI)

6. Configuración Ollama para maximizar velocidad CPU

Configuración recomendada por escenario

7. Benchmarks por modelo de CPU

Velocidad estimada por CPU (tok/s con Q4_K_M)

8. ¿Vale la pena comprar una GPU?

9. FAQ

Hardware recomendado para IA en CPU

DDR5 32GB (2x16GB)

RTX 3060 12GB

Ryzen 7 7700X

Cuando sí quieras GPU: opciones económicas

RTX 3060 12GB

RTX 4060 8GB

Intel Arc B580 12GB

10. Conclusión

Fuentes