Skip to main content
Guía técnica 12 min de lectura ·

Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.

Divulgación: Este artículo contiene enlaces de afiliado de Amazon. Si compras a través de ellos, recibimos una pequeña comisión sin coste adicional para ti.
Alex Chen AI Hardware Specialist
GitHub: github.com/javier-morales-ia

IA local sin GPU: corre LLMs solo con CPU en 2026

Tienes un laptop o PC sin GPU dedicada y quieres probar IA local. La buena noticia: phi-3-mini corre a 14 tok/s en un i7 normal, sin drivers de CUDA, sin GPU externa, sin coste extra. Esta guía te dice exactamente qué modelos corren bien en CPU, cuánta RAM necesitas y cómo configurar Ollama para exprimir cada MB/s de tu procesador.

1. ¿Por qué correr IA en CPU? Casos de uso reales

No todo el mundo tiene una RTX 3060 esperando en el cajón. La mayoría tiene un laptop de trabajo, un PC de ofimática, o simplemente no quiere gastar 200–400 € en hardware nuevo antes de saber si la IA local les sirve. Correr LLMs en CPU tiene sentido en estos escenarios concretos:

Cuándo tiene sentido el CPU

  • Laptop de trabajo sin GPU discreta (iGPU o Intel Iris)
  • Quieres probar IA antes de invertir en hardware
  • Tareas en background: resúmenes, generación de texto, código básico
  • Sin coste adicional de electricidad vs una GPU TDP 200W
  • Entorno sin acceso a internet — modelos edge privados

Cuándo necesitas una GPU

  • Conversación fluida con modelos 13B+
  • Generación de código en tiempo real
  • RAG con latencias menores a 2s
  • Varios usuarios simultáneos
  • Fine-tuning o entrenamiento (aunque sea pequeño)

La honestidad primero: CPU no es la solución ideal para IA local en términos de rendimiento puro. Pero es una solución real para muchos casos, y mejor que pagar 20 € al mes en APIs de OpenAI si solo necesitas un asistente local ocasional o automatizaciones simples. Usa la calculadora de VRAM para verificar si tu hardware aguanta el modelo que quieres antes de descargar nada.

2. Qué esperar — expectativas honestas

El bottleneck en inferencia LLM no es la potencia de cómputo — es el bandwidth de memoria. Para generar un token, el modelo tiene que leer todos sus pesos desde RAM. Un modelo de 4 GB de parámetros Q4 necesita mover 4 GB de datos por cada token generado. Con un i7 a 50 GB/s, eso se traduce en ~8 tok/s. Una RTX 3060 con 360 GB/s hace ese mismo trabajo ~7 veces más rápido.

CPU vs GPU — comparativa directa

Hardware Bandwidth phi-3-mini Llama 3.1 8B Coste extra
Core i5-12400 38 GB/s 11 tok/s 6 tok/s 0 €
Core i7-12700 50 GB/s 14 tok/s 7 tok/s 0 €
Ryzen 7 7700X 50 GB/s 14 tok/s 7 tok/s 0 €
RTX 3060 12GB 360 GB/s 75+ tok/s 30 tok/s ~250 €
RTX 4060 8GB 272 GB/s 55+ tok/s 22 tok/s ~300 €

Regla de usabilidad: ≥10 tok/s es conversación fluida. 7–9 tok/s es funcional pero pausado — como chatear con alguien que escribe lento pero responde bien. Por debajo de 5 tok/s, mejor lanzar tareas en batch y hacer otra cosa mientras.

3. Los mejores modelos para CPU

Benchmarks medidos en Intel Core i7-12700 (50 GB/s DDR4-3200, dual channel). Para i5: multiplica por ~0.70. Para i9 moderno: ~1.30. Para Ryzen 5: ~0.80. Para Ryzen 7: prácticamente igual al i7.

TOP PICK conversación

phi-3-mini

14 tok/s

2.2 GB RAM · Inteligente y eficiente · Microsoft

El mejor modelo pequeño para conversación. Sorprende con razonamiento muy por encima de su tamaño. Ideal para laptop con 8 GB RAM.

TOP PICK velocidad

llama-3.2:1b

52 tok/s

0.7 GB RAM · Ultra rápido · Meta

Responde tan rápido que parece streaming instantáneo. Calidad limitada para tareas complejas, pero perfecto para apps de autocompletado o CLI.

Tabla completa — todos los modelos CPU (benchmark i7)

Modelo RAM (Q4) tok/s (i7) Usabilidad Mejor para
llama-3.2:1b 0.7 GB 52 tok/s Fluido Apps, CLI tools
llama-3.2:3b 1.9 GB 18 tok/s Fluido Chat general, equilibrio
phi-3-mini 2.2 GB 14 tok/s Fluido Chat, razonamiento
gemma-3:4b 2.5 GB 16 tok/s Fluido Chat, instrucciones
qwen2.5-coder:7b 4.4 GB 9 tok/s Pausado Código — vale esperar
qwen2.5:7b 4.4 GB 8 tok/s Pausado Chat avanzado, límite práctico
mistral:7b 4.1 GB 8 tok/s Pausado Chat general, si tienes paciencia
phi-3-small 4.1 GB 8 tok/s Pausado Razonamiento equilibrado
codellama:7b 4.1 GB 8 tok/s Pausado Código legacy
deepseek-r1:8b 4.0 GB 8 tok/s Pausado Razonamiento batch
llama-3.1:8b 4.7 GB 7 tok/s Pausado Al límite — 16 GB RAM mínimo

Veredicto para CPU: el punto dulce es la franja 2–4 GB de RAM (phi-3-mini, llama-3.2-3b, gemma-3-4b). Velocidad fluida, calidad decente, y dejan RAM libre para el sistema. Los modelos 7B son funcionales pero costará la paciencia si los usas para conversación en tiempo real.

4. ¿Cuánta RAM necesitas?

En CPU la "VRAM" es tu RAM del sistema. La regla es simple: tamaño del modelo Q4 × 1.2 + ~2 GB para el OS. Un modelo de 4 GB en Q4 necesita ~7 GB totales (4 × 1.2 = 4.8 GB modelo + 2 GB OS). Usa la calculadora VRAM para cálculo exacto.

8 GB

Modelos recomendados: phi-3-mini, llama-3.2-3b, gemma-3-4b

Perfectos. Quedan ~3 GB libres para el OS. Experiencia fluida si dejas el navegador con pocas pestañas.

16 GB

Modelos recomendados: cualquier modelo hasta 7B/8B

Sweet spot. Puedes correr mistral:7b o llama-3.1:8b con margen cómodo para Chrome, VS Code y el modelo activo simultáneamente.

32 GB

Modelos recomendados: hasta 13B en CPU

Puedes intentar modelos de 13B (~8 GB en Q4). Velocidad ~4 tok/s — útil para batch, no para chat. Si llegas aquí, considera mejor una GPU de segunda mano.

Nunca uses swap para inferencia. Si el modelo no cabe en RAM y el OS empieza a swappear, la velocidad cae de 8 tok/s a menos de 1 tok/s — literalmente más lento que leer el texto tú mismo. Si tu sistema empieza a paginar, reduce el modelo o cierra aplicaciones.

5. Cómo instalar y correr modelos

Ollama es la opción recomendada para CPU: un solo binario, cero configuración, detecta automáticamente si tienes GPU o no. Si no hay GPU compatible, usa CPU sin que tengas que hacer nada.

Instalación en Linux/macOS

# Instalar Ollama (Linux y macOS)

curl -fsSL https://ollama.com/install.sh | sh

# Modelo ultra-rápido CPU (52 tok/s en i7)

ollama run llama3.2:1b

# Mejor equilibrio calidad/velocidad (14 tok/s)

ollama run phi3:mini

# Verificar que usa CPU (sin GPU detectada = CPU automático)

ollama run phi3:mini --verbose

# Forzar CPU aunque tengas GPU débil (ej: GPU con 4 GB VRAM)

OLLAMA_NUM_GPU=0 ollama run phi3:mini

Instalación en Windows

Descarga el instalador desde ollama.com, ejecútalo, y usa PowerShell: ollama run phi3:mini. Mismo resultado, sin configuración adicional para CPU.

Alternativa: LM Studio (GUI)

Si prefieres interfaz gráfica, LM Studio también soporta inferencia en CPU. Descarga el modelo desde su interfaz, activa "CPU Mode" en configuración. La velocidad es comparable a Ollama para CPU (mismo backend llama.cpp). Útil si quieres comparar modelos sin tocar terminal.

6. Configuración Ollama para maximizar velocidad CPU

Ollama usa llama.cpp bajo el capó, que ya tiene buenas optimizaciones para CPU. Pero hay variables de entorno que marcan diferencia real:

# Hilos CPU — dejar 2 libres para el OS (ej: i7 con 12 hilos → 10)

OLLAMA_NUM_THREAD=10 ollama run phi3:mini

# Para sesión persistente (añadir a ~/.bashrc o ~/.zshrc)

export OLLAMA_NUM_THREAD=10

# Verificar cuántos hilos tiene tu CPU

nproc # Linux/macOS

Configuración recomendada por escenario

Cuantización Usa Q4_K_M en CPU. Es el mejor balance velocidad/calidad: ~20% más rápido que Q5 con pérdida de calidad mínima. Q8 no merece la pena en CPU — duplica el tamaño y el tiempo por token.
Flash Attention Activado por defecto en Ollama. Mejora ~10% en velocidad y reduce el uso de memoria. No lo desactives.
Context size Reduce a 2048 si vas a hacer conversaciones cortas: ollama run phi3:mini --ctx 2048. El context se carga en RAM y un context de 4096 usa el doble que uno de 2048.

7. Benchmarks por modelo de CPU

La velocidad de inferencia en CPU está determinada casi exclusivamente por el bandwidth de memoria. Si conoces el bandwidth de tu CPU (o puedes buscarlo), puedes estimar tus tok/s con la fórmula: tok/s ≈ bandwidth_GB/s ÷ tamaño_modelo_GB.

Velocidad estimada por CPU (tok/s con Q4_K_M)

CPU Bandwidth llama-3.2-3b phi-3-mini mistral-7b
Core i5-12400 38 GB/s 14 tok/s 11 tok/s 6 tok/s
Core i7-12700 50 GB/s 18 tok/s 14 tok/s 8 tok/s
Core i9-13900 65 GB/s 24 tok/s 18 tok/s 10 tok/s
Ryzen 5 7600 40 GB/s 15 tok/s 11 tok/s 6 tok/s
Ryzen 7 7700X 50 GB/s 18 tok/s 14 tok/s 8 tok/s
Apple M2 Pro 200 GB/s ~65 tok/s ~45 tok/s ~28 tok/s

* Apple M-series se incluye como referencia — ver artículo completo Mac AI. Su arquitectura de memoria unificada lo pone en otra liga.

La diferencia entre Intel y AMD en igualdad de bandwidth es mínima (<5%). Lo que realmente distingue rendimiento CPU para IA es DDR4 vs DDR5 y la frecuencia del módulo. DDR5-4800 da ~75 GB/s en dual channel, vs ~50 GB/s del DDR4-3200 — casi 50% de mejora en tok/s solo por generación de RAM.

8. ¿Vale la pena comprar una GPU?

La GPU cambia completamente la ecuación. Una RTX 3060 de segunda mano (~250 €) hace que mistral:7b pase de 8 tok/s a 30 tok/s — conversación completamente fluida. Y con 12 GB de VRAM tienes margen para modelos de 13B en Q4.

Ya tienes laptop/PC

Empieza con CPU

Prueba si la IA local te aporta valor antes de invertir

Usas IA >2h/semana

GPU ≥8 GB VRAM

La diferencia justifica la inversión rápido

Quieres 70B o fine-tuning

GPU ≥24 GB VRAM

RTX 3090 usada o RTX 4090 nueva

Usa el comparador de GPUs para ver exactamente cuántos tok/s gana tu modelo favorito con cada GPU y calcular si el salto merece la inversión. Y si no sabes qué GPU comprar para IA local, esta guía tiene la respuesta por presupuesto.

9. FAQ

¿Cuánta RAM necesito para correr LLMs en CPU?

La regla práctica es multiplicar el tamaño del modelo Q4 por 1.2 y añadir ~2 GB para el sistema operativo. Con 8 GB de RAM puedes correr phi-3-mini (2.2 GB) o llama-3.2-3b (1.9 GB) perfectamente. Con 16 GB, cualquier modelo hasta 7B tiene margen suficiente. Con 32 GB puedes intentar modelos de 13B en CPU, aunque la velocidad será baja (~4 tok/s). Nunca uses swap para inferencia — la penalización de velocidad es brutal.

¿Qué es más lento, CPU o GPU, para IA local?

La GPU es entre 4x y 20x más rápida para inferencia LLM. Una RTX 3060 con 12 GB hace 30 tok/s con Llama 3.1 8B Q4, mientras que un i7-12700 hace 7 tok/s con el mismo modelo. La diferencia es el bandwidth de memoria: una GPU moderna tiene 360–1000 GB/s frente a los 38–65 GB/s de una CPU consumer. Para modelos pequeños (1B–3B) la diferencia es menor porque los modelos caben enteramente en cache L3 de la CPU.

¿Puedo usar RAM de laptop (LPDDR5) para IA en CPU?

Sí, y LPDDR5 es mejor que DDR4 estándar para inferencia. LPDDR5 ofrece ~68 GB/s de bandwidth frente a los ~50 GB/s del DDR4-3200 de escritorio. Esto significa que un laptop con i7 y LPDDR5 puede ser un 15-20% más rápido que un PC de escritorio con i7 y DDR4 estándar para inferencia LLM. El Apple M-series lleva esto al extremo con 200–273 GB/s en su memoria unificada LPDDR5X.

¿Vale más Ryzen o Intel para inferencia LLM en CPU?

En igualdad de bandwidth de memoria, son prácticamente equivalentes. Un Ryzen 7 7700X y un Core i7-12700 tienen ambos ~50 GB/s y dan resultados casi idénticos en benchmarks LLM. Lo que realmente diferencia rendimiento CPU para IA es la generación de RAM (DDR4 vs DDR5) y la velocidad del módulo — no la marca del procesador. Los Ryzen 9 7900X/7950X con DDR5 pueden superar a i7 equivalente simplemente por el mayor bandwidth de memoria.

Hardware recomendado para IA en CPU

Si corres IA en CPU, la RAM y el bandwidth de memoria son los factores clave. Si te planteas dar el salto a GPU, aquí las opciones con mejor valor:

DDR5 32GB (2x16GB)

Más bandwidth = más tok/s en CPU

Ver precio en Amazon

RTX 3060 12GB

El salto de CPU a GPU: 4x velocidad

Ver precio en Amazon

Ryzen 7 7700X

Buen CPU para inferencia con DDR5

Ver precio en Amazon

Cuando sí quieras GPU: opciones económicas

GPUs verificadas para dar el salto de CPU a GPU sin gastar de más — actualizado en 2026.

RTX 3060 12GB

€269

budget Amazon Prime

RTX 3060 12GB

4.8 (1,400 reviews)

Pros

  • La GPU de entrada por excelencia para IA
  • 12 GB VRAM multiplica por 4 la velocidad vs CPU
  • Enorme comunidad y soporte en Linux/Windows

Cons

  • Requiere alimentación PCIe adicional
Ver en Amazon
RTX 4060 8GB

€299

budget Amazon Prime

RTX 4060 8GB

4.6 (1,100 reviews)

Pros

  • Ada Lovelace: eficiente por watt
  • Perfecto para modelos 7B-8B
  • Bajo consumo: solo 115W

Cons

  • 8 GB VRAM limita modelos grandes
Ver en Amazon
Product image

€249

budget Amazon Prime

Intel Arc B580 12GB

4.2 (180 reviews)

Pros

  • 12 GB VRAM al precio más bajo del mercado
  • Bajo consumo energético
  • Soporte Ollama vía Vulkan

Cons

  • Soporte software en maduración
Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

10. Conclusión

Correr IA local en CPU en 2026 es una opción real, no un experimento de laboratorio. Con phi-3-mini a 14 tok/s en un i7 normal tienes un asistente de conversación fluido, privado y sin costes de API. Con llama-3.2-3b a 18 tok/s tienes equilibrio calidad/velocidad perfecto para 8 GB de RAM.

El límite práctico son los modelos 7B–8B: funcionales a 7-9 tok/s, pero si los vas a usar más de una hora al día, la GPU empieza a tener ROI claro. Una RTX 3060 de segunda mano a 250 € multiplicará tu velocidad por 4 y desbloqueará modelos que en CPU no son viables.

Antes de gastar en hardware, prueba. Instala Ollama, descarga phi-3-mini, y comprueba si la velocidad te vale para lo que necesitas. Solo después decide si la GPU tiene sentido para tu caso de uso.

¿Quieres saber exactamente qué modelos caben en tu RAM?

Calculadora VRAM →

Introduce tu hardware, ve qué modelos puedes correr en CPU o GPU

Fuentes

RTX 3060 12GB — Primer paso

Ver mejor precio