Cómo correr IA local sin GPU en 2026 — CPU y Apple Silicon

1. Inferencia CPU-only con Ollama

Ollama gestiona automáticamente la inferencia en CPU cuando no detecta GPU compatible. No requiere configuración extra — si no tienes GPU o tu GPU no es soportada, Ollama cae a CPU de forma transparente.

La velocidad real en CPU es 5 a 15 tokens/segundo en modelos 7B con un i7 o Ryzen 7 modernos. Es funcional para tareas no interactivas — análisis de texto, resúmenes, generación de código — pero notarás la diferencia en conversación en tiempo real comparado con GPU.

Hardware	Modelo 7B Q4	Modelo 13B Q4	Experiencia
CPU i7 / Ryzen 7 (16GB RAM)	5–10 tok/s	2–5 tok/s	Lento pero funcional
CPU i9 / Ryzen 9 (32GB RAM)	10–18 tok/s	5–10 tok/s	Aceptable para tareas batch
Apple M3 Pro (18GB unificada)	30–40 tok/s	18–25 tok/s	Excelente para uso diario
RTX 4070 Super (12GB VRAM)	75–90 tok/s	40–55 tok/s	Referencia GPU mid-range

Para instalar Ollama en Windows sin GPU sigue exactamente los mismos pasos que con GPU. Consulta nuestra guía de instalación de Ollama en Windows — el instalador detecta automáticamente si tienes GPU o no.

2. Apple Silicon: la mejor opción sin GPU dedicada

Los chips Apple M-series son la excepción a la regla "CPU es lento para IA". Su arquitectura de memoria unificada — donde CPU, GPU y Neural Engine comparten el mismo pool de RAM — les da un bandwidth muy superior al de CPUs x86 convencionales.

Ollama en macOS detecta automáticamente el hardware Apple Silicon y usa Metal (la API de aceleración de Apple) para inferencia. El resultado es velocidad comparable a GPUs entry-mid range de PC.

Chip Apple	Memoria	Modelos que caben	Velocidad 7B Q4
M3 / M4 (base)	8–16GB	Hasta 7B Q4	~25 tok/s
M3 Pro / M4 Pro	18–24GB	Hasta 13B Q4 cómodo	~35 tok/s
M3 Max / M4 Max	36–48GB	Hasta 32B Q4, 70B Q2	~45 tok/s
M2 Ultra / M3 Ultra	96–192GB	70B Q4 con holgura	~55 tok/s

Para profundizar en Apple Silicon para IA local, consulta nuestra guía de Apple Silicon para IA local con comparativas reales contra GPUs NVIDIA.

3. Requisitos de RAM por tamaño de modelo

En inferencia CPU-only, el modelo vive en RAM del sistema en lugar de VRAM. Necesitas suficiente RAM para el modelo completo más margen para el sistema operativo y contexto.

Modelo	RAM necesaria (Q4)	RAM recomendada
Modelos 3B–4B	4–6GB	8GB total
Modelos 7B–8B	6–8GB	16GB total
Modelos 13B–14B	10–12GB	24–32GB total
Modelos 30B–32B	20–24GB	48–64GB total

Regla práctica: Para inferencia CPU, necesitas al menos el doble de RAM que el tamaño del modelo en Q4. Un modelo de 5GB requiere 16GB RAM total para funcionar con comodidad — 8GB de sistema + 5GB para el modelo + 3GB de margen de contexto.

Para ver exactamente cuánta memoria necesita cada modelo, usa nuestra calculadora de VRAM — también funciona para inferencia CPU mostrando los requisitos de RAM. Profundiza sobre los requisitos de VRAM en nuestra guía ¿Cuánta VRAM necesito para IA local?

4. Cuándo necesitas sí o sí una GPU

CPU-only o Apple Silicon funcionan para explorar y hacer pruebas. Pero hay casos donde una GPU dedicada no es opcional:

› Uso en tiempo real: Conversación fluida requiere 30+ tok/s. CPU rara vez llega sin Apple Silicon.
› Fine-tuning: Entrenar o ajustar modelos en CPU es prácticamente inviable — una GPU NVIDIA con CUDA es imprescindible.
› Generación de imágenes: Stable Diffusion en CPU tarda 5–15 minutos por imagen. Con GPU: 3–15 segundos.
› Modelos 70B+: Requieren 40+ GB de capacidad. Solo viables con Apple Silicon Max/Ultra o GPU dedicada.

Los precios y disponibilidad pueden cambiar. Enlaces de afiliado.

Entrada 8 GB VRAM

RTX 4060

LLMs 7B, conversación 30+ tok/s, generación de imágenes básica

Consultar disponibilidad →

Intermedia 16 GB VRAM

RTX 4060 Ti 16GB

LLMs 13B–34B, SDXL, fine-tuning básico

Consultar disponibilidad →

Alta gama 24 GB VRAM

RTX 4090

LLMs 70B (Q4), Flux, fine-tuning completo

Consultar disponibilidad →

Si decides dar el salto a GPU dedicada, nuestra comparativa de mejores GPUs para IA local tiene benchmarks reales y recomendaciones por presupuesto.

Preguntas frecuentes

¿Cuánta RAM necesito para correr IA local sin GPU? ▾

Para modelos 7B en CPU necesitas mínimo 16GB de RAM del sistema. El modelo Q4 ocupa ~5GB y el resto se usa para el sistema, contexto y buffer de inferencia. Para modelos 13B, 32GB RAM o más.

¿Es Apple Silicon mejor que una GPU NVIDIA para IA local? ▾

Depende del presupuesto y uso. Un M4 Max (36GB, ~2.000€) es comparable a una RTX 4070 Ti (12GB, ~600€) en modelos que caben en VRAM. Para modelos grandes (70B), Apple Silicon gana por tener más memoria unificada disponible.

¿Puedo usar Ollama en modo CPU en Windows? ▾

Sí. Instala Ollama normalmente desde ollama.com/download — si no detecta GPU compatible, usa CPU automáticamente. No necesitas configuración extra para modo CPU.