Por el equipo editorial de RunAIatHome. Guías basadas en pruebas locales con hardware real.
Cómo correr IA local sin GPU en 2026
No necesitas una GPU dedicada para empezar con IA local. Con la CPU de tu PC o un Mac con Apple Silicon puedes correr modelos reales de lenguaje, aunque con limitaciones importantes de velocidad. Esta guía cubre las opciones reales, los requisitos de RAM y cuándo tiene sentido cada alternativa.
¿Se puede correr IA local sin GPU?
Sí. Ollama permite inferencia CPU-only en cualquier PC moderno. Un i7 con 16GB RAM puede correr modelos 7B a 5-10 tokens/segundo. Apple Silicon con memoria unificada es la opción CPU más potente: un M3 Pro con 18GB alcanza 30+ tok/s en modelos 7B.
1. Inferencia CPU-only con Ollama
Ollama gestiona automáticamente la inferencia en CPU cuando no detecta GPU compatible. No requiere configuración extra — si no tienes GPU o tu GPU no es soportada, Ollama cae a CPU de forma transparente.
La velocidad real en CPU es 5 a 15 tokens/segundo en modelos 7B con un i7 o Ryzen 7 modernos. Es funcional para tareas no interactivas — análisis de texto, resúmenes, generación de código — pero notarás la diferencia en conversación en tiempo real comparado con GPU.
| Hardware | Modelo 7B Q4 | Modelo 13B Q4 | Experiencia |
|---|---|---|---|
| CPU i7 / Ryzen 7 (16GB RAM) | 5–10 tok/s | 2–5 tok/s | Lento pero funcional |
| CPU i9 / Ryzen 9 (32GB RAM) | 10–18 tok/s | 5–10 tok/s | Aceptable para tareas batch |
| Apple M3 Pro (18GB unificada) | 30–40 tok/s | 18–25 tok/s | Excelente para uso diario |
| RTX 4070 Super (12GB VRAM) | 75–90 tok/s | 40–55 tok/s | Referencia GPU mid-range |
Para instalar Ollama en Windows sin GPU sigue exactamente los mismos pasos que con GPU. Consulta nuestra guía de instalación de Ollama en Windows — el instalador detecta automáticamente si tienes GPU o no.
2. Apple Silicon: la mejor opción sin GPU dedicada
Los chips Apple M-series son la excepción a la regla "CPU es lento para IA". Su arquitectura de memoria unificada — donde CPU, GPU y Neural Engine comparten el mismo pool de RAM — les da un bandwidth muy superior al de CPUs x86 convencionales.
Ollama en macOS detecta automáticamente el hardware Apple Silicon y usa Metal (la API de aceleración de Apple) para inferencia. El resultado es velocidad comparable a GPUs entry-mid range de PC.
| Chip Apple | Memoria | Modelos que caben | Velocidad 7B Q4 |
|---|---|---|---|
| M3 / M4 (base) | 8–16GB | Hasta 7B Q4 | ~25 tok/s |
| M3 Pro / M4 Pro | 18–24GB | Hasta 13B Q4 cómodo | ~35 tok/s |
| M3 Max / M4 Max | 36–48GB | Hasta 32B Q4, 70B Q2 | ~45 tok/s |
| M2 Ultra / M3 Ultra | 96–192GB | 70B Q4 con holgura | ~55 tok/s |
Para profundizar en Apple Silicon para IA local, consulta nuestra guía de Apple Silicon para IA local con comparativas reales contra GPUs NVIDIA.
3. Requisitos de RAM por tamaño de modelo
En inferencia CPU-only, el modelo vive en RAM del sistema en lugar de VRAM. Necesitas suficiente RAM para el modelo completo más margen para el sistema operativo y contexto.
| Modelo | RAM necesaria (Q4) | RAM recomendada |
|---|---|---|
| Modelos 3B–4B | 4–6GB | 8GB total |
| Modelos 7B–8B | 6–8GB | 16GB total |
| Modelos 13B–14B | 10–12GB | 24–32GB total |
| Modelos 30B–32B | 20–24GB | 48–64GB total |
Regla práctica: Para inferencia CPU, necesitas al menos el doble de RAM que el tamaño del modelo en Q4. Un modelo de 5GB requiere 16GB RAM total para funcionar con comodidad — 8GB de sistema + 5GB para el modelo + 3GB de margen de contexto.
Para ver exactamente cuánta memoria necesita cada modelo, usa nuestra calculadora de VRAM — también funciona para inferencia CPU mostrando los requisitos de RAM. Profundiza sobre los requisitos de VRAM en nuestra guía ¿Cuánta VRAM necesito para IA local?
4. Cuándo necesitas sí o sí una GPU
CPU-only o Apple Silicon funcionan para explorar y hacer pruebas. Pero hay casos donde una GPU dedicada no es opcional:
- › Uso en tiempo real: Conversación fluida requiere 30+ tok/s. CPU rara vez llega sin Apple Silicon.
- › Fine-tuning: Entrenar o ajustar modelos en CPU es prácticamente inviable — una GPU NVIDIA con CUDA es imprescindible.
- › Generación de imágenes: Stable Diffusion en CPU tarda 5–15 minutos por imagen. Con GPU: 3–15 segundos.
- › Modelos 70B+: Requieren 40+ GB de capacidad. Solo viables con Apple Silicon Max/Ultra o GPU dedicada.
Los precios y disponibilidad pueden cambiar. Enlaces de afiliado.
RTX 4060
LLMs 7B, conversación 30+ tok/s, generación de imágenes básica
RTX 4060 Ti 16GB
LLMs 13B–34B, SDXL, fine-tuning básico
Si decides dar el salto a GPU dedicada, nuestra comparativa de mejores GPUs para IA local tiene benchmarks reales y recomendaciones por presupuesto.
Preguntas frecuentes
¿Cuánta RAM necesito para correr IA local sin GPU? ▾
Para modelos 7B en CPU necesitas mínimo 16GB de RAM del sistema. El modelo Q4 ocupa ~5GB y el resto se usa para el sistema, contexto y buffer de inferencia. Para modelos 13B, 32GB RAM o más.
¿Es Apple Silicon mejor que una GPU NVIDIA para IA local? ▾
Depende del presupuesto y uso. Un M4 Max (36GB, ~2.000€) es comparable a una RTX 4070 Ti (12GB, ~600€) en modelos que caben en VRAM. Para modelos grandes (70B), Apple Silicon gana por tener más memoria unificada disponible.
¿Puedo usar Ollama en modo CPU en Windows? ▾
Sí. Instala Ollama normalmente desde ollama.com/download — si no detecta GPU compatible, usa CPU automáticamente. No necesitas configuración extra para modo CPU.