Skip to main content
Guía técnica 12 min de lectura ·

Por el equipo editorial de RunAIatHome. Guías basadas en pruebas locales con hardware real.

Cómo correr IA local sin GPU en 2026

No necesitas una GPU dedicada para empezar con IA local. Con la CPU de tu PC o un Mac con Apple Silicon puedes correr modelos reales de lenguaje, aunque con limitaciones importantes de velocidad. Esta guía cubre las opciones reales, los requisitos de RAM y cuándo tiene sentido cada alternativa.

¿Se puede correr IA local sin GPU?

Sí. Ollama permite inferencia CPU-only en cualquier PC moderno. Un i7 con 16GB RAM puede correr modelos 7B a 5-10 tokens/segundo. Apple Silicon con memoria unificada es la opción CPU más potente: un M3 Pro con 18GB alcanza 30+ tok/s en modelos 7B.

1. Inferencia CPU-only con Ollama

Ollama gestiona automáticamente la inferencia en CPU cuando no detecta GPU compatible. No requiere configuración extra — si no tienes GPU o tu GPU no es soportada, Ollama cae a CPU de forma transparente.

La velocidad real en CPU es 5 a 15 tokens/segundo en modelos 7B con un i7 o Ryzen 7 modernos. Es funcional para tareas no interactivas — análisis de texto, resúmenes, generación de código — pero notarás la diferencia en conversación en tiempo real comparado con GPU.

Hardware Modelo 7B Q4 Modelo 13B Q4 Experiencia
CPU i7 / Ryzen 7 (16GB RAM) 5–10 tok/s 2–5 tok/s Lento pero funcional
CPU i9 / Ryzen 9 (32GB RAM) 10–18 tok/s 5–10 tok/s Aceptable para tareas batch
Apple M3 Pro (18GB unificada) 30–40 tok/s 18–25 tok/s Excelente para uso diario
RTX 4070 Super (12GB VRAM) 75–90 tok/s 40–55 tok/s Referencia GPU mid-range

Para instalar Ollama en Windows sin GPU sigue exactamente los mismos pasos que con GPU. Consulta nuestra guía de instalación de Ollama en Windows — el instalador detecta automáticamente si tienes GPU o no.

2. Apple Silicon: la mejor opción sin GPU dedicada

Los chips Apple M-series son la excepción a la regla "CPU es lento para IA". Su arquitectura de memoria unificada — donde CPU, GPU y Neural Engine comparten el mismo pool de RAM — les da un bandwidth muy superior al de CPUs x86 convencionales.

Ollama en macOS detecta automáticamente el hardware Apple Silicon y usa Metal (la API de aceleración de Apple) para inferencia. El resultado es velocidad comparable a GPUs entry-mid range de PC.

Chip Apple Memoria Modelos que caben Velocidad 7B Q4
M3 / M4 (base) 8–16GB Hasta 7B Q4 ~25 tok/s
M3 Pro / M4 Pro 18–24GB Hasta 13B Q4 cómodo ~35 tok/s
M3 Max / M4 Max 36–48GB Hasta 32B Q4, 70B Q2 ~45 tok/s
M2 Ultra / M3 Ultra 96–192GB 70B Q4 con holgura ~55 tok/s

Para profundizar en Apple Silicon para IA local, consulta nuestra guía de Apple Silicon para IA local con comparativas reales contra GPUs NVIDIA.

3. Requisitos de RAM por tamaño de modelo

En inferencia CPU-only, el modelo vive en RAM del sistema en lugar de VRAM. Necesitas suficiente RAM para el modelo completo más margen para el sistema operativo y contexto.

Modelo RAM necesaria (Q4) RAM recomendada
Modelos 3B–4B 4–6GB 8GB total
Modelos 7B–8B 6–8GB 16GB total
Modelos 13B–14B 10–12GB 24–32GB total
Modelos 30B–32B 20–24GB 48–64GB total

Regla práctica: Para inferencia CPU, necesitas al menos el doble de RAM que el tamaño del modelo en Q4. Un modelo de 5GB requiere 16GB RAM total para funcionar con comodidad — 8GB de sistema + 5GB para el modelo + 3GB de margen de contexto.

Para ver exactamente cuánta memoria necesita cada modelo, usa nuestra calculadora de VRAM — también funciona para inferencia CPU mostrando los requisitos de RAM. Profundiza sobre los requisitos de VRAM en nuestra guía ¿Cuánta VRAM necesito para IA local?

4. Cuándo necesitas sí o sí una GPU

CPU-only o Apple Silicon funcionan para explorar y hacer pruebas. Pero hay casos donde una GPU dedicada no es opcional:

  • Uso en tiempo real: Conversación fluida requiere 30+ tok/s. CPU rara vez llega sin Apple Silicon.
  • Fine-tuning: Entrenar o ajustar modelos en CPU es prácticamente inviable — una GPU NVIDIA con CUDA es imprescindible.
  • Generación de imágenes: Stable Diffusion en CPU tarda 5–15 minutos por imagen. Con GPU: 3–15 segundos.
  • Modelos 70B+: Requieren 40+ GB de capacidad. Solo viables con Apple Silicon Max/Ultra o GPU dedicada.

Los precios y disponibilidad pueden cambiar. Enlaces de afiliado.

Entrada 8 GB VRAM

RTX 4060

LLMs 7B, conversación 30+ tok/s, generación de imágenes básica

Consultar disponibilidad →
Intermedia 16 GB VRAM

RTX 4060 Ti 16GB

LLMs 13B–34B, SDXL, fine-tuning básico

Consultar disponibilidad →
Alta gama 24 GB VRAM

RTX 4090

LLMs 70B (Q4), Flux, fine-tuning completo

Consultar disponibilidad →

Si decides dar el salto a GPU dedicada, nuestra comparativa de mejores GPUs para IA local tiene benchmarks reales y recomendaciones por presupuesto.

Preguntas frecuentes

¿Cuánta RAM necesito para correr IA local sin GPU?

Para modelos 7B en CPU necesitas mínimo 16GB de RAM del sistema. El modelo Q4 ocupa ~5GB y el resto se usa para el sistema, contexto y buffer de inferencia. Para modelos 13B, 32GB RAM o más.

¿Es Apple Silicon mejor que una GPU NVIDIA para IA local?

Depende del presupuesto y uso. Un M4 Max (36GB, ~2.000€) es comparable a una RTX 4070 Ti (12GB, ~600€) en modelos que caben en VRAM. Para modelos grandes (70B), Apple Silicon gana por tener más memoria unificada disponible.

¿Puedo usar Ollama en modo CPU en Windows?

Sí. Instala Ollama normalmente desde ollama.com/download — si no detecta GPU compatible, usa CPU automáticamente. No necesitas configuración extra para modo CPU.