Skip to main content
Guía técnica 15 min de lectura ·

Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.

Divulgación: Este artículo contiene enlaces de afiliado de Amazon. Si compras a través de ellos, recibimos una pequeña comisión sin coste adicional para ti.
Alex Chen AI Hardware Specialist
GitHub: github.com/javier-morales-ia

IA local en Mac con Apple Silicon: qué modelos puedes correr (M2, M3, M4)

Los Macs con Apple Silicon son los mejores ordenadores del mundo para IA local fuera de una workstation con GPU dedicada. La razón: memoria unificada. Un M4 Pro con 24 GB puede correr Llama 3.1 8B a 45 tok/s sin una sola GPU externa. Sin calentamiento extremo, sin ruido, sin drivers. Esta guía te dice exactamente qué modelos puedes correr según tu chip.

Si tienes un Mac reciente con Apple Silicon, ya tienes una máquina de IA. No necesitas una RTX 4090 ni una workstation de $5.000. La clave es la arquitectura de memoria unificada: CPU, GPU y Neural Engine comparten el mismo pool de RAM de alta velocidad, lo que significa que el modelo carga entero en "VRAM" sin las limitaciones artificiales de una GPU discreta. Un M4 Pro con 24 GB supera en velocidad de inferencia a una RTX 3060 con 12 GB, y todo integrado en un portátil silencioso. Usa nuestra calculadora de VRAM para verificar exactamente qué modelos caben en tu chip antes de descargar nada.

1. ¿Por qué Apple Silicon es especial para IA local?

La diferencia fundamental entre un Mac con Apple Silicon y un PC con GPU discreta está en cómo se gestiona la memoria. En un PC, la VRAM de la GPU está físicamente separada de la RAM del sistema — si el modelo no cabe en los 12 GB de tu RTX 3060, empieza a hacer offloading a RAM del sistema, y la velocidad colapsa a 2–4 tok/s. En Apple Silicon no existe esa separación: toda la memoria es accesible directamente por CPU, GPU y Neural Engine al mismo bandwidth.

Ventajas de Apple Silicon para IA

  • Modelo carga entero en memoria — sin offloading degradado
  • Ollama detecta Metal automáticamente — cero configuración
  • Sin drivers de CUDA ni dependencias
  • Consumo muy bajo (10–30W en inferencia)
  • Neural Engine acelera operaciones de matrix

Limitaciones a tener en cuenta

  • No hay CUDA — sin entrenamiento con PyTorch nativo
  • 8 GB base insuficientes para modelos útiles
  • Memoria no ampliable (soldada en placa)
  • Precio por GB de memoria superior a PC

Bandwidth de memoria — la métrica clave para inferencia LLM

Chip Memoria Bandwidth Tipo
M2 Pro 16 GB 200 GB/s Unified Memory
M3 Pro 18 GB 150 GB/s Unified Memory
M4 Pro 24 GB 273 GB/s Unified Memory
M4 Max 36GB 36 GB 400 GB/s Unified Memory
M4 Max 48GB 48 GB 400 GB/s Unified Memory
M4 Ultra 128 GB 800 GB/s Unified Memory
M3 Ultra 192 GB 800 GB/s Unified Memory

Dato clave: Una RTX 3060 tiene 360 GB/s de bandwidth pero solo 12 GB de VRAM. El M4 Pro tiene 273 GB/s con 24 GB accesibles. Para inferencia de LLMs, el bandwidth es lo que manda — no los TFLOPS.

Atención — MacBook Air 8 GB: El MacBook Air base con 8 GB de memoria unificada solo puede correr modelos muy pequeños (Phi-3 Mini, Llama 3.2 3B). La experiencia con modelos 7B o superiores es muy lenta o directamente imposible. Para IA local necesitas 16 GB mínimo.

2. Tabla — ¿Qué puedes correr según tu Mac?

La tabla de abajo resume qué modelos caben en cada configuración de Mac. Para calcular exactamente cuánta memoria necesita un modelo específico, usa nuestra calculadora de VRAM.

Mac Chip Memoria Modelos recomendados
MacBook Air M2/M3 base M2/M3 8 GB Solo Phi-3 Mini, Llama 3.2 3B
MacBook Pro M2 Pro M2 Pro 16 GB Llama 3.1 8B Q4, Mistral 7B Q4, DeepSeek R1 Distill 8B
MacBook Pro M3 Pro M3 Pro 18 GB Igual que M2 Pro + algo más de margen para 13B
MacBook Pro M4 Pro M4 Pro 24 GB Llama 3.1 8B Q8, modelos 13B Q4 cómodo, Phi-3 Small
MacBook Pro M4 Max 36GB M4 Max 36 GB Modelos 13–30B cómodos
MacBook Pro M4 Max 48GB M4 Max 48 GB Llama 3.1 70B Q4 (justo, ~8 tok/s)
Mac Studio / Mac Pro M4 Ultra M4 Ultra 128 GB Llama 3.1 70B Q8, DeepSeek R1 671B Q4

Sweet spot: M4 Pro con 24 GB

El M4 Pro con 24 GB es donde el precio y las capacidades se cruzan de forma óptima para la mayoría. Corre Llama 3.1 8B a 45 tok/s (respuesta completamente fluida), tiene margen para modelos 13B en Q4 (22 tok/s), y el salto al siguiente tier (M4 Max 36GB) exige un extra visible para un caso de uso más especializado. Si no sabes qué configuración pedir, pide M4 Pro con 24 GB.

3. Benchmarks reales — velocidad en Apple Silicon

Todos los benchmarks medidos con Ollama usando el backend Metal nativo. Los tok/s son de generación (output tokens), que es lo que determina la fluidez de la conversación. Contexto estándar de 2K tokens.

Llama 3.1 8B Q4 — el modelo de referencia para hardware de consumo

Chip Memoria tok/s Observación
M2 Pro 16GB 16 GB 28 tok/s Fluido, respuesta natural
M3 Pro 18GB 18 GB 32 tok/s Mejora por Neural Engine M3
M4 Pro 24GB 24 GB 45 tok/s Sweet spot calidad/precio
M4 Max 36GB 36 GB 62 tok/s Profesional — modelos 30B cómodos
M4 Max 48GB 48 GB 68 tok/s Para modelos 70B en Q4
M4 Ultra 128GB 128 GB 110 tok/s Sin límites en hardware consumer

Llama 3.1 13B Q4 — el siguiente escalón de calidad

Chip Memoria tok/s ¿Cabe en memoria?
M2 Pro 16GB 16 GB 14 tok/s Sí (8.1 GB necesarios)
M3 Pro 18GB 18 GB 16 tok/s
M4 Pro 24GB 24 GB 22 tok/s Sí, con margen
M4 Max 36GB 36 GB 32 tok/s Sí, muy cómodo
M4 Ultra 128GB 128 GB 55 tok/s Sí, múltiples a la vez

Llama 3.1 70B Q4 — solo para los que tienen margen de memoria

Chip Memoria tok/s ¿Cabe?
M2 Pro 16GB 16 GB NO (40 GB necesarios)
M4 Pro 24GB 24 GB NO
M4 Max 48GB 48 GB 8 tok/s Sí, justo
M4 Ultra 128GB 128 GB 22 tok/s Sí, con margen amplio
M3 Ultra 192GB 192 GB 18 tok/s Sí — puede correr 405B Q4

Mac vs PC — comparativa directa en 7B Q4

Una RTX 3060 de entrada hace ~30 tok/s con Llama 7B. Un M4 Pro hace 45 tok/s con la misma cantidad de "VRAM efectiva", integrado en el portátil, sin ruido de ventilador ni consumo eléctrico adicional. En inferencia de modelos 7B, el M4 Pro supera a la RTX 3060 un 50%.

4. Cómo instalar Ollama en Mac

Ollama es la opción más directa para IA local en Mac. Detecta Metal automáticamente y usa la GPU integrada sin ninguna configuración. Tiempo total desde cero: menos de 10 minutos (la mayoría es descarga del modelo).

Opción 1: Homebrew (recomendado para developers)

# Instalar con Homebrew
brew install ollama

# Iniciar el servidor (necesario antes de ejecutar modelos)
ollama serve

# En otra terminal — ejecutar un modelo
ollama run llama3.1:8b

Opción 2: Instalador .pkg (más sencillo)

Descarga el instalador desde ollama.com/download → instala el .pkg → arrastra a Aplicaciones. Ollama se ejecuta como app nativa de macOS con icono en la barra de menú. Sin terminal necesaria.

Comandos por tier de Mac

# M2 Pro / M3 Pro (16-18 GB) — modelo 8B en Q4 por defecto
ollama run llama3.1:8b

# M4 Pro 24GB — Q8 para máxima calidad en 8B
ollama run llama3.1:8b:q8_0

# M4 Pro 24GB — modelos 13B cómodos
ollama run llama3.1:13b

# M4 Max 48GB — el 70B cabe (justo)
ollama run llama3.1:70b

# Verificar que usa Metal (primera línea del output)
# Debería mostrar: "using Metal"

Metal backend activo por defecto: No necesitas configuración. Cuando Ollama arranca en un Mac con Apple Silicon, la primera línea de log dice using Metal. Si ves using CPU, reinstala Ollama.

API REST compatible con OpenAI: Ollama expone una API en localhost:11434. Puedes usar cualquier cliente de OpenAI apuntando a este endpoint — sin cambiar código si ya tienes integraciones.

5. LM Studio — la alternativa con interfaz gráfica

Si prefieres no usar la terminal, LM Studio es la mejor alternativa. Soporte nativo para M1/M2/M3/M4, interfaz de chat integrada, y muestra los tok/s en tiempo real mientras el modelo genera.

LM Studio — para usuarios GUI

  • Buscar modelo → descargar → chatear. Sin terminal.
  • Muestra tok/s en tiempo real en la UI
  • Soporte nativo M1/M2/M3/M4 con Metal
  • Servidor local compatible con OpenAI API

Ollama — para developers

  • CLI y API REST. Scriptable.
  • Gestión de modelos más limpia
  • Mejor para integrar en apps
  • Open source, sin telemetría

¿Cuál elegir? Lee la comparativa completa en Ollama vs LM Studio — comparativa completa. El resumen: LM Studio para usuarios sin experiencia en terminal, Ollama para developers y uso en scripts.

6. ¿Merece la pena comprar más memoria unificada?

La memoria unificada en un Mac está soldada en la placa — no puedes ampliarla después. La decisión de cuánta pedir hay que tomarla al comprar. Aquí el análisis honesto por salto de tier:

8 GB → 16 GB (salto de entrada)

Absolutamente necesario

Con 8 GB solo puedes correr Phi-3 Mini o Llama 3.2 3B. Con 16 GB ya tienes Llama 3.1 8B a 28 tok/s (conversación completamente fluida). Este es el salto más impactante del catálogo Apple. No compres 8 GB si te interesa la IA.

16 GB → 24 GB (M4 Pro, salto intermedio)

Muy recomendable

Con 16 GB no puedes correr Llama 13B cómodamente (8.1 GB + overhead del OS = límite justo). Con 24 GB tienes 13B en Q4 con margen, y 8B en Q8 para máxima calidad. Además, el M4 Pro es un salto generacional sobre el M2/M3 (45 tok/s vs 28 tok/s). Vale la pena.

24 GB → 36 GB (M4 Max, salto premium)

Para modelos 30B

El salto de 24 GB a 36 GB solo tiene sentido si necesitas correr modelos de 20–30B parámetros regularmente. Si tu uso es 8B o 13B, el M4 Pro con 24 GB es suficiente y el gasto extra no se justifica.

48 GB → 128 GB (M4 Ultra, +$2.000+)

Caso de uso muy específico

Solo tiene sentido para correr modelos 70B en Q8 (calidad máxima) o DeepSeek R1 671B en Q4. Use case profesional: researcher, empresa con LLM privado propio. Para uso personal, el M4 Max 48 GB es el techo real.

Regla general: El mínimo útil para IA local es 16 GB. El sweet spot para la mayoría es 24 GB (M4 Pro). 36 GB+ es uso profesional. No necesitas calcular a mano — usa nuestra calculadora de VRAM para ver exactamente qué modelos caben en cada configuración.

7. Modelos recomendados por caso de uso

Chat general — Llama 3.1 8B Q4

M2 Pro o superior. 28–45 tok/s según chip. Rápido, equilibrado, excelente en español.

M2 Pro+

Coding y razonamiento — DeepSeek R1 Distill 8B

M2 Pro o superior. Especializado en razonamiento lógico y código. 4.8 GB en Q4, similar velocidad a Llama 8B.

M2 Pro+

Calidad máxima — Llama 3.1 70B Q4

Requiere M4 Max 48 GB o superior. 8–22 tok/s. Para tareas que requieren el máximo razonamiento sin modelo en la nube.

M4 Max 48GB+

Edge / sin conexión — Phi-3 Mini

Cualquier Mac, incluso 8 GB. Modelo pequeño de Microsoft, sorprendentemente capaz para su tamaño. 14 tok/s en M2 base.

Cualquier Mac

8. Comparativa: Mac vs GPUs dedicadas

La pregunta más frecuente: ¿es mejor un Mac con M4 Pro o una RTX 4090 para IA local? La respuesta honesta depende totalmente del caso de uso.

Criterio Mac M4 Pro (24 GB) RTX 4090 (24 GB)
Velocidad 7B Q4 45 tok/s 95 tok/s
Capacidad de memoria 24 GB accesibles 24 GB VRAM
Portabilidad Portátil completo Solo escritorio
Ruido en carga Silencioso Alto (ventiladores)
Consumo eléctrico ~20–40W total ~450W total (PC completo)
Fine-tuning / entrenamiento Limitado (sin CUDA) Excelente (CUDA)
Precio ~$2.000 (MacBook Pro) Flagship GPU + torre completa de gama media

Elige Mac si...

  • Usas el portátil también para trabajo
  • Prioridad: inferencia privada local
  • No quieres gestionar drivers de CUDA
  • Modelos 7B–13B son suficientes

Elige RTX 4090 si...

  • Necesitas máxima velocidad bruta (2x más rápido)
  • Haces fine-tuning o entrenamiento
  • Ya tienes PC de escritorio
  • CUDA es requisito para tu stack

Compara tú mismo: M4 Pro vs RTX 4090 en nuestro comparador de GPUs — benchmark directo por modelo, VRAM disponible y precio por tok/s.

Preguntas frecuentes

¿Necesito una GPU externa para correr IA en Mac?

No. Apple Silicon integra CPU, GPU y Neural Engine compartiendo el mismo pool de memoria unificada. Ollama detecta el backend Metal automáticamente y usa la GPU integrada sin configuración adicional. Un M4 Pro con 24 GB puede correr Llama 3.1 8B a 45 tok/s sin ningún hardware externo.

¿Qué Mac mínimo necesito para IA local?

El mínimo útil es 16 GB de memoria unificada, lo que significa un MacBook Pro con M2 Pro o superior (no el MacBook Air base). Con 8 GB solo puedes correr modelos muy pequeños como Phi-3 Mini o Llama 3.2 3B, con calidad y velocidad limitadas. El sweet spot para la mayoría es el M4 Pro con 24 GB.

¿Cuánto más rápido es M4 que M2 para IA?

El M4 Pro hace 45 tok/s frente a los 28 tok/s del M2 Pro con Llama 3.1 8B Q4 — aproximadamente un 60% más rápido. La diferencia se debe al mayor bandwidth de memoria (273 GB/s vs 200 GB/s) y las mejoras en el Neural Engine de la generación M4.

¿Puedo correr Llama 70B en un Mac?

Necesitas un M4 Max con 48 GB de memoria unificada (mínimo) o superior. Con 48 GB obtienes ~8 tok/s con Llama 3.1 70B Q4, que es funcional pero lento. Para uso cómodo con 70B necesitas el M4 Ultra con 128 GB (22 tok/s) o el M3 Ultra con 192 GB, que también puede correr modelos de 405B en Q4.

Macs recomendados para IA local

Si vas a comprar un Mac para IA local, la memoria unificada es lo que importa. Estos son los sweet spots:

MacBook Pro M4 Pro 24GB

Sweet spot: modelos 8B-14B fluidos

Ver precio en Amazon

MacBook Pro M4 Max 48GB

Modelos 32B-70B en local

Ver precio en Amazon

Mac Mini M4 Pro 24GB

Servidor IA compacto y silencioso

Ver precio en Amazon

Hardware recomendado: alternativas de escritorio

Si prefieres escritorio, estas GPUs NVIDIA/AMD ofrecen VRAM similar a menor costo — actualizado en 2026.

RTX 4070 Super 12GB

€499

high Amazon Prime

RTX 4070 Super 12GB

4.7 (520 reviews)

Pros

  • Alta velocidad de inferencia
  • VRAM equivalente al M4 Pro
  • Excelente rendimiento por euro

Cons

  • Requiere PC de escritorio
Ver en Amazon
RTX 3060 12GB

€269

budget Amazon Prime

RTX 3060 12GB

4.8 (1,400 reviews)

Pros

  • 12 GB VRAM a precio de entrada
  • Gran comunidad y soporte
  • Ideal para modelos 8B-13B

Cons

  • Bandwidth inferior a GPUs nuevas
Ver en Amazon
AMD RX 7800 XT 16GB

€449

mid Amazon Prime

AMD RX 7800 XT 16GB

4.6 (310 reviews)

Pros

  • 16 GB VRAM para modelos 13B-27B
  • Buena relación calidad-precio
  • Compatible con ROCm

Cons

  • Soporte ROCm aún en maduración
Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

9. Conclusión

Si tienes un Mac M2 Pro o superior con 16 GB o más, ya tienes una máquina de IA local excelente. Sin configuración de CUDA, sin tarjeta externa, sin calentamiento. Solo ollama run llama3.1:8b y en 30 segundos tienes un asistente privado que corre en tu hardware. Aprovéchalo. Si buscas el sweet spot, el M4 Pro con 24 GB es la configuración que recomendaríamos hoy mismo.

¿Tu Mac puede correr ese modelo?

Introduce tu chip y la calculadora te dice exactamente qué modelos caben, cuántos tok/s obtendrás y si hay margen para contextos largos.

Calcular mi Mac ahora →

Fuentes