IA local en Mac M2/M3/M4: guía y benchmarks

Si tienes un Mac reciente con Apple Silicon, ya tienes una máquina de IA. No necesitas una RTX 4090 ni una workstation de $5.000. La clave es la arquitectura de memoria unificada: CPU, GPU y Neural Engine comparten el mismo pool de RAM de alta velocidad, lo que significa que el modelo carga entero en "VRAM" sin las limitaciones artificiales de una GPU discreta. Un M4 Pro con 24 GB supera en velocidad de inferencia a una RTX 3060 con 12 GB, y todo integrado en un portátil silencioso. Usa nuestra calculadora de VRAM para verificar exactamente qué modelos caben en tu chip antes de descargar nada.

1. ¿Por qué Apple Silicon es especial para IA local?

La diferencia fundamental entre un Mac con Apple Silicon y un PC con GPU discreta está en cómo se gestiona la memoria. En un PC, la VRAM de la GPU está físicamente separada de la RAM del sistema — si el modelo no cabe en los 12 GB de tu RTX 3060, empieza a hacer offloading a RAM del sistema, y la velocidad colapsa a 2–4 tok/s. En Apple Silicon no existe esa separación: toda la memoria es accesible directamente por CPU, GPU y Neural Engine al mismo bandwidth.

Ventajas de Apple Silicon para IA

• Modelo carga entero en memoria — sin offloading degradado
• Ollama detecta Metal automáticamente — cero configuración
• Sin drivers de CUDA ni dependencias
• Consumo muy bajo (10–30W en inferencia)
• Neural Engine acelera operaciones de matrix

Limitaciones a tener en cuenta

• No hay CUDA — sin entrenamiento con PyTorch nativo
• 8 GB base insuficientes para modelos útiles
• Memoria no ampliable (soldada en placa)
• Precio por GB de memoria superior a PC

Bandwidth de memoria — la métrica clave para inferencia LLM

Chip	Memoria	Bandwidth	Tipo
M2 Pro	16 GB	200 GB/s	Unified Memory
M3 Pro	18 GB	150 GB/s	Unified Memory
M4 Pro	24 GB	273 GB/s	Unified Memory
M4 Max 36GB	36 GB	400 GB/s	Unified Memory
M4 Max 48GB	48 GB	400 GB/s	Unified Memory
M4 Ultra	128 GB	800 GB/s	Unified Memory
M3 Ultra	192 GB	800 GB/s	Unified Memory

Dato clave: Una RTX 3060 tiene 360 GB/s de bandwidth pero solo 12 GB de VRAM. El M4 Pro tiene 273 GB/s con 24 GB accesibles. Para inferencia de LLMs, el bandwidth es lo que manda — no los TFLOPS.

Atención — MacBook Air 8 GB: El MacBook Air base con 8 GB de memoria unificada solo puede correr modelos muy pequeños (Phi-3 Mini, Llama 3.2 3B). La experiencia con modelos 7B o superiores es muy lenta o directamente imposible. Para IA local necesitas 16 GB mínimo.

2. Tabla — ¿Qué puedes correr según tu Mac?

La tabla de abajo resume qué modelos caben en cada configuración de Mac. Para calcular exactamente cuánta memoria necesita un modelo específico, usa nuestra calculadora de VRAM.

Mac	Chip	Memoria	Modelos recomendados
MacBook Air M2/M3 base	M2/M3	8 GB	Solo Phi-3 Mini, Llama 3.2 3B
MacBook Pro M2 Pro	M2 Pro	16 GB	Llama 3.1 8B Q4, Mistral 7B Q4, DeepSeek R1 Distill 8B
MacBook Pro M3 Pro	M3 Pro	18 GB	Igual que M2 Pro + algo más de margen para 13B
MacBook Pro M4 Pro	M4 Pro	24 GB	Llama 3.1 8B Q8, modelos 13B Q4 cómodo, Phi-3 Small
MacBook Pro M4 Max 36GB	M4 Max	36 GB	Modelos 13–30B cómodos
MacBook Pro M4 Max 48GB	M4 Max	48 GB	Llama 3.1 70B Q4 (justo, ~8 tok/s)
Mac Studio / Mac Pro M4 Ultra	M4 Ultra	128 GB	Llama 3.1 70B Q8, DeepSeek R1 671B Q4

Sweet spot: M4 Pro con 24 GB

El M4 Pro con 24 GB es donde el precio y las capacidades se cruzan de forma óptima para la mayoría. Corre Llama 3.1 8B a 45 tok/s (respuesta completamente fluida), tiene margen para modelos 13B en Q4 (22 tok/s), y el salto al siguiente tier (M4 Max 36GB) exige un extra visible para un caso de uso más especializado. Si no sabes qué configuración pedir, pide M4 Pro con 24 GB.

3. Benchmarks reales — velocidad en Apple Silicon

Todos los benchmarks medidos con Ollama usando el backend Metal nativo. Los tok/s son de generación (output tokens), que es lo que determina la fluidez de la conversación. Contexto estándar de 2K tokens.

Llama 3.1 8B Q4 — el modelo de referencia para hardware de consumo

Chip	Memoria	tok/s	Observación
M2 Pro 16GB	16 GB	28 tok/s	Fluido, respuesta natural
M3 Pro 18GB	18 GB	32 tok/s	Mejora por Neural Engine M3
M4 Pro 24GB	24 GB	45 tok/s	Sweet spot calidad/precio
M4 Max 36GB	36 GB	62 tok/s	Profesional — modelos 30B cómodos
M4 Max 48GB	48 GB	68 tok/s	Para modelos 70B en Q4
M4 Ultra 128GB	128 GB	110 tok/s	Sin límites en hardware consumer

Llama 3.1 13B Q4 — el siguiente escalón de calidad

Chip	Memoria	tok/s	¿Cabe en memoria?
M2 Pro 16GB	16 GB	14 tok/s	Sí (8.1 GB necesarios)
M3 Pro 18GB	18 GB	16 tok/s	Sí
M4 Pro 24GB	24 GB	22 tok/s	Sí, con margen
M4 Max 36GB	36 GB	32 tok/s	Sí, muy cómodo
M4 Ultra 128GB	128 GB	55 tok/s	Sí, múltiples a la vez

Llama 3.1 70B Q4 — solo para los que tienen margen de memoria

Chip	Memoria	tok/s	¿Cabe?
M2 Pro 16GB	16 GB	—	NO (40 GB necesarios)
M4 Pro 24GB	24 GB	—	NO
M4 Max 48GB	48 GB	8 tok/s	Sí, justo
M4 Ultra 128GB	128 GB	22 tok/s	Sí, con margen amplio
M3 Ultra 192GB	192 GB	18 tok/s	Sí — puede correr 405B Q4

Mac vs PC — comparativa directa en 7B Q4

Una RTX 3060 de entrada hace ~30 tok/s con Llama 7B. Un M4 Pro hace 45 tok/s con la misma cantidad de "VRAM efectiva", integrado en el portátil, sin ruido de ventilador ni consumo eléctrico adicional. En inferencia de modelos 7B, el M4 Pro supera a la RTX 3060 un 50%.

4. Cómo instalar Ollama en Mac

Ollama es la opción más directa para IA local en Mac. Detecta Metal automáticamente y usa la GPU integrada sin ninguna configuración. Tiempo total desde cero: menos de 10 minutos (la mayoría es descarga del modelo).

Opción 1: Homebrew (recomendado para developers)

# Instalar con Homebrew
brew install ollama

# Iniciar el servidor (necesario antes de ejecutar modelos)
ollama serve

# En otra terminal — ejecutar un modelo
ollama run llama3.1:8b

Opción 2: Instalador .pkg (más sencillo)

Descarga el instalador desde ollama.com/download → instala el .pkg → arrastra a Aplicaciones. Ollama se ejecuta como app nativa de macOS con icono en la barra de menú. Sin terminal necesaria.

Comandos por tier de Mac

# M2 Pro / M3 Pro (16-18 GB) — modelo 8B en Q4 por defecto
ollama run llama3.1:8b

# M4 Pro 24GB — Q8 para máxima calidad en 8B
ollama run llama3.1:8b:q8_0

# M4 Pro 24GB — modelos 13B cómodos
ollama run llama3.1:13b

# M4 Max 48GB — el 70B cabe (justo)
ollama run llama3.1:70b

# Verificar que usa Metal (primera línea del output)
# Debería mostrar: "using Metal"

Metal backend activo por defecto: No necesitas configuración. Cuando Ollama arranca en un Mac con Apple Silicon, la primera línea de log dice using Metal. Si ves using CPU, reinstala Ollama.

API REST compatible con OpenAI: Ollama expone una API en localhost:11434. Puedes usar cualquier cliente de OpenAI apuntando a este endpoint — sin cambiar código si ya tienes integraciones.

5. LM Studio — la alternativa con interfaz gráfica

Si prefieres no usar la terminal, LM Studio es la mejor alternativa. Soporte nativo para M1/M2/M3/M4, interfaz de chat integrada, y muestra los tok/s en tiempo real mientras el modelo genera.

LM Studio — para usuarios GUI

• Buscar modelo → descargar → chatear. Sin terminal.
• Muestra tok/s en tiempo real en la UI
• Soporte nativo M1/M2/M3/M4 con Metal
• Servidor local compatible con OpenAI API

Ollama — para developers

• CLI y API REST. Scriptable.
• Gestión de modelos más limpia
• Mejor para integrar en apps
• Open source, sin telemetría

¿Cuál elegir? Lee la comparativa completa en Ollama vs LM Studio — comparativa completa. El resumen: LM Studio para usuarios sin experiencia en terminal, Ollama para developers y uso en scripts.

6. ¿Merece la pena comprar más memoria unificada?

La memoria unificada en un Mac está soldada en la placa — no puedes ampliarla después. La decisión de cuánta pedir hay que tomarla al comprar. Aquí el análisis honesto por salto de tier:

8 GB → 16 GB (salto de entrada)

Absolutamente necesario

Con 8 GB solo puedes correr Phi-3 Mini o Llama 3.2 3B. Con 16 GB ya tienes Llama 3.1 8B a 28 tok/s (conversación completamente fluida). Este es el salto más impactante del catálogo Apple. No compres 8 GB si te interesa la IA.

16 GB → 24 GB (M4 Pro, salto intermedio)

Muy recomendable

Con 16 GB no puedes correr Llama 13B cómodamente (8.1 GB + overhead del OS = límite justo). Con 24 GB tienes 13B en Q4 con margen, y 8B en Q8 para máxima calidad. Además, el M4 Pro es un salto generacional sobre el M2/M3 (45 tok/s vs 28 tok/s). Vale la pena.

24 GB → 36 GB (M4 Max, salto premium)

Para modelos 30B

El salto de 24 GB a 36 GB solo tiene sentido si necesitas correr modelos de 20–30B parámetros regularmente. Si tu uso es 8B o 13B, el M4 Pro con 24 GB es suficiente y el gasto extra no se justifica.

48 GB → 128 GB (M4 Ultra, +$2.000+)

Caso de uso muy específico

Solo tiene sentido para correr modelos 70B en Q8 (calidad máxima) o DeepSeek R1 671B en Q4. Use case profesional: researcher, empresa con LLM privado propio. Para uso personal, el M4 Max 48 GB es el techo real.

Regla general: El mínimo útil para IA local es 16 GB. El sweet spot para la mayoría es 24 GB (M4 Pro). 36 GB+ es uso profesional. No necesitas calcular a mano — usa nuestra calculadora de VRAM para ver exactamente qué modelos caben en cada configuración.

7. Modelos recomendados por caso de uso

Chat general — Llama 3.1 8B Q4

M2 Pro o superior. 28–45 tok/s según chip. Rápido, equilibrado, excelente en español.

M2 Pro+

Coding y razonamiento — DeepSeek R1 Distill 8B

M2 Pro o superior. Especializado en razonamiento lógico y código. 4.8 GB en Q4, similar velocidad a Llama 8B.

M2 Pro+

Calidad máxima — Llama 3.1 70B Q4

Requiere M4 Max 48 GB o superior. 8–22 tok/s. Para tareas que requieren el máximo razonamiento sin modelo en la nube.

M4 Max 48GB+

Edge / sin conexión — Phi-3 Mini

Cualquier Mac, incluso 8 GB. Modelo pequeño de Microsoft, sorprendentemente capaz para su tamaño. 14 tok/s en M2 base.

Cualquier Mac

8. Comparativa: Mac vs GPUs dedicadas

La pregunta más frecuente: ¿es mejor un Mac con M4 Pro o una RTX 4090 para IA local? La respuesta honesta depende totalmente del caso de uso.

Criterio	Mac M4 Pro (24 GB)	RTX 4090 (24 GB)
Velocidad 7B Q4	45 tok/s	95 tok/s
Capacidad de memoria	24 GB accesibles	24 GB VRAM
Portabilidad	Portátil completo	Solo escritorio
Ruido en carga	Silencioso	Alto (ventiladores)
Consumo eléctrico	~20–40W total	~450W total (PC completo)
Fine-tuning / entrenamiento	Limitado (sin CUDA)	Excelente (CUDA)
Precio	~$2.000 (MacBook Pro)	Flagship GPU + torre completa de gama media

Elige Mac si...

• Usas el portátil también para trabajo
• Prioridad: inferencia privada local
• No quieres gestionar drivers de CUDA
• Modelos 7B–13B son suficientes

Elige RTX 4090 si...

• Necesitas máxima velocidad bruta (2x más rápido)
• Haces fine-tuning o entrenamiento
• Ya tienes PC de escritorio
• CUDA es requisito para tu stack

Compara tú mismo: M4 Pro vs RTX 4090 en nuestro comparador de GPUs — benchmark directo por modelo, VRAM disponible y precio por tok/s.

Preguntas frecuentes

¿Necesito una GPU externa para correr IA en Mac? ↓

No. Apple Silicon integra CPU, GPU y Neural Engine compartiendo el mismo pool de memoria unificada. Ollama detecta el backend Metal automáticamente y usa la GPU integrada sin configuración adicional. Un M4 Pro con 24 GB puede correr Llama 3.1 8B a 45 tok/s sin ningún hardware externo.

¿Qué Mac mínimo necesito para IA local? ↓

El mínimo útil es 16 GB de memoria unificada, lo que significa un MacBook Pro con M2 Pro o superior (no el MacBook Air base). Con 8 GB solo puedes correr modelos muy pequeños como Phi-3 Mini o Llama 3.2 3B, con calidad y velocidad limitadas. El sweet spot para la mayoría es el M4 Pro con 24 GB.

¿Cuánto más rápido es M4 que M2 para IA? ↓

El M4 Pro hace 45 tok/s frente a los 28 tok/s del M2 Pro con Llama 3.1 8B Q4 — aproximadamente un 60% más rápido. La diferencia se debe al mayor bandwidth de memoria (273 GB/s vs 200 GB/s) y las mejoras en el Neural Engine de la generación M4.

¿Puedo correr Llama 70B en un Mac? ↓

Necesitas un M4 Max con 48 GB de memoria unificada (mínimo) o superior. Con 48 GB obtienes ~8 tok/s con Llama 3.1 70B Q4, que es funcional pero lento. Para uso cómodo con 70B necesitas el M4 Ultra con 128 GB (22 tok/s) o el M3 Ultra con 192 GB, que también puede correr modelos de 405B en Q4.

Macs recomendados para IA local

Si vas a comprar un Mac para IA local, la memoria unificada es lo que importa. Estos son los sweet spots:

MacBook Pro M4 Pro 24GB

Sweet spot: modelos 8B-14B fluidos

Ver precio en Amazon

MacBook Pro M4 Max 48GB

Modelos 32B-70B en local

Ver precio en Amazon

Mac Mini M4 Pro 24GB

Servidor IA compacto y silencioso

Ver precio en Amazon

Hardware recomendado: alternativas de escritorio

Si prefieres escritorio, estas GPUs NVIDIA/AMD ofrecen VRAM similar a menor costo — actualizado en 2026.

€499

high Amazon Prime

RTX 4070 Super 12GB

4.7 (520 reviews)

Pros

Alta velocidad de inferencia
VRAM equivalente al M4 Pro
Excelente rendimiento por euro

Cons

Requiere PC de escritorio

Ver en Amazon

€269

budget Amazon Prime

RTX 3060 12GB

4.8 (1,400 reviews)

Pros

12 GB VRAM a precio de entrada
Gran comunidad y soporte
Ideal para modelos 8B-13B

Cons

Bandwidth inferior a GPUs nuevas

Ver en Amazon

€449

mid Amazon Prime

AMD RX 7800 XT 16GB

4.6 (310 reviews)

Pros

16 GB VRAM para modelos 13B-27B
Buena relación calidad-precio
Compatible con ROCm

Cons

Soporte ROCm aún en maduración

Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

9. Conclusión

Si tienes un Mac M2 Pro o superior con 16 GB o más, ya tienes una máquina de IA local excelente. Sin configuración de CUDA, sin tarjeta externa, sin calentamiento. Solo ollama run llama3.1:8b y en 30 segundos tienes un asistente privado que corre en tu hardware. Aprovéchalo. Si buscas el sweet spot, el M4 Pro con 24 GB es la configuración que recomendaríamos hoy mismo.

¿Tu Mac puede correr ese modelo?

Introduce tu chip y la calculadora te dice exactamente qué modelos caben, cuántos tok/s obtendrás y si hay margen para contextos largos.

Calcular mi Mac ahora →

1. ¿Por qué Apple Silicon es especial para IA local?

Ventajas de Apple Silicon para IA

Limitaciones a tener en cuenta

Bandwidth de memoria — la métrica clave para inferencia LLM

2. Tabla — ¿Qué puedes correr según tu Mac?

Sweet spot: M4 Pro con 24 GB

3. Benchmarks reales — velocidad en Apple Silicon

Llama 3.1 8B Q4 — el modelo de referencia para hardware de consumo

Llama 3.1 13B Q4 — el siguiente escalón de calidad

Llama 3.1 70B Q4 — solo para los que tienen margen de memoria

Mac vs PC — comparativa directa en 7B Q4

4. Cómo instalar Ollama en Mac

Opción 1: Homebrew (recomendado para developers)

Opción 2: Instalador .pkg (más sencillo)

Comandos por tier de Mac

5. LM Studio — la alternativa con interfaz gráfica

LM Studio — para usuarios GUI

Ollama — para developers

6. ¿Merece la pena comprar más memoria unificada?

8 GB → 16 GB (salto de entrada)

16 GB → 24 GB (M4 Pro, salto intermedio)

24 GB → 36 GB (M4 Max, salto premium)

48 GB → 128 GB (M4 Ultra, +$2.000+)

7. Modelos recomendados por caso de uso

Chat general — Llama 3.1 8B Q4

Coding y razonamiento — DeepSeek R1 Distill 8B

Calidad máxima — Llama 3.1 70B Q4

Edge / sin conexión — Phi-3 Mini

8. Comparativa: Mac vs GPUs dedicadas

Elige Mac si...

Elige RTX 4090 si...

Preguntas frecuentes

Macs recomendados para IA local

MacBook Pro M4 Pro 24GB

MacBook Pro M4 Max 48GB

Mac Mini M4 Pro 24GB

Hardware recomendado: alternativas de escritorio

RTX 4070 Super 12GB

RTX 3060 12GB

AMD RX 7800 XT 16GB

9. Conclusión

¿Tu Mac puede correr ese modelo?

Fuentes