¿Puede la M4 Max 36GB ejecutar Llama 3.1 70B?

Sí, la M4 Max 36GB con 36GB de VRAM puede ejecutar Llama 3.1 70B. La mejor cuantización disponible es Q2, que requiere 20GB de VRAM.

¿Cuánta VRAM necesita Llama 3.1 70B?

Llama 3.1 70B necesita 140GB en FP16 (máxima calidad), 70GB en Q8, 40GB en Q4 (recomendado), y aproximadamente 20GB en Q2 (mínimo).

La M4 Max 36GB tiene 36GB de VRAM de tipo Unified Memory.

70B parámetros · 36GB VRAM (Unified Memory) · Apple

Compatible con offloading — solo cuantización Q2

VRAM insuficiente para Q4 (40GB necesarios). Solo posible en Q2 con offloading parcial a RAM.

Cuantización	VRAM requerida	Tu GPU	¿Funciona?
FP16 (máxima calidad)	140 GB	36 GB	✗ No
Q8 (alta calidad)	70 GB	36 GB	✗ No
Q4 (recomendado)	40 GB	36 GB	✗ No (4 GB menos)
Q2 (mínimo)	20 GB	36 GB	~ Parcial

Ejecuta este comando en tu terminal para descargar y correr Llama 3.1 70B:

ollama run llama3.1:70b

Requiere Ollama instalado. Descárgalo gratis en ollama.ai

Velocidad estimada ~27 tok/s (rápida (cómoda para uso diario))

Mejor cuantización disponible Q2

Ancho de banda de memoria 546 GB/s

La M4 Max 36GB es una opción ajustada para ejecutar Llama 3.1 70B.

Aviso de afiliado: Este enlace es patrocinado. Podemos recibir una comisión sin coste adicional para ti.

Llama 3.1 70B

Requisitos completos de VRAM y GPUs compatibles

M4 Max 36GB

Especificaciones, benchmarks y modelos compatibles

Calculadora de VRAM

Comprueba la compatibilidad detallada de Llama 3.1 70B con M4 Max 36GB y otras GPUs