Skip to main content

Llama 3.1 70B con M4 Max 36GB: ¿Compatible?

70B parámetros · 36GB VRAM (Unified Memory) · Apple
~

Compatible con offloading — solo cuantización Q2

VRAM insuficiente para Q4 (40GB necesarios). Solo posible en Q2 con offloading parcial a RAM.

Análisis de VRAM por cuantización

Cuantización VRAM requerida Tu GPU ¿Funciona?
FP16 (máxima calidad) 140 GB 36 GB ✗ No
Q8 (alta calidad) 70 GB 36 GB ✗ No
Q4 (recomendado) 40 GB 36 GB ✗ No (4 GB menos)
Q2 (mínimo) 20 GB 36 GB ~ Parcial

Instalar con Ollama

Ejecuta este comando en tu terminal para descargar y correr Llama 3.1 70B:

ollama run llama3.1:70b

Requiere Ollama instalado. Descárgalo gratis en ollama.ai

Rendimiento estimado

Velocidad estimada ~27 tok/s (rápida (cómoda para uso diario))
Mejor cuantización disponible Q2
Ancho de banda de memoria 546 GB/s

Comprar M4 Max 36GB

La M4 Max 36GB es una opción ajustada para ejecutar Llama 3.1 70B.

Aviso de afiliado: Este enlace es patrocinado. Podemos recibir una comisión sin coste adicional para ti.

Ver M4 Max 36GB en Amazon →