¿Puede la M3 Ultra ejecutar Llama 3.1 405B?

Sí, la M3 Ultra con 192GB de VRAM puede ejecutar Llama 3.1 405B. La mejor cuantización disponible es Q2, que requiere 115GB de VRAM.

¿Cuánta VRAM necesita Llama 3.1 405B?

Llama 3.1 405B necesita 810GB en FP16 (máxima calidad), 405GB en Q8, 230GB en Q4 (recomendado), y aproximadamente 115GB en Q2 (mínimo).

La M3 Ultra tiene 192GB de VRAM de tipo Unified Memory.

405B parámetros · 192GB VRAM (Unified Memory) · Apple

Compatible con offloading — solo cuantización Q2

VRAM insuficiente para Q4 (230GB necesarios). Solo posible en Q2 con offloading parcial a RAM.

Cuantización	VRAM requerida	Tu GPU	¿Funciona?
FP16 (máxima calidad)	810 GB	192 GB	✗ No
Q8 (alta calidad)	405 GB	192 GB	✗ No
Q4 (recomendado)	230 GB	192 GB	✗ No (38 GB menos)
Q2 (mínimo)	115 GB	192 GB	~ Parcial

Ejecuta este comando en tu terminal para descargar y correr Llama 3.1 405B:

ollama run llama3.1:405b

Requiere Ollama instalado. Descárgalo gratis en ollama.ai

Velocidad estimada ~7 tok/s (lenta (posible para pruebas))

Mejor cuantización disponible Q2

Ancho de banda de memoria 800 GB/s

La M3 Ultra es una opción ajustada para ejecutar Llama 3.1 405B.

Aviso de afiliado: Este enlace es patrocinado. Podemos recibir una comisión sin coste adicional para ti.

Llama 3.1 405B

Requisitos completos de VRAM y GPUs compatibles

M3 Ultra

Especificaciones, benchmarks y modelos compatibles

Calculadora de VRAM

Comprueba la compatibilidad detallada de Llama 3.1 405B con M3 Ultra y otras GPUs