Skip to main content

Llama 3.1 405B con M3 Ultra: ¿Compatible?

405B parámetros · 192GB VRAM (Unified Memory) · Apple
~

Compatible con offloading — solo cuantización Q2

VRAM insuficiente para Q4 (230GB necesarios). Solo posible en Q2 con offloading parcial a RAM.

Análisis de VRAM por cuantización

Cuantización VRAM requerida Tu GPU ¿Funciona?
FP16 (máxima calidad) 810 GB 192 GB ✗ No
Q8 (alta calidad) 405 GB 192 GB ✗ No
Q4 (recomendado) 230 GB 192 GB ✗ No (38 GB menos)
Q2 (mínimo) 115 GB 192 GB ~ Parcial

Instalar con Ollama

Ejecuta este comando en tu terminal para descargar y correr Llama 3.1 405B:

ollama run llama3.1:405b

Requiere Ollama instalado. Descárgalo gratis en ollama.ai

Rendimiento estimado

Velocidad estimada ~7 tok/s (lenta (posible para pruebas))
Mejor cuantización disponible Q2
Ancho de banda de memoria 800 GB/s

Comprar M3 Ultra

La M3 Ultra es una opción ajustada para ejecutar Llama 3.1 405B.

Aviso de afiliado: Este enlace es patrocinado. Podemos recibir una comisión sin coste adicional para ti.

Ver M3 Ultra en Amazon →