Llama 3.1 405B con M3 Ultra: ¿Compatible?
405B parámetros · 192GB VRAM (Unified Memory) · Apple
~
Compatible con offloading — solo cuantización Q2
VRAM insuficiente para Q4 (230GB necesarios). Solo posible en Q2 con offloading parcial a RAM.
Análisis de VRAM por cuantización
| Cuantización | VRAM requerida | Tu GPU | ¿Funciona? |
|---|---|---|---|
| FP16 (máxima calidad) | 810 GB | 192 GB | ✗ No |
| Q8 (alta calidad) | 405 GB | 192 GB | ✗ No |
| Q4 (recomendado) | 230 GB | 192 GB | ✗ No (38 GB menos) |
| Q2 (mínimo) | 115 GB | 192 GB | ~ Parcial |
Instalar con Ollama
Ejecuta este comando en tu terminal para descargar y correr Llama 3.1 405B:
ollama run llama3.1:405b Requiere Ollama instalado. Descárgalo gratis en ollama.ai
Rendimiento estimado
Velocidad estimada
~7 tok/s
(lenta (posible para pruebas))
Mejor cuantización disponible Q2
Ancho de banda de memoria 800 GB/s
Comprar M3 Ultra
La M3 Ultra es una opción ajustada para ejecutar Llama 3.1 405B.
Aviso de afiliado: Este enlace es patrocinado. Podemos recibir una comisión sin coste adicional para ti.
Ver M3 Ultra en Amazon →