¿Puede la RTX 5090 ejecutar Llama 3.3 70B?

Sí, la RTX 5090 con 32GB de VRAM puede ejecutar Llama 3.3 70B. La mejor cuantización disponible es Q2, que requiere 21GB de VRAM.

¿Cuánta VRAM necesita Llama 3.3 70B?

Llama 3.3 70B necesita 168GB en FP16 (máxima calidad), 84GB en Q8, 42GB en Q4 (recomendado), y aproximadamente 21GB en Q2 (mínimo).

La RTX 5090 tiene 32GB de VRAM de tipo GDDR7.

70B parámetros · 32GB VRAM (GDDR7) · NVIDIA

Compatible con offloading — solo cuantización Q2

VRAM insuficiente para Q4 (42GB necesarios). Solo posible en Q2 con offloading parcial a RAM.

Cuantización	VRAM requerida	Tu GPU	¿Funciona?
FP16 (máxima calidad)	168 GB	32 GB	✗ No
Q8 (alta calidad)	84 GB	32 GB	✗ No
Q4 (recomendado)	42 GB	32 GB	✗ No (10 GB menos)
Q2 (mínimo)	21 GB	32 GB	~ Parcial

Ejecuta este comando en tu terminal para descargar y correr Llama 3.3 70B:

ollama run llama3.3:70b

Requiere Ollama instalado. Descárgalo gratis en ollama.ai

Velocidad estimada ~83 tok/s (muy rápida (tiempo real))

Mejor cuantización disponible Q2

Ancho de banda de memoria 1792 GB/s

La RTX 5090 es una opción ajustada para ejecutar Llama 3.3 70B.

Aviso de afiliado: Este enlace es patrocinado. Podemos recibir una comisión sin coste adicional para ti.

Llama 3.3 70B

Requisitos completos de VRAM y GPUs compatibles

RTX 5090

Especificaciones, benchmarks y modelos compatibles

Calculadora de VRAM

Comprueba la compatibilidad detallada de Llama 3.3 70B con RTX 5090 y otras GPUs