Familia Llama: todos los modelos y cómo correrlos en local
Los modelos Llama para IA local son algunos de los más populares del ecosistema open-source. La familia Llama es la referencia en modelos de lenguaje de código abierto. Meta ha publicado versiones desde 7B hasta 405B, incluyendo modelos multimodales con capacidades de visión. Los modelos Llama 3.1 y 3.2 destacan por su excelente rendimiento en razonamiento, código y seguimiento de instrucciones.
En esta página encontrarás todos los modelos de la familia Llama, sus requisitos de VRAM por nivel de cuantización, y las GPUs recomendadas para correrlos en casa.
Todos los modelos Llama para IA local: lista completa
| Modelo | Parámetros | VRAM Q4 | VRAM Q8 | Contexto | Ollama |
|---|---|---|---|---|---|
| Llama 3.1 405B | 405B | 230 GB | 405 GB | 131K | llama3.1:405b |
| Llama 3.3 70B | 70B | 42 GB | 84 GB | 128K | llama3.3:70b |
| Llama 3.1 70B | 70B | 40 GB | 70 GB | 131K | llama3.1:70b |
| Llama 4 Maverick | 211B | 116.1 GB | 232.1 GB | 1000K | llama4:maverick |
| Llama 3.2 90B Vision | 90B | 54 GB | 90 GB | 131K | llama3.2-vision:90b |
| Llama 4 Scout | 109B | 60 GB | 119.9 GB | 10000K | llama4:scout |
| CodeLlama 34B | 34B | 19 GB | 34 GB | 16K | codellama:34b |
| Llama 3.1 8B | 8B | 5 GB | 8 GB | 131K | llama3.1:8b |
| Llama 3.2 11B Vision | 11B | 6.6 GB | 13.2 GB | 131K | llama3.2-vision:11b |
| CodeLlama 7B | 7B | 4.5 GB | 7 GB | 16K | codellama:7b |
| Llama 3.2 3B | 3B | 1.8 GB | 3.6 GB | 131K | llama3.2:3b |
| Llama 3.2 1B | 1B | 0.6 GB | 1.2 GB | 131K | llama3.2:1b |
Modelos Llama por requisito de VRAM
Modelos ligeros (hasta 5 GB VRAM Q4)
- Llama 3.1 8B Q4: 5 GB
- CodeLlama 7B Q4: 4.5 GB
- Llama 3.2 3B Q4: 1.8 GB
- Llama 3.2 1B Q4: 0.6 GB
Modelos medios (6–15 GB VRAM Q4)
- Llama 3.2 11B Vision Q4: 6.6 GB
Modelos grandes (16+ GB VRAM Q4)
- Llama 3.1 405B Q4: 230 GB
- Llama 3.3 70B Q4: 42 GB
- Llama 3.1 70B Q4: 40 GB
- Llama 4 Maverick Q4: 116.1 GB
- Llama 3.2 90B Vision Q4: 54 GB
- Llama 4 Scout Q4: 60 GB
- CodeLlama 34B Q4: 19 GB
GPUs recomendadas para familia Llama
Estas GPUs ofrecen la mejor relación rendimiento/precio para correr modelos Llama para IA local:
¿Tu GPU puede correr modelos Llama?
Comprueba la compatibilidad exacta entre tu GPU y cualquier modelo de la familia Llama con nuestra herramienta gratuita.
Verificar compatibilidad