Por Javier Morales · Actualizado: 31 de marzo de 2026 · Meta

Familia Llama: todos los modelos y cómo correrlos en local

Transparencia: Algunos enlaces de hardware en esta página son de afiliado (Amazon). Esto no afecta nuestra evaluación.

Los modelos Llama para IA local son algunos de los más populares del ecosistema open-source. La familia Llama es la referencia en modelos de lenguaje de código abierto. Meta ha publicado versiones desde 7B hasta 405B, incluyendo modelos multimodales con capacidades de visión. Los modelos Llama 3.1 y 3.2 destacan por su excelente rendimiento en razonamiento, código y seguimiento de instrucciones.

En esta página encontrarás todos los modelos de la familia Llama, sus requisitos de VRAM por nivel de cuantización, y las GPUs recomendadas para correrlos en casa.

Licencia: Licencia comunitaria Llama (uso comercial permitido con restricciones)

Todos los modelos Llama para IA local: lista completa

Modelo	Parámetros	VRAM Q4	VRAM Q8	Contexto	Ollama
Llama 3.1 405B	405B	230 GB	405 GB	131K	`llama3.1:405b`
Llama 3.3 70B	70B	42 GB	84 GB	128K	`llama3.3:70b`
Llama 3.1 70B	70B	40 GB	70 GB	131K	`llama3.1:70b`
Llama 4 Maverick	211B	116.1 GB	232.1 GB	1000K	`llama4:maverick`
Llama 3.2 90B Vision	90B	54 GB	90 GB	131K	`llama3.2-vision:90b`
Llama 4 Scout	109B	60 GB	119.9 GB	10000K	`llama4:scout`
CodeLlama 34B	34B	19 GB	34 GB	16K	`codellama:34b`
Llama 3.1 8B	8B	5 GB	8 GB	131K	`llama3.1:8b`
Llama 3.2 11B Vision	11B	6.6 GB	13.2 GB	131K	`llama3.2-vision:11b`
CodeLlama 7B	7B	4.5 GB	7 GB	16K	`codellama:7b`
Llama 3.2 3B	3B	1.8 GB	3.6 GB	131K	`llama3.2:3b`
Llama 3.2 1B	1B	0.6 GB	1.2 GB	131K	`llama3.2:1b`