Cómo correr Llama 4 Maverick en local con Ollama
Correr Llama 4 Maverick en local es más sencillo de lo que parece. Con Ollama puedes tener este modelo de 211B parámetros funcionando en tu PC en menos de 5 minutos. Solo necesitas 116.1 GB de VRAM para la versión Q4 y conexión a internet para la descarga inicial.
En esta guía cubrimos los requisitos exactos de hardware, el proceso de instalación paso a paso, los comandos necesarios y ejemplos de uso para sacarle el máximo partido a Llama 4 Maverick desde tu propio hardware.
Requisitos de hardware para Llama 4 Maverick
| Cuantización | VRAM necesaria | Notas |
|---|---|---|
| FP16 (máxima calidad) | 464.2 GB | Calidad de referencia. Solo GPUs con mucha VRAM. |
| Q8 (alta calidad) | 232.1 GB | Recomendado si tienes suficiente VRAM. |
| Q4 (equilibrado) | 116.1 GB (recomendado) | El mejor equilibrio calidad/VRAM. Recomendado. |
| Q2 (mínimo) | 58 GB | Solo si tu VRAM es muy limitada. Pérdida notable. |
Especificaciones de Llama 4 Maverick
Paso 1: Instalar Ollama
Ollama es la forma más sencilla de correr Llama 4 Maverick en local. Disponible para Windows, macOS y Linux.
- 1 Descarga Ollama desde ollama.com (Windows, macOS o Linux)
- 2 Ejecuta el instalador y sigue las instrucciones (tarda menos de 1 minuto)
- 3 Verifica la instalación abriendo una terminal y ejecutando:
ollama --version
Paso 2: Ejecutar Llama 4 Maverick
Una vez instalado Ollama, abre una terminal y ejecuta el siguiente comando. Ollama descargará el modelo automáticamente la primera vez:
ollama run llama4:maverick La primera ejecución descargará el modelo (~116.1 GB en Q4). Las ejecuciones posteriores son instantáneas. Una vez descargado, puedes chatear directamente en la terminal o usar la API local.
Paso 3: Ejemplos de uso de Llama 4 Maverick
Uso con la API REST local
Ollama expone una API en http://localhost:11434 compatible con OpenAI:
curl http://localhost:11434/api/generate -d '{
"model": "llama4:maverick",
"prompt": "Explica qué es la IA local en 2 párrafos",
"stream": false
}' Integración con Python (API OpenAI)
Si tienes instalado el cliente OpenAI de Python:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama",
)
response = client.chat.completions.create(
model="llama4:maverick",
messages=[{"role": "user", "content": "Hola, ¿cómo puedes ayudarme?"}]
)
print(response.choices[0].message.content) GPUs compatibles con Llama 4 Maverick
Estas GPUs tienen suficiente VRAM para correr Llama 4 Maverick en cuantización Q4 (116.1 GB):
M4 Ultra
M3 Ultra
¿No ves tu GPU? Consulta todas las páginas de compatibilidad en la página del modelo Llama 4 Maverick.
¿No sabes si tu GPU puede correr Llama 4 Maverick?
Usa nuestra calculadora de VRAM para comprobarlo al instante y ver las opciones de cuantización disponibles.
Comprobar compatibilidad