Cómo correr Magistral Small 24B en local con Ollama
Correr Magistral Small 24B en local es más sencillo de lo que parece. Con Ollama puedes tener este modelo de 24B parámetros funcionando en tu PC en menos de 5 minutos. Solo necesitas 13.2 GB de VRAM para la versión Q4 y conexión a internet para la descarga inicial.
En esta guía cubrimos los requisitos exactos de hardware, el proceso de instalación paso a paso, los comandos necesarios y ejemplos de uso para sacarle el máximo partido a Magistral Small 24B desde tu propio hardware.
Requisitos de hardware para Magistral Small 24B
| Cuantización | VRAM necesaria | Notas |
|---|---|---|
| FP16 (máxima calidad) | 52.8 GB | Calidad de referencia. Solo GPUs con mucha VRAM. |
| Q8 (alta calidad) | 26.4 GB | Recomendado si tienes suficiente VRAM. |
| Q4 (equilibrado) | 13.2 GB (recomendado) | El mejor equilibrio calidad/VRAM. Recomendado. |
| Q2 (mínimo) | 6.6 GB | Solo si tu VRAM es muy limitada. Pérdida notable. |
Sin GPU (solo CPU): Magistral Small 24B puede correr en CPU con velocidad de aproximadamente 5 tokens/segundo en un Intel Core i7. Funcional pero lento para uso intensivo.
Especificaciones de Magistral Small 24B
Paso 1: Instalar Ollama
Ollama es la forma más sencilla de correr Magistral Small 24B en local. Disponible para Windows, macOS y Linux.
- 1 Descarga Ollama desde ollama.com (Windows, macOS o Linux)
- 2 Ejecuta el instalador y sigue las instrucciones (tarda menos de 1 minuto)
- 3 Verifica la instalación abriendo una terminal y ejecutando:
ollama --version
Paso 2: Ejecutar Magistral Small 24B
Una vez instalado Ollama, abre una terminal y ejecuta el siguiente comando. Ollama descargará el modelo automáticamente la primera vez:
ollama run magistral:24b La primera ejecución descargará el modelo (~13.2 GB en Q4). Las ejecuciones posteriores son instantáneas. Una vez descargado, puedes chatear directamente en la terminal o usar la API local.
Paso 3: Ejemplos de uso de Magistral Small 24B
Uso con la API REST local
Ollama expone una API en http://localhost:11434 compatible con OpenAI:
curl http://localhost:11434/api/generate -d '{
"model": "magistral:24b",
"prompt": "Explica qué es la IA local en 2 párrafos",
"stream": false
}' Integración con Python (API OpenAI)
Si tienes instalado el cliente OpenAI de Python:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama",
)
response = client.chat.completions.create(
model="magistral:24b",
messages=[{"role": "user", "content": "Hola, ¿cómo puedes ayudarme?"}]
)
print(response.choices[0].message.content) GPUs compatibles con Magistral Small 24B
Estas GPUs tienen suficiente VRAM para correr Magistral Small 24B en cuantización Q4 (13.2 GB):
RTX 5090
RTX 4090
M4 Ultra
RTX 5080
M3 Ultra
RTX 4080 Super
¿No ves tu GPU? Consulta todas las páginas de compatibilidad en la página del modelo Magistral Small 24B.
¿No sabes si tu GPU puede correr Magistral Small 24B?
Usa nuestra calculadora de VRAM para comprobarlo al instante y ver las opciones de cuantización disponibles.
Comprobar compatibilidad