Cómo correr Phi-3.5 MoE en local con Ollama
Correr Phi-3.5 MoE en local es más sencillo de lo que parece. Con Ollama puedes tener este modelo de 41.9B parámetros funcionando en tu PC en menos de 5 minutos. Solo necesitas 21 GB de VRAM para la versión Q4 y conexión a internet para la descarga inicial.
En esta guía cubrimos los requisitos exactos de hardware, el proceso de instalación paso a paso, los comandos necesarios y ejemplos de uso para sacarle el máximo partido a Phi-3.5 MoE desde tu propio hardware.
Requisitos de hardware para Phi-3.5 MoE
| Cuantización | VRAM necesaria | Notas |
|---|---|---|
| FP16 (máxima calidad) | 84 GB | Calidad de referencia. Solo GPUs con mucha VRAM. |
| Q8 (alta calidad) | 42 GB | Recomendado si tienes suficiente VRAM. |
| Q4 (equilibrado) | 21 GB (recomendado) | El mejor equilibrio calidad/VRAM. Recomendado. |
| Q2 (mínimo) | 11 GB | Solo si tu VRAM es muy limitada. Pérdida notable. |
Especificaciones de Phi-3.5 MoE
Paso 1: Instalar Ollama
Ollama es la forma más sencilla de correr Phi-3.5 MoE en local. Disponible para Windows, macOS y Linux.
- 1 Descarga Ollama desde ollama.com (Windows, macOS o Linux)
- 2 Ejecuta el instalador y sigue las instrucciones (tarda menos de 1 minuto)
- 3 Verifica la instalación abriendo una terminal y ejecutando:
ollama --version
Paso 2: Ejecutar Phi-3.5 MoE
Una vez instalado Ollama, abre una terminal y ejecuta el siguiente comando. Ollama descargará el modelo automáticamente la primera vez:
ollama run phi3.5-moe La primera ejecución descargará el modelo (~21 GB en Q4). Las ejecuciones posteriores son instantáneas. Una vez descargado, puedes chatear directamente en la terminal o usar la API local.
Paso 3: Ejemplos de uso de Phi-3.5 MoE
Uso con la API REST local
Ollama expone una API en http://localhost:11434 compatible con OpenAI:
curl http://localhost:11434/api/generate -d '{
"model": "phi3.5-moe",
"prompt": "Explica qué es la IA local en 2 párrafos",
"stream": false
}' Integración con Python (API OpenAI)
Si tienes instalado el cliente OpenAI de Python:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama",
)
response = client.chat.completions.create(
model="phi3.5-moe",
messages=[{"role": "user", "content": "Hola, ¿cómo puedes ayudarme?"}]
)
print(response.choices[0].message.content) GPUs compatibles con Phi-3.5 MoE
Estas GPUs tienen suficiente VRAM para correr Phi-3.5 MoE en cuantización Q4 (21 GB):
RTX 5090
RTX 4090
M4 Ultra
M3 Ultra
RTX 3090
M4 Max 48GB
¿No ves tu GPU? Consulta todas las páginas de compatibilidad en la página del modelo Phi-3.5 MoE.
¿No sabes si tu GPU puede correr Phi-3.5 MoE?
Usa nuestra calculadora de VRAM para comprobarlo al instante y ver las opciones de cuantización disponibles.
Comprobar compatibilidad