Cómo correr Phi-4 en local con Ollama
Correr Phi-4 en local es más sencillo de lo que parece. Con Ollama puedes tener este modelo de 14B parámetros funcionando en tu PC en menos de 5 minutos. Solo necesitas 8.4 GB de VRAM para la versión Q4 y conexión a internet para la descarga inicial.
En esta guía cubrimos los requisitos exactos de hardware, el proceso de instalación paso a paso, los comandos necesarios y ejemplos de uso para sacarle el máximo partido a Phi-4 desde tu propio hardware.
Requisitos de hardware para Phi-4
| Cuantización | VRAM necesaria | Notas |
|---|---|---|
| FP16 (máxima calidad) | 33.6 GB | Calidad de referencia. Solo GPUs con mucha VRAM. |
| Q8 (alta calidad) | 16.8 GB | Recomendado si tienes suficiente VRAM. |
| Q4 (equilibrado) | 8.4 GB (recomendado) | El mejor equilibrio calidad/VRAM. Recomendado. |
| Q2 (mínimo) | 4.2 GB | Solo si tu VRAM es muy limitada. Pérdida notable. |
Especificaciones de Phi-4
Paso 1: Instalar Ollama
Ollama es la forma más sencilla de correr Phi-4 en local. Disponible para Windows, macOS y Linux.
- 1 Descarga Ollama desde ollama.com (Windows, macOS o Linux)
- 2 Ejecuta el instalador y sigue las instrucciones (tarda menos de 1 minuto)
- 3 Verifica la instalación abriendo una terminal y ejecutando:
ollama --version
Paso 2: Ejecutar Phi-4
Una vez instalado Ollama, abre una terminal y ejecuta el siguiente comando. Ollama descargará el modelo automáticamente la primera vez:
ollama run phi4:14b La primera ejecución descargará el modelo (~8.4 GB en Q4). Las ejecuciones posteriores son instantáneas. Una vez descargado, puedes chatear directamente en la terminal o usar la API local.
Paso 3: Ejemplos de uso de Phi-4
Uso con la API REST local
Ollama expone una API en http://localhost:11434 compatible con OpenAI:
curl http://localhost:11434/api/generate -d '{
"model": "phi4:14b",
"prompt": "Explica qué es la IA local en 2 párrafos",
"stream": false
}' Integración con Python (API OpenAI)
Si tienes instalado el cliente OpenAI de Python:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama",
)
response = client.chat.completions.create(
model="phi4:14b",
messages=[{"role": "user", "content": "Hola, ¿cómo puedes ayudarme?"}]
)
print(response.choices[0].message.content) GPUs compatibles con Phi-4
Estas GPUs tienen suficiente VRAM para correr Phi-4 en cuantización Q4 (8.4 GB):
RTX 5090
RTX 4090
M4 Ultra
RTX 5080
M3 Ultra
RTX 4080 Super
¿No ves tu GPU? Consulta todas las páginas de compatibilidad en la página del modelo Phi-4.
¿No sabes si tu GPU puede correr Phi-4?
Usa nuestra calculadora de VRAM para comprobarlo al instante y ver las opciones de cuantización disponibles.
Comprobar compatibilidad