Phi-4 en local: VRAM, instalación y benchmarks

Q: ¿Cómo instalar Phi-4 con Ollama?

Solo dos comandos. Primero descarga: ollama pull phi4:14b. Después ejecuta: ollama run phi4:14b. También está disponible en LM Studio buscando "microsoft/phi-4". En Windows con GPU NVIDIA funciona out of the box.

1. Phi-4 vs alternativas

Phi-4 compite en el rango de 7-15 GB de VRAM Q4 — la franja más popular para hardware doméstico. El dato que importa: 88/100 de calidad en nuestra evaluación siendo solo 14B. El precio a pagar es el contexto: 16.384 tokens frente a los 128K-131K de Gemma 3 y Llama 3.1. Si no sabes cuánta VRAM tienes, calcula si Phi-4 cabe en tu GPU antes de seguir.

Modelo	Params	VRAM Q4	Contexto	Calidad	Licencia
Phi-4 Este artículo	14B	8.4 GB	16K tokens ⚠	88/100 ★	MIT
Gemma 3 12B	12B	7.2 GB	128K tokens	83/100	Gemma
Llama 3.1 8B	8B	4.5 GB	131K tokens	78/100	Llama 3
Qwen2.5 7B	7B	4.5 GB	131K tokens	80/100	Apache-2.0
Mistral 7B	7B	4.1 GB	32K tokens	75/100	Apache-2.0

⚠ Contexto de 16K: lo que significa en la práctica — 16.384 tokens equivalen a ~12.000 palabras o unos 500 líneas de código. Suficiente para la mayoría de tareas de chat, debugging puntual y coding asistido. No suficiente para analizar documentos de 50+ páginas o repositorios multi-archivo. Si ese es tu caso, Gemma 3 12B con 128K contexto y 7.2 GB Q4 es mejor opción.

El dato que sorprende: Phi-4 14B supera en calidad a todos los modelos de 7-8B de esta tabla y a muchos de 70B en tareas de razonamiento. Necesita más VRAM (8.4 GB vs 4.1-4.5 GB de los 7B), pero la diferencia de 10 puntos en calidad justifica el salto si tienes RTX 3060 12GB.

2. ¿Por qué Phi-4 es especial?

La mayoría de LLMs se entrenan sobre datos masivos de internet. Microsoft tomó un camino diferente con Phi-4: entrenamiento intensivo con datos sintéticos de alta calidad, diseñados específicamente para razonamiento STEM. El resultado es un modelo que razona mejor que otros mucho más grandes, al coste de un contexto más corto.

Datos sintéticos, no datos web. El preentrenamiento de Phi-4 usa problemas de matemáticas, ciencias y programación generados sintéticamente y curados manualmente. Menos ruido, mayor densidad de razonamiento por token. Es la filosofía "small but mighty" que Microsoft lleva aplicando desde Phi-1.

88/100 siendo solo 14B. Según nuestra evaluación, Phi-4 alcanza 88/100 — por encima de modelos de 30-70B en tareas de razonamiento lógico, matemáticas y código. Para contexto: Gemma 3 27B necesita 16.2 GB de VRAM Q4 para llegar a 89/100. Phi-4 llega a 88/100 con 8.4 GB.

Licencia MIT: sin restricciones. A diferencia de DeepSeek (restricciones comerciales) o Llama 3 (licencia meta con condiciones), la MIT permite uso comercial, redistribución y modificación sin límites. Para developers que construyen productos, este dato importa tanto como la calidad.

Limitación real: contexto de 16K. 16.384 tokens es el límite de ventana de contexto de Phi-4. Es una decisión de diseño, no un accidente: Microsoft priorizó densidad de calidad sobre longitud de contexto. Funciona bien para la mayoría de casos de uso. Falla para análisis de documentos largos o exploración de repositorios completos.

En el mercado local de 2026, Phi-4 ocupa un nicho específico: usuarios con RTX 3060 12GB o similar que quieren el máximo de calidad de razonamiento en 8-12 GB de VRAM, y que trabajan con contextos cortos. Para análisis de documentos o proyectos de código completos, Gemma 3 12B con 128K contexto es la alternativa más próxima.

3. Instalación con Ollama

Ollama gestiona la descarga, cuantización y servicio del modelo con un solo comando. Si no tienes Ollama instalado, consulta la guía completa de instalación de Ollama antes de continuar.

bash

# Phi-4 — necesita GPU ≥10GB VRAM (8.4 GB Q4 + overhead del sistema)
ollama pull phi4:14b

# Iniciar chat interactivo
ollama run phi4:14b

La descarga ocupa 7 GB en disco (Q4). Una vez descargado, Ollama detecta automáticamente tu GPU. Si no hay GPU con suficiente VRAM, intentará correr en CPU — a velocidad muy baja para un 14B. Para GPU con exactamente 8 GB de VRAM, el overhead puede impedir que cargue: ver sección de selección.

LM Studio: También disponible en LM Studio buscando microsoft/phi-4 en el buscador de modelos. LM Studio es preferible en Windows con GPU AMD o Intel Arc, ya que soporta DirectML — Ollama en Windows es más estable con NVIDIA.

Tip para AMD / Intel Arc: Usar LM Studio con soporte DirectML en lugar de Ollama. Ollama en Linux soporta ROCm para AMD (RX 6000/7000), pero en Windows DirectML de LM Studio suele dar mejor compatibilidad con hardware no-NVIDIA.

4. Guía de selección: ¿es Phi-4 para ti?

La decisión parte de tu GPU, no del modelo. ¿No sabes cuánta VRAM tienes disponible? Calcula si Phi-4 cabe en tu GPU antes de descargar 7 GB.

RTX 3060 12GB / RTX 4060 Ti 16GB

Phi-4 Q4 es la mejor opción calidad/VRAM disponible. 8.4 GB de VRAM para el modelo + overhead del sistema — cabe con margen en 12 GB. 88/100 de calidad: el máximo que puedes obtener con esta GPU.

ollama pull phi4:14b

RTX 3070 (8GB) / RX 7800 XT (8GB)

Precaución: Phi-4 Q4 necesita 8.4 GB — con el overhead del sistema operativo y Ollama, puede no caber en 8 GB de VRAM. Dos opciones:

Q2 (4.2 GB): cabe sin problemas, pero con pérdida notable de calidad
Qwen2.5 7B Q4 (4.5 GB): mejor opción para 8 GB — 80/100 de calidad con 131K de contexto

Recomendación: Para 8 GB de VRAM, Qwen2.5 7B Q4 suele ser mejor elección que Phi-4 Q2. La diferencia de calidad entre Q4 y Q2 en un 14B es mayor que entre modelos de 7B y 14B.

RTX 3090 24GB / RTX 4090

Con 24 GB de VRAM, tienes opciones mejores que Phi-4. Considera Gemma 3 27B (89/100, 16.2 GB Q4) que supera ligeramente a Phi-4 y con 128K de contexto. Phi-4 Q8 (16.8 GB) es una alternativa si prefieres MIT sin contexto largo.

Para comparar opciones con GPU de 24 GB, compara GPUs para Phi-4 con datos de VRAM y bandwidth.

Si necesitas analizar documentos largos

Si tu caso de uso principal es analizar documentos de 50+ páginas, código de proyectos grandes o mantener conversaciones muy largas con contexto: Phi-4 no es la opción correcta. Gemma 3 12B con 128K contexto (7.2 GB Q4, 83/100) es mejor para ese perfil. Para guía completa de selección por caso de uso, lee la guía para elegir GPU según el modelo.

5. Rendimiento esperado por hardware

Todos los valores de Phi-4 son estimados — calculados por proporcionalidad a partir del bandwidth de memoria de cada GPU, metodología estándar para inferencia LLM donde el cuello de botella es bandwidth, no FLOPS. No tenemos benchmarks directos de Phi-4; los marcamos explícitamente como estimados.

Modelo / Cuantización	Hardware	Velocidad	Fuente
Phi-4 14B Q4	RTX 3060 12GB	~35–45 tok/s	Estimado
Phi-4 14B Q4	RTX 3070 8GB	~20–25 tok/s*	Estimado
Phi-4 14B Q8	RTX 3090 / RTX 4090	~55–70 tok/s	Estimado

* RTX 3070 8GB con Q4: Si el modelo carga (depende del overhead del sistema), ~20-25 tok/s. El problema es que 8.4 GB de modelo + 1-2 GB de overhead puede superar los 8 GB de VRAM. Si falla la carga, usar Q2 (4.2 GB, estimado ~30 tok/s pero con pérdida de calidad).

~40 tok/s en RTX 3060 12GB: Una respuesta de 200 tokens tarda ~5 segundos. Para chat interactivo, resolución de problemas matemáticos o code review: perfectamente funcional. Velocidad similar a Qwen2.5 7B en la misma GPU, pero con 10 puntos más de calidad.

6. Casos de uso ideales para Phi-4

Phi-4 es un modelo de razonamiento, no un generalista. Donde destaca es en tareas que requieren lógica paso a paso, precisión técnica y razonamiento estructurado. Donde no destaca: contextos muy largos y tareas que requieren memorizar grandes cantidades de información en la ventana.

✓

Matemáticas y STEM

Resolución paso a paso de problemas matemáticos, física, química. El preentrenamiento intensivo en datos STEM hace que Phi-4 siga mejor los pasos intermedios y cometa menos errores de cálculo que modelos generalistas más grandes.

✓

Code review y debugging

Phi-4 es especialmente bueno detectando bugs lógicos y proponiendo correcciones. Para revisar funciones, analizar algoritmos o debuggear código de hasta ~400 líneas: compite con modelos de coding especializados mucho más grandes. Limitación: no puedes pasar repositorios completos (16K contexto).

✓

Análisis lógico y razonamiento estructurado

Cadenas de razonamiento (Chain of Thought), análisis de argumentos, lógica formal. El patrón de entrenamiento sintético de Microsoft hace que Phi-4 sea más consistente en razonamiento multi-paso que modelos entrenados principalmente con datos web.

✓

Proyectos comerciales (licencia MIT)

Si construyes un producto que integra un LLM local, Phi-4 es una de las pocas opciones de alta calidad con licencia completamente libre. Sin revisar términos, sin restricciones de uso, sin notificaciones a Microsoft. Lo mismo que Apache-2.0 de Qwen, pero con mayor calidad de razonamiento.

✗

Documentos largos y análisis de repositorios

16K tokens = ~50 páginas A4 o ~500 líneas de código. Cualquier tarea que requiera más contexto que eso necesita un modelo diferente. Para esos casos: Gemma 3 12B (128K contexto).

7. Preguntas frecuentes

¿Cuánta VRAM necesita Phi-4?

Phi-4 en cuantización Q4 necesita 8.4 GB de VRAM. Con el overhead del sistema operativo y Ollama, recomendamos una GPU con al menos 10-12 GB de VRAM total. La RTX 3060 12GB es la GPU mínima recomendada. En Q2 (4.2 GB) cabe en GPUs de 6-8 GB pero con pérdida de calidad.

¿Phi-4 o Llama 3.1 8B para uso local?

Depende de tu prioridad. Si quieres razonamiento y calidad máxima y tienes RTX 3060 12GB o superior: Phi-4 (88/100 vs 78/100). Si tienes GPU de 6-8 GB y necesitas contexto largo (> 16K tokens): Llama 3.1 8B (131K contexto vs 16K de Phi-4). Para coding o matemáticas, Phi-4 gana claramente.

¿Cómo instalar Phi-4 con Ollama?

Solo dos comandos. Primero descarga: ollama pull phi4:14b. Después ejecuta: ollama run phi4:14b. También está disponible en LM Studio buscando "microsoft/phi-4". En Windows con GPU NVIDIA funciona out of the box.

¿Phi-4 es gratuito para uso comercial?

Sí, completamente. La licencia MIT no tiene restricciones: puedes usarlo en proyectos comerciales, integrarlo en productos, o redistribuirlo. Es uno de los pocos modelos de calidad alta con licencia totalmente abierta, junto con Qwen2.5 y Mistral.

¿Qué limitaciones tiene Phi-4?

La principal limitación es el contexto: 16.384 tokens (~12.000 palabras). Suficiente para la mayoría de chats y tareas de coding, pero limitado para analizar documentos largos o repositorios de código completos. Si necesitas contexto > 50K tokens, Gemma 3 12B (128K contexto, 7.2 GB Q4) es mejor opción.

GPUs recomendadas para Phi-4

Phi-4 (14B) necesita ~9 GB en Q4. Estas GPUs lo corren con margen:

RTX 3060 12GB

Phi-4 Q4 cabe ajustado · ~22 tok/s

Ver precio en Amazon

RTX 4060 Ti 16GB

Phi-4 Q4 con margen amplio · ~30 tok/s

Ver precio en Amazon

8. Calcula tu caso exacto

Los números de este artículo son el punto de partida. Para tu combinación específica de GPU + cuantización, la calculadora de VRAM te dice si Phi-4 cabe, cuántos tokens/seg obtendrás, y qué pasa si tienes que bajar a Q2.

Calculadora de VRAM

Selecciona tu GPU y Phi-4. La calculadora te dice: si cabe en VRAM, velocidad estimada de tokens/seg, y la cuantización óptima para tu hardware.

Calcular si Phi-4 cabe en mi GPU →

Hardware recomendado para Phi-4

GPUs verificadas para correr Phi-4 en local — actualizado en 2026.

€269

budget Amazon Prime

NVIDIA GeForce RTX 3060 12GB

4.8 (1,400 reviews)

Pros

Phi-4 Q4 corre perfectamente
12 GB VRAM — holgura suficiente
Mejor opción para presupuesto ajustado

Cons

Menos velocidad que generación Ada

Ver en Amazon

€299

mid Amazon Prime

NVIDIA GeForce RTX 4060 8GB

4.6 (980 reviews)

Pros

Phi-4 Q4 a ~40 tok/s
Bajo consumo 115W
Ada Lovelace — eficiencia máxima

Cons

8 GB VRAM — solo Q4/Q5 para Phi-4

Ver en Amazon

€399

mid Amazon Prime

NVIDIA GeForce RTX 4060 Ti 8GB

4.7 (650 reviews)

Pros

Phi-4 Q4+Q5 con margen
Buen upgrade de RTX 3060
Ada Lovelace arquitectura

Cons

8 GB VRAM — mismo límite que 4060

Ver en Amazon

€499

high Amazon Prime

NVIDIA GeForce RTX 4070 Super 12GB

4.7 (520 reviews)

Pros

Phi-4 Q8 corre con holgura
12 GB VRAM para modelos mayores
Rendimiento superior sostenido

Cons

Overkill para Phi-4 solo

Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.