Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.
Phi-4 en local: VRAM exacta, instalación con Ollama y benchmarks
Microsoft lanzó Phi-4 en diciembre 2024 con una apuesta clara: 14B parámetros que superan a modelos mucho más grandes en tareas de razonamiento. Según nuestra evaluación, 88/100 de calidad — por encima de muchos modelos de 70B. En Q4 necesita 8.4 GB de VRAM: cabe en una RTX 3060 12GB. Y la licencia es MIT: sin restricciones comerciales. La limitación a tener en cuenta: contexto de 16.384 tokens, no los 128K de la competencia.
1. Phi-4 vs alternativas
Phi-4 compite en el rango de 7-15 GB de VRAM Q4 — la franja más popular para hardware doméstico. El dato que importa: 88/100 de calidad en nuestra evaluación siendo solo 14B. El precio a pagar es el contexto: 16.384 tokens frente a los 128K-131K de Gemma 3 y Llama 3.1. Si no sabes cuánta VRAM tienes, calcula si Phi-4 cabe en tu GPU antes de seguir.
| Modelo | Params | VRAM Q4 | Contexto | Calidad | Licencia |
|---|---|---|---|---|---|
| Phi-4 Este artículo | 14B | 8.4 GB | 16K tokens ⚠ | 88/100 ★ | MIT |
| Gemma 3 12B | 12B | 7.2 GB | 128K tokens | 83/100 | Gemma |
| Llama 3.1 8B | 8B | 4.5 GB | 131K tokens | 78/100 | Llama 3 |
| Qwen2.5 7B | 7B | 4.5 GB | 131K tokens | 80/100 | Apache-2.0 |
| Mistral 7B | 7B | 4.1 GB | 32K tokens | 75/100 | Apache-2.0 |
⚠ Contexto de 16K: lo que significa en la práctica — 16.384 tokens equivalen a ~12.000 palabras o unos 500 líneas de código. Suficiente para la mayoría de tareas de chat, debugging puntual y coding asistido. No suficiente para analizar documentos de 50+ páginas o repositorios multi-archivo. Si ese es tu caso, Gemma 3 12B con 128K contexto y 7.2 GB Q4 es mejor opción.
El dato que sorprende: Phi-4 14B supera en calidad a todos los modelos de 7-8B de esta tabla y a muchos de 70B en tareas de razonamiento. Necesita más VRAM (8.4 GB vs 4.1-4.5 GB de los 7B), pero la diferencia de 10 puntos en calidad justifica el salto si tienes RTX 3060 12GB.
2. ¿Por qué Phi-4 es especial?
La mayoría de LLMs se entrenan sobre datos masivos de internet. Microsoft tomó un camino diferente con Phi-4: entrenamiento intensivo con datos sintéticos de alta calidad, diseñados específicamente para razonamiento STEM. El resultado es un modelo que razona mejor que otros mucho más grandes, al coste de un contexto más corto.
Datos sintéticos, no datos web. El preentrenamiento de Phi-4 usa problemas de matemáticas, ciencias y programación generados sintéticamente y curados manualmente. Menos ruido, mayor densidad de razonamiento por token. Es la filosofía "small but mighty" que Microsoft lleva aplicando desde Phi-1.
88/100 siendo solo 14B. Según nuestra evaluación, Phi-4 alcanza 88/100 — por encima de modelos de 30-70B en tareas de razonamiento lógico, matemáticas y código. Para contexto: Gemma 3 27B necesita 16.2 GB de VRAM Q4 para llegar a 89/100. Phi-4 llega a 88/100 con 8.4 GB.
Licencia MIT: sin restricciones. A diferencia de DeepSeek (restricciones comerciales) o Llama 3 (licencia meta con condiciones), la MIT permite uso comercial, redistribución y modificación sin límites. Para developers que construyen productos, este dato importa tanto como la calidad.
Limitación real: contexto de 16K. 16.384 tokens es el límite de ventana de contexto de Phi-4. Es una decisión de diseño, no un accidente: Microsoft priorizó densidad de calidad sobre longitud de contexto. Funciona bien para la mayoría de casos de uso. Falla para análisis de documentos largos o exploración de repositorios completos.
En el mercado local de 2026, Phi-4 ocupa un nicho específico: usuarios con RTX 3060 12GB o similar que quieren el máximo de calidad de razonamiento en 8-12 GB de VRAM, y que trabajan con contextos cortos. Para análisis de documentos o proyectos de código completos, Gemma 3 12B con 128K contexto es la alternativa más próxima.
3. Instalación con Ollama
Ollama gestiona la descarga, cuantización y servicio del modelo con un solo comando. Si no tienes Ollama instalado, consulta la guía completa de instalación de Ollama antes de continuar.
# Phi-4 — necesita GPU ≥10GB VRAM (8.4 GB Q4 + overhead del sistema)
ollama pull phi4:14b
# Iniciar chat interactivo
ollama run phi4:14b La descarga ocupa 7 GB en disco (Q4). Una vez descargado, Ollama detecta automáticamente tu GPU. Si no hay GPU con suficiente VRAM, intentará correr en CPU — a velocidad muy baja para un 14B. Para GPU con exactamente 8 GB de VRAM, el overhead puede impedir que cargue: ver sección de selección.
LM Studio:
También disponible en LM Studio buscando microsoft/phi-4
en el buscador de modelos. LM Studio es preferible en Windows con GPU AMD o Intel Arc,
ya que soporta DirectML — Ollama en Windows es más estable con NVIDIA.
Tip para AMD / Intel Arc: Usar LM Studio con soporte DirectML en lugar de Ollama. Ollama en Linux soporta ROCm para AMD (RX 6000/7000), pero en Windows DirectML de LM Studio suele dar mejor compatibilidad con hardware no-NVIDIA.
4. Guía de selección: ¿es Phi-4 para ti?
La decisión parte de tu GPU, no del modelo. ¿No sabes cuánta VRAM tienes disponible? Calcula si Phi-4 cabe en tu GPU antes de descargar 7 GB.
Phi-4 Q4 es la mejor opción calidad/VRAM disponible. 8.4 GB de VRAM para el modelo + overhead del sistema — cabe con margen en 12 GB. 88/100 de calidad: el máximo que puedes obtener con esta GPU.
Precaución: Phi-4 Q4 necesita 8.4 GB — con el overhead del sistema operativo y Ollama, puede no caber en 8 GB de VRAM. Dos opciones:
- Q2 (4.2 GB): cabe sin problemas, pero con pérdida notable de calidad
- Qwen2.5 7B Q4 (4.5 GB): mejor opción para 8 GB — 80/100 de calidad con 131K de contexto
Recomendación: Para 8 GB de VRAM, Qwen2.5 7B Q4 suele ser mejor elección que Phi-4 Q2. La diferencia de calidad entre Q4 y Q2 en un 14B es mayor que entre modelos de 7B y 14B.
Con 24 GB de VRAM, tienes opciones mejores que Phi-4. Considera Gemma 3 27B (89/100, 16.2 GB Q4) que supera ligeramente a Phi-4 y con 128K de contexto. Phi-4 Q8 (16.8 GB) es una alternativa si prefieres MIT sin contexto largo.
Para comparar opciones con GPU de 24 GB, compara GPUs para Phi-4 con datos de VRAM y bandwidth.
Si tu caso de uso principal es analizar documentos de 50+ páginas, código de proyectos grandes o mantener conversaciones muy largas con contexto: Phi-4 no es la opción correcta. Gemma 3 12B con 128K contexto (7.2 GB Q4, 83/100) es mejor para ese perfil. Para guía completa de selección por caso de uso, lee la guía para elegir GPU según el modelo.
5. Rendimiento esperado por hardware
Todos los valores de Phi-4 son estimados — calculados por proporcionalidad a partir del bandwidth de memoria de cada GPU, metodología estándar para inferencia LLM donde el cuello de botella es bandwidth, no FLOPS. No tenemos benchmarks directos de Phi-4; los marcamos explícitamente como estimados.
| Modelo / Cuantización | Hardware | Velocidad | Fuente |
|---|---|---|---|
| Phi-4 14B Q4 | RTX 3060 12GB | ~35–45 tok/s | Estimado |
| Phi-4 14B Q4 | RTX 3070 8GB | ~20–25 tok/s* | Estimado |
| Phi-4 14B Q8 | RTX 3090 / RTX 4090 | ~55–70 tok/s | Estimado |
* RTX 3070 8GB con Q4: Si el modelo carga (depende del overhead del sistema), ~20-25 tok/s. El problema es que 8.4 GB de modelo + 1-2 GB de overhead puede superar los 8 GB de VRAM. Si falla la carga, usar Q2 (4.2 GB, estimado ~30 tok/s pero con pérdida de calidad).
~40 tok/s en RTX 3060 12GB: Una respuesta de 200 tokens tarda ~5 segundos. Para chat interactivo, resolución de problemas matemáticos o code review: perfectamente funcional. Velocidad similar a Qwen2.5 7B en la misma GPU, pero con 10 puntos más de calidad.
6. Casos de uso ideales para Phi-4
Phi-4 es un modelo de razonamiento, no un generalista. Donde destaca es en tareas que requieren lógica paso a paso, precisión técnica y razonamiento estructurado. Donde no destaca: contextos muy largos y tareas que requieren memorizar grandes cantidades de información en la ventana.
Resolución paso a paso de problemas matemáticos, física, química. El preentrenamiento intensivo en datos STEM hace que Phi-4 siga mejor los pasos intermedios y cometa menos errores de cálculo que modelos generalistas más grandes.
Phi-4 es especialmente bueno detectando bugs lógicos y proponiendo correcciones. Para revisar funciones, analizar algoritmos o debuggear código de hasta ~400 líneas: compite con modelos de coding especializados mucho más grandes. Limitación: no puedes pasar repositorios completos (16K contexto).
Cadenas de razonamiento (Chain of Thought), análisis de argumentos, lógica formal. El patrón de entrenamiento sintético de Microsoft hace que Phi-4 sea más consistente en razonamiento multi-paso que modelos entrenados principalmente con datos web.
Si construyes un producto que integra un LLM local, Phi-4 es una de las pocas opciones de alta calidad con licencia completamente libre. Sin revisar términos, sin restricciones de uso, sin notificaciones a Microsoft. Lo mismo que Apache-2.0 de Qwen, pero con mayor calidad de razonamiento.
16K tokens = ~50 páginas A4 o ~500 líneas de código. Cualquier tarea que requiera más contexto que eso necesita un modelo diferente. Para esos casos: Gemma 3 12B (128K contexto).
7. Preguntas frecuentes
¿Cuánta VRAM necesita Phi-4?
Phi-4 en cuantización Q4 necesita 8.4 GB de VRAM. Con el overhead del sistema operativo y Ollama, recomendamos una GPU con al menos 10-12 GB de VRAM total. La RTX 3060 12GB es la GPU mínima recomendada. En Q2 (4.2 GB) cabe en GPUs de 6-8 GB pero con pérdida de calidad.
¿Phi-4 o Llama 3.1 8B para uso local?
Depende de tu prioridad. Si quieres razonamiento y calidad máxima y tienes RTX 3060 12GB o superior: Phi-4 (88/100 vs 78/100). Si tienes GPU de 6-8 GB y necesitas contexto largo (> 16K tokens): Llama 3.1 8B (131K contexto vs 16K de Phi-4). Para coding o matemáticas, Phi-4 gana claramente.
¿Cómo instalar Phi-4 con Ollama?
Solo dos comandos. Primero descarga: ollama pull phi4:14b.
Después ejecuta: ollama run phi4:14b.
También está disponible en LM Studio buscando "microsoft/phi-4".
En Windows con GPU NVIDIA funciona out of the box.
¿Phi-4 es gratuito para uso comercial?
Sí, completamente. La licencia MIT no tiene restricciones: puedes usarlo en proyectos comerciales, integrarlo en productos, o redistribuirlo. Es uno de los pocos modelos de calidad alta con licencia totalmente abierta, junto con Qwen2.5 y Mistral.
¿Qué limitaciones tiene Phi-4?
La principal limitación es el contexto: 16.384 tokens (~12.000 palabras). Suficiente para la mayoría de chats y tareas de coding, pero limitado para analizar documentos largos o repositorios de código completos. Si necesitas contexto > 50K tokens, Gemma 3 12B (128K contexto, 7.2 GB Q4) es mejor opción.
GPUs recomendadas para Phi-4
Phi-4 (14B) necesita ~9 GB en Q4. Estas GPUs lo corren con margen:
8. Calcula tu caso exacto
Los números de este artículo son el punto de partida. Para tu combinación específica de GPU + cuantización, la calculadora de VRAM te dice si Phi-4 cabe, cuántos tokens/seg obtendrás, y qué pasa si tienes que bajar a Q2.
Calculadora de VRAM
Selecciona tu GPU y Phi-4. La calculadora te dice: si cabe en VRAM, velocidad estimada de tokens/seg, y la cuantización óptima para tu hardware.
Calcular si Phi-4 cabe en mi GPU →Hardware recomendado para Phi-4
GPUs verificadas para correr Phi-4 en local — actualizado en 2026.
€269
NVIDIA GeForce RTX 3060 12GB
Pros
- Phi-4 Q4 corre perfectamente
- 12 GB VRAM — holgura suficiente
- Mejor opción para presupuesto ajustado
Cons
- Menos velocidad que generación Ada
€299
NVIDIA GeForce RTX 4060 8GB
Pros
- Phi-4 Q4 a ~40 tok/s
- Bajo consumo 115W
- Ada Lovelace — eficiencia máxima
Cons
- 8 GB VRAM — solo Q4/Q5 para Phi-4
€399
NVIDIA GeForce RTX 4060 Ti 8GB
Pros
- Phi-4 Q4+Q5 con margen
- Buen upgrade de RTX 3060
- Ada Lovelace arquitectura
Cons
- 8 GB VRAM — mismo límite que 4060
€499
NVIDIA GeForce RTX 4070 Super 12GB
Pros
- Phi-4 Q8 corre con holgura
- 12 GB VRAM para modelos mayores
- Rendimiento superior sostenido
Cons
- Overkill para Phi-4 solo
Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.