Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.
Cómo instalar Ollama en Windows paso a paso [2026]
Ollama convierte tu PC en un servidor de IA privado. En 5 minutos tienes Llama 3, Mistral o Phi-4 corriendo en local, sin APIs de pago, sin que tus datos salgan de casa. Esta guía cubre todo: instalación, GPU, primer modelo, errores frecuentes y qué hardware comprar si todavía no tienes GPU.
¿Ya tienes GPU pero no sabes qué modelos caben? Antes de descargar nada, pasa por la calculadora de VRAM — te dice exactamente qué modelos entran en tu tarjeta y a cuántos tokens/segundo irán.
¿Cómo instalar Ollama en Windows?
Descarga el instalador desde ollama.com/download, ejecuta el .exe y en 3 minutos tienes Ollama corriendo. Abre PowerShell y escribe ollama run llama3.
1. Qué es Ollama y por qué usarlo en Windows
Ollama es un runtime open-source para modelos de lenguaje que te permite correr LLMs en tu propia máquina.
Piénsalo como Docker pero para modelos de IA: descargas un modelo con un comando, lo corres con otro, y tienes
una API REST en localhost:11434 compatible con la mayoría de apps.
En Windows, Ollama funciona como servicio de fondo (system tray). Instala una vez y siempre está disponible. Soporte nativo para CUDA en GPUs NVIDIA — sin configurar nada extra, Ollama detecta tu RTX y la usa automáticamente.
Privacidad total
Tus prompts nunca salen de tu PC. Ideal para código confidencial, documentos sensibles.
Sin coste por token
Una vez descargado, el modelo es tuyo. Sin límites de rate, sin créditos agotados a medianoche.
API compatible OpenAI
Cualquier app que soporte OpenAI puede apuntar a tu Ollama local. Open WebUI, Continue, Cursor.
2. Requisitos del sistema
Mínimo (solo CPU)
- ▸SO: Windows 10 versión 1903 o superior, Windows 11
- ▸RAM: 8 GB (para modelos 3B), 16 GB para modelos 7B
- ▸Disco: 10 GB libres en SSD (los modelos se almacenan aquí)
- ▸CPU: cualquier procesador moderno. Velocidad: ~5-12 tok/s en modelos 3B
Recomendado (GPU NVIDIA)
- ▸GPU NVIDIA: cualquier GTX 1060 6GB o superior. Driver mínimo: 527+
- ▸VRAM 8 GB: corre Llama 3.2 8B Q4 entero en GPU. ~70-90 tok/s
- ▸VRAM 12 GB: abre el rango mid-range completo. Mistral, Gemma 3, Phi-4
- ▸VRAM 16+ GB: modelos 13B-30B Q4 sin offloading. La experiencia que merece la pena
GPU AMD en Windows: léete esto antes
ROCm en Windows está en beta desde 2026. Funciona en RX 6700 XT y superiores (RDNA2/RDNA3), pero no con la estabilidad de CUDA. Si tienes AMD y quieres buen soporte, activa WSL2 con Ubuntu y corre Ollama ahí — ROCm en Linux está maduro. En CPU funciona igual de bien que NVIDIA.
3. Instalación paso a paso
Ollama v0.6.x en Windows. El proceso completo — descarga, instalación, verificación — no llega a 5 minutos.
Descargar el instalador
Ve a ollama.com/download y pulsa "Download for Windows".
El archivo se llama OllamaSetup.exe (~60 MB).
No instales desde otras fuentes — solo del sitio oficial.
Ejecutar el instalador
Doble clic en el .exe. Windows UAC te pedirá permisos de admin — acepta. El wizard son 3 clicks. Se instala en:
C:\Users\[usuario]\AppData\Local\Programs\Ollama
Icono en la bandeja del sistema
Al terminar, aparece el icono de Ollama en el tray (abajo a la derecha en Windows). Ollama corre en segundo plano como servicio. Se inicia automáticamente con Windows.
Verificar la instalación
Abre cmd o PowerShell (Win+R → cmd) y ejecuta:
ollama --version
Respuesta esperada: ollama version 0.6.x
Si dice "no se reconoce el comando": cierra la terminal y vuelve a abrirla. Si persiste, reinicia el PC.
Verificar detección de GPU
Si tienes GPU NVIDIA, comprueba que Ollama la detecta:
ollama list
Esto no te dice directamente si detectó la GPU, pero confirma que el servicio está corriendo.
La GPU se confirmará en el paso siguiente al correr el primer modelo con ollama ps.
4. Tu primer modelo: descarga y ejecución
Recomiendo empezar con Llama 3.2 3B — cabe en cualquier hardware, es capaz para muchas tareas y se descarga en minutos. El comando es el mismo en cmd y PowerShell:
cmd / PowerShell
ollama run llama3.2:3b Primera vez: descarga ~2 GB. Las siguientes: arranca en <5 segundos.
Una vez arrancado, ves el prompt >>> y puedes escribir directamente.
Para salir: /bye o Ctrl+D.
Confirmar uso de GPU
Con el modelo corriendo, abre otra ventana de terminal:
ollama ps GPU detectada: columna PROCESSOR → 100% GPU + nombre de tu tarjeta
Sin GPU: columna PROCESSOR → 100% CPU. Revisa la sección de troubleshooting abajo.
Comandos esenciales
| Comando | Qué hace |
|---|---|
| ollama run llama3.2:3b | Descarga (si no está) y corre el modelo en chat interactivo |
| ollama list | Lista modelos descargados con tamaño y fecha |
| ollama ps | Muestra modelos activos y si usan GPU o CPU |
| ollama pull mistral | Descarga un modelo sin ejecutarlo |
| ollama rm llama3.2:3b | Elimina un modelo descargado (libera disco) |
¿Cuántos tokens/seg obtendrás?
Introduce tu GPU y el modelo que quieres correr. Te decimos si cabe, cuántos tok/s obtendrás y si necesitas cuantización.
Calcular rendimiento en mi GPU →5. Tabla VRAM: qué modelos caben en tu GPU
La regla es simple: el modelo tiene que caber entero en VRAM para correr en GPU. Si no cabe, Ollama hace offloading parcial a RAM del sistema — funciona pero es mucho más lento. Esta tabla usa cuantización Q4_K_M, el estándar de facto para balance calidad/tamaño.
| Modelo | VRAM necesaria (Q4) | RTX 3060 8GB | RTX 3060 12GB | RTX 4060 Ti 16GB | RTX 4090 24GB |
|---|---|---|---|---|---|
| Llama 3.2 3B Q4 | ~2.0 GB | ✓ 100+ tok/s | ✓ 100+ tok/s | ✓ 100+ tok/s | ✓ 200 tok/s |
| Llama 3.2 8B Q4 | ~4.7 GB | ✓ 70-90 tok/s | ✓ 80-100 tok/s | ✓ 60 tok/s | ✓ 155 tok/s |
| Mistral 7B Q4 | ~4.1 GB | ✓ 70-90 tok/s | ✓ 80-100 tok/s | ✓ 60 tok/s | ✓ 155 tok/s |
| Phi-4 14B Q4 | ~8.0 GB | ⚠ parcial | ✓ 50-65 tok/s | ✓ 35 tok/s | ✓ 84 tok/s |
| Gemma 3 12B Q4 | ~7.0 GB | ⚠ parcial | ✓ 50-60 tok/s | ✓ 35 tok/s | ✓ 84 tok/s |
| Llama 3.3 70B Q4 | ~42 GB | ✗ no cabe | ✗ no cabe | ✗ no cabe | ⚠ parcial |
✓ = corre enteramente en GPU. ⚠ = offloading parcial a RAM del sistema (más lento). ✗ = no entra en VRAM. Velocidades estimadas para referencia — varían según plataforma. Para cálculos precisos usa la calculadora de VRAM.
6. GPUs recomendadas por presupuesto
Si estás pensando en comprar GPU específicamente para IA local con Ollama en Windows, estos son mis picks según presupuesto. La llave es la VRAM, no los shader cores — para inferencia, más VRAM casi siempre gana más velocidad bruta.
RTX 3060 12GB
Mejor relación calidad/precio12 GB de VRAM en una tarjeta de gama media — la anomalía que hizo famosa a esta GPU entre la comunidad de IA local. Con ella corres Llama 3.2 8B, Mistral 7B, Gemma 3 12B y Phi-4 14B a velocidades cómodas. En segunda mano, sigue siendo una de las opciones más eficientes del mercado.
Ver especificaciones completas y benchmarks en la página de la RTX 3060.
12 GB VRAM · ~80-100 tok/s en Llama 3.2 8B · banda usada competitiva
RTX 4060 Ti 16GB
Para modelos 13B-30B16 GB de VRAM en un consumo de 165W. Ada Lovelace con mejor eficiencia por watt que su predecesor. El bandwidth de 288 GB/s limita un poco los tok/s frente a la RTX 3090, pero es más barata y nueva. Buena opción si vas a correr modelos 13B regularmente y no quieres una tarjeta de 350W.
Benchmarks detallados en la página de la RTX 4060 Ti 16GB.
16 GB VRAM · ~60 tok/s en Llama 3.2 8B · banda media
RTX 4070 Ti Super 16GB
Alto rendimientoEl salto de bandwidth sobre la 4060 Ti (672 GB/s vs 288 GB/s) se traduce directamente en más tokens/segundo. Si el presupuesto llega, es el sweet spot para 2026: 16 GB VRAM, consumo razonable a 285W y modelos 13B volando.
Más info en la página de la RTX 4070 Ti Super.
16 GB VRAM · ~80-95 tok/s en Llama 3.2 8B · banda alta
Compara todas las GPUs en el comparador de GPUs para IA — filtrado por VRAM, precio y rendimiento en modelos específicos.
7. Variables de entorno útiles
Ollama funciona sin configuración, pero hay 4 variables que tarde o temprano vas a necesitar. En Windows se configuran en Configuración del sistema → Variables de entorno (o con PowerShell como admin).
| Variable | Default | Para qué |
|---|---|---|
| OLLAMA_MODELS | C:\Users\... | Mover modelos a otro disco (SSD D: más grande) |
| OLLAMA_HOST | 127.0.0.1:11434 | Exponer la API a la red local (0.0.0.0:11434) |
| OLLAMA_KEEP_ALIVE | 5m | Tiempo que el modelo queda en VRAM sin uso |
| OLLAMA_NUM_PARALLEL | 1 | Solicitudes paralelas (útil si expones la API) |
Para configurar via PowerShell (como admin) y que sea permanente:
PowerShell (admin)
[System.Environment]::SetEnvironmentVariable("OLLAMA_MODELS", "D:\OllamaModels", "User") Tras cambiar variables, reinicia el servicio: icono del tray → Quit → reabre Ollama.
8. Troubleshooting — errores comunes
Error: "ollama: command not found" / "no se reconoce el comando"
El PATH no se actualizó en la terminal actual. Solución: cierra completamente
cmd/PowerShell y vuelve a abrirla. Si persiste, busca "Variables de entorno" en Windows y verifica que
C:\Users\[user]\AppData\Local\Programs\Ollama está en PATH.
GPU no detectada — "ollama ps" muestra 100% CPU
Causas más comunes y soluciones:
- Driver NVIDIA desactualizado → actualiza desde NVIDIA GeForce Experience o nvidia.com (mínimo driver 527)
- CUDA no instalado → Ollama lleva CUDA incluido desde v0.5, pero verifica que el driver es reciente
- El modelo cabe en VRAM pero Ollama usa CPU → asegúrate que el servicio reinició tras actualizar drivers
- GPU integrada interfiriendo → en BIOS, desactiva iGPU si tienes problemas con un portátil
Error: "out of memory" al cargar modelo
El modelo no cabe en VRAM. Opciones:
- • Prueba una cuantización más pequeña:
ollama run llama3.2:8b:q2_k - • Usa un modelo más pequeño: Llama 3.2 3B en vez de 8B
- • Cierra otras aplicaciones que usen VRAM (juegos, navegador con aceleración GPU)
La API no responde en localhost:11434
El servicio Ollama puede no estar corriendo. Verifica:
ollama serve Si ya hay un proceso corriendo, saldrá el error "address already in use" — eso significa que el servicio sí está activo y el problema está en otro lado (firewall, puerto ocupado).
Descarga lenta o se corta
Los modelos se descargan en fragmentos. Si se corta, vuelve a ejecutar el mismo
ollama run o ollama pull
— retoma desde donde quedó. Si la velocidad es muy baja, el servidor de Ollama puede tener carga
alta; espera unos minutos y reintenta.
9. Preguntas frecuentes
¿Necesito una GPU para usar Ollama en Windows? ▾
No. Ollama funciona en CPU. Con un i7 moderno obtendrás 8-12 tokens/segundo en modelos 3B — suficiente para probar. Para una experiencia fluida (50+ tok/s) necesitas GPU NVIDIA con mínimo 6 GB VRAM. Con 8 GB corres Llama 3.2 8B, con 12 GB el rango completo de modelos mid-range.
¿Funciona Ollama con GPU AMD en Windows? ▾
El soporte ROCm en Windows está en beta. Funciona en RX 6700 XT y superiores (RDNA2/RDNA3), pero con menos estabilidad que NVIDIA CUDA. Si tienes AMD, la recomendación es WSL2 con Ubuntu donde ROCm está completamente maduro.
¿Cuánto espacio ocupa Ollama en disco? ▾
El instalador pesa ~60 MB. Los modelos se almacenan por separado: Llama 3.2 3B Q4 (~2 GB),
Llama 3.2 8B Q4 (~4.7 GB), Mistral 7B Q4 (~4.1 GB). Para empezar bien, reserva 15-20 GB.
Con OLLAMA_MODELS puedes mover los modelos a otro disco.
¿Cómo verifico si Ollama usa mi GPU? ▾
Con el modelo corriendo, abre otra terminal y ejecuta ollama ps.
La columna PROCESSOR muestra "100% GPU" si usa tu tarjeta, o "100% CPU" si no la detectó.
En ese caso, actualiza drivers NVIDIA.
¿Ollama es seguro? ¿Mis datos salen a internet? ▾
Completamente local. La inferencia ocurre en tu hardware. Tus prompts y respuestas no van a ningún servidor externo. La única conexión a internet es la descarga inicial de cada modelo desde Ollama Hub. Una vez descargado, funciona sin internet.
¿Qué modelos puedo correr con 8 GB de VRAM? ▾
Con 8 GB sin problema: Llama 3.2 3B Q4, Llama 3.2 8B Q4 (cabe por los pelos), Mistral 7B Q4. Phi-4 14B Q4 (8 GB) es borderline — puede hacer offloading parcial. Con 12 GB ya entras cómodo: Gemma 3 12B Q4, Phi-4 14B Q4 completo, Mistral 12B Q4.
Próximos pasos
Tienes Ollama instalado y corriendo. El siguiente nivel:
Ollama vs LM Studio
¿Prefieres interfaz gráfica? Compara ambas opciones con datos reales.
Calculadora de VRAM
Descubre exactamente qué modelos caben en tu GPU y a qué velocidad.
Comparador de GPUs
Compara el rendimiento en IA de todas las tarjetas del mercado.
Guía técnica completa
API, Modelfile, integración con Open WebUI y configuración avanzada.
Preguntas frecuentes
¿Necesito instalar los drivers de NVIDIA para Ollama? ▾
Sí, necesitas drivers NVIDIA actualizados (versión 525+) y opcionalmente CUDA toolkit para algunas funciones avanzadas.
¿Funciona Ollama en Windows sin GPU? ▾
Sí, Ollama puede correr en CPU pero será 10-20x más lento que con GPU. Para uso serio necesitas GPU NVIDIA.
¿Puedo usar Ollama y LM Studio a la vez? ▾
No recomendado. Ambos compiten por VRAM. Cierra uno antes de abrir el otro.
Hardware recomendado para este modelo
GPUs verificadas para correr Ollama en Windows — actualizado en 2026.
€269
RTX 3060 12GB
Pros
- La GPU más recomendada para Ollama Windows
- 12 GB VRAM corre Llama 8B y Mistral 7B sin problema
- Drivers NVIDIA maduros en Windows
Cons
- Bandwidth inferior a generaciones más nuevas
€299
RTX 4060 8GB
Pros
- Solo 115W — ideal para PC compactos
- Ada Lovelace: mejor eficiencia por watt
- Bajo perfil disponible para mini-ITX
Cons
- 8 GB VRAM limita modelos 13B+
€499
RTX 4070 Super 12GB
Pros
- Alta velocidad: 80+ tok/s en Llama 8B
- 12 GB VRAM para modelos hasta 27B Q4
- Excelente opción para uso intensivo
Cons
- Inversión mayor que RTX 3060
Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.
Found this useful? Get guides like this in your inbox every week.