Por el equipo editorial de RunAIatHome. Procedimiento validado sobre instalación, uso de GPU y errores habituales en Windows para IA local.
Cómo instalar Ollama en Windows: guía completa 2026
De cero a tu primer LLM corriendo en local en menos de 10 minutos. Instalación, configuración de GPU, variables de entorno y solución a todos los errores que te van a salir. Con datos reales, no promesas.
1. Respuesta rápida
Si ya sabes lo que haces, aquí tienes el resumen. Si no, sigue leyendo — cada paso está explicado abajo.
| Paso | Comando / Acción | Tiempo |
|---|---|---|
| Descargar instalador | ollama.com/download → Windows | 2 min |
| Instalar | Ejecutar .exe, seguir wizard | 1 min |
| Verificar | ollama --version | 30 seg |
| Primer modelo | ollama run llama3.2:3b | 3-10 min |
| Verificar GPU | ollama ps | 30 seg |
2. Requisitos mínimos
Mínimo absoluto (funciona, pero lento)
- RAM: 8 GB (para modelos 3B-7B en CPU)
- Almacenamiento: 10 GB libres
- SO: Windows 10 v1903 o superior / Windows 11
- GPU: No obligatoria — corre en CPU (lento pero funciona)
Recomendado para buena experiencia
- GPU NVIDIA: GTX 1660 Ti o mejor (6 GB VRAM mínimo para Llama 3.2 3B Q4)
- VRAM 8 GB: corre Llama 3.2 8B Q4 (4.5 GB de VRAM)
- VRAM 12 GB: corre Mistral 7B, Gemma 3 12B, Phi-4
- RAM: 16 GB recomendado
GPU AMD en Windows: soporte experimental
El soporte de ROCm en Windows es experimental. En la práctica, las GPUs AMD Radeon RX 6700 XT o superiores pueden funcionar con ROCm 5.7+, pero la experiencia no es tan estable como con NVIDIA CUDA. Para AMD en Windows recomendamos usar el modo CPU o instalar WSL2 con Ubuntu donde ROCm tiene soporte completo. No es que "AMD no funcione" — es que requiere pasos extra y puede dar problemas.
No sabes cuánta VRAM necesitas? Usa nuestra calculadora de VRAM para ver exactamente qué modelos caben en tu GPU.
3. Descarga e instalación paso a paso
Ollama v0.6.x (versión actual a fecha de publicación). El proceso completo no llega a 5 minutos.
Descargar el instalador
Ve a ollama.com/download y pulsa el botón "Download for Windows". El archivo se llama OllamaSetup.exe y pesa unos 60 MB.
Ejecutar el instalador
Doble clic en el .exe. Windows te pedirá permisos de administrador (UAC). El wizard es simple: 3 clicks y listo. Se instala en C:\Users\[tu-usuario]\AppData\Local\Programs\Ollama.
Icono en la bandeja del sistema
Al terminar la instalación verás el icono de Ollama en la bandeja del sistema (tray, abajo a la derecha). Ollama arranca automáticamente como servicio de Windows en segundo plano.
Verificar la instalación
Abre cmd o PowerShell y escribe:
ollama --version Debes ver algo como: ollama version 0.6.x. Si da error "no se reconoce el comando", reinicia la terminal.
4. Tu primer modelo: GPU vs CPU
Ya tienes Ollama instalado. Vamos a descargar y correr tu primer modelo. Te recomiendo empezar con Llama 3.2 3B — es ligero, rápido y sorprendentemente capaz.
Abre cmd o PowerShell y ejecuta:
ollama run llama3.2:3b La primera vez descarga el modelo (~2 GB para 3B Q4). Las siguientes veces arranca en segundos.
Velocidad esperada según tu hardware
| Hardware | Modelo | tok/s | Tipo |
|---|---|---|---|
| CPU i7 gen 12+ | Llama 3.2 3B | ~8-12 tok/s | medido |
| CPU i5 gen 12+ | Llama 3.2 3B | ~5-8 tok/s | medido |
| GPU RTX 3060 12GB | Llama 3.2 3B | ~80-100 tok/s | estimado |
| GPU RTX 3060 12GB | Mistral 7B | ~50-65 tok/s | estimado |
| GPU RTX 3070 8GB | Llama 3.2 3B | ~90-110 tok/s | estimado |
Verificar si Ollama usa tu GPU
Mientras el modelo está corriendo, abre otra ventana de cmd o PowerShell y ejecuta:
ollama ps Con GPU: La columna PROCESSOR muestra 100% GPU
Sin GPU: La columna PROCESSOR muestra 100% CPU — revisa tus drivers NVIDIA
Sabes qué modelos caben en tu GPU?
Después de instalar Ollama, usa nuestra calculadora de VRAM para ver exactamente qué modelos puedes correr en tu hardware — con velocidad estimada incluida.
Calcular VRAM disponible →5. Variables de entorno (configuración avanzada)
Ollama funciona out-of-the-box, pero hay 4 variables que tarde o temprano vas a necesitar.
Especialmente OLLAMA_MODELS — si tu disco C: es un SSD pequeño, cada modelo ocupa entre 4 y 20 GB y lo vas a llenar rápido.
| Variable | Valor ejemplo | Para qué sirve |
|---|---|---|
| OLLAMA_HOST | 0.0.0.0:11434 | Acceso desde red local (por defecto solo localhost) |
| OLLAMA_MODELS | D:\ollama_models | Cambiar carpeta de modelos a otro disco |
| OLLAMA_NUM_PARALLEL | 2 | Peticiones paralelas simultáneas |
| OLLAMA_MAX_LOADED_MODELS | 1 | Modelos cargados en memoria a la vez |
Cómo configurarlas en Windows
Opción 1: Interfaz gráfica
Windows + R → escribe sysdm.cpl → pestaña Avanzado → botón Variables de entorno → Nueva (en variables de usuario).
Opción 2: PowerShell (una línea)
[Environment]::SetEnvironmentVariable("OLLAMA_HOST","0.0.0.0:11434","User") Importante: Después de cambiar una variable, reinicia Ollama. Clic derecho en el icono de la bandeja → Quit Ollama, o desde cmd: taskkill /f /im ollama.exe. Luego vuelve a abrir Ollama.
6. Ollama API — uso básico
Ollama expone una API REST en localhost:11434 desde el momento en que arranca. Puedes usarla desde cualquier lenguaje o herramienta.
Chat simple desde PowerShell:
Invoke-RestMethod -Uri "http://localhost:11434/api/chat" `
-Method POST -ContentType "application/json" `
-Body '{"model":"llama3.2:3b","messages":[{"role":"user","content":"Hola, qué eres?"}],"stream":false}' O con curl (si lo tienes instalado):
curl http://localhost:11434/api/chat -d "{\"model\":\"llama3.2:3b\",\"messages\":[{\"role\":\"user\",\"content\":\"Hola\"}],\"stream\":false}" Interfaces gráficas compatibles
Si prefieres no usar terminal, hay varias herramientas con GUI que se conectan a la API de Ollama: Open WebUI (interfaz web tipo ChatGPT), AnythingLLM (documentos + chat), Continue.dev (extensión para VS Code con autocompletado IA).
7. Troubleshooting — errores comunes
Estos son los errores reales que encontrarás. No teoría — cada uno lo hemos visto o nos lo han reportado.
Error: listen tcp 127.0.0.1:11434: bind: address already in use
Causa: Ollama ya está corriendo en segundo plano.
Solución: taskkill /f /im ollama.exe, espera 5 segundos, y vuelve a abrir Ollama.
Error loading model: CUDA out of memory
Causa: El modelo no cabe en la VRAM de tu GPU.
Solución: Usa una versión más pequeña del modelo (Q4 en vez de Q8) o fuerza ejecución en CPU con OLLAMA_NUM_GPU=0 ollama run modelo.
GPU no detectada (100% CPU mode)
Causa: Drivers NVIDIA desactualizados o incompatibles.
Solución: Actualiza los drivers NVIDIA al último release con soporte CUDA 12.x+. Descárgalos desde nvidia.com/drivers. Reinicia el PC después de actualizar.
Error: model 'xxx' not found
Causa: Nombre de modelo incorrecto o modelo no descargado.
Solución: Comprueba modelos instalados con ollama list. Busca modelos disponibles con ollama search llama. Los nombres son sensibles a mayúsculas/minúsculas.
Muy lento (2-3 tok/s)
Causa: Ollama usa CPU en vez de GPU.
Solución: Ejecuta ollama ps para confirmar. Si dice "100% CPU" y tienes GPU NVIDIA, actualiza drivers CUDA. Si usas CPU sin GPU, esos 2-3 tok/s en modelos 7B son normales — prueba un modelo 3B para mejor velocidad.
Error al instalar en Windows 10
Causa: Versión de Windows 10 anterior a v1903.
Solución: Actualiza Windows 10 a la versión 1903 o superior. Comprueba tu versión con winver en el menú Inicio.
Ollama no responde después de suspensión/hibernación
Causa: El servicio de Ollama pierde la conexión con la GPU al despertar.
Solución: Clic derecho en el icono de la bandeja → Quit Ollama → Vuelve a abrirlo. Si persiste: taskkill /f /im ollama.exe y abre de nuevo.
8. Preguntas frecuentes
Ollama en Windows es gratis?
Sí, Ollama es open source (MIT license) y gratuito. Los modelos que corres también son gratuitos — Llama 3, Mistral, Phi-4, Gemma 3 son todos open weights sin coste por uso. No hay suscripción, no hay límite de tokens, no hay telemetría obligatoria.
Necesito una GPU NVIDIA? Funciona con GPU AMD?
No es obligatorio tener GPU — Ollama funciona en CPU (lento pero funcional). Con GPU NVIDIA y CUDA funciona de forma nativa sin configuración extra. Con GPU AMD en Windows el soporte es experimental via ROCm; para mejor compatibilidad AMD recomendamos WSL2 con Ubuntu donde ROCm tiene soporte completo.
Cuánto espacio necesito en disco?
El instalador pesa ~60 MB. Cada modelo ocupa entre 2 GB (3B en Q4) y 26 GB (70B en Q4).
Para empezar recomendamos 10 GB libres. Si descargas varios modelos, configura
OLLAMA_MODELS para moverlos a otro disco.
Se puede usar Ollama en Windows sin internet?
Sí. Una vez descargado el modelo, funciona completamente offline. Solo necesitas internet para la descarga inicial de cada modelo. Esto es una de las mayores ventajas de la IA local: privacidad total, sin depender de servidores externos.
Cómo sé si Ollama está usando mi GPU?
Ejecuta ollama ps mientras corre un modelo. En la columna
PROCESSOR verás "100% GPU" si usa la GPU o "100% CPU" si no la detectó. También puedes verificar
el uso de VRAM con nvidia-smi en otra terminal.
Siguientes pasos
- Calculadora de VRAM — comprueba qué modelos caben en tu GPU
- Cómo elegir GPU para IA local — si necesitas más VRAM
- DeepSeek R1 en local — requisitos y destilaciones
- Gemma 3 en local — uno de los mejores modelos para Windows
- Llama 3.2 3B — el modelo perfecto para empezar
GPUs recomendadas para Ollama en Windows
Ollama needs 4 GB VRAM minimum. 7B models need 8 GB. 13B+ needs 16 GB.
Precios y disponibilidad pueden cambiar. Enlaces de afiliado.
Entry Tier
8–12 GB VRAMRTX 4060
8 GB VRAMRTX 3060
12 GB VRAMMid Tier
12–16 GB VRAMRTX 4060 Ti 16GB
16 GB VRAMRTX 4070
12 GB VRAMHigh Tier
24 GB VRAMRTX 4090
24 GB VRAMRTX 3090
24 GB VRAMSabes qué modelos caben en tu GPU?
Después de instalar Ollama, usa nuestra calculadora de VRAM para ver exactamente qué modelos puedes correr en tu hardware — con velocidad estimada incluida.