Skip to main content
Guía paso a paso 12 min de lectura ·

Por el equipo editorial de RunAIatHome. Procedimiento validado sobre instalación, uso de GPU y errores habituales en Windows para IA local.

Cómo instalar Ollama en Windows: guía completa 2026

De cero a tu primer LLM corriendo en local en menos de 10 minutos. Instalación, configuración de GPU, variables de entorno y solución a todos los errores que te van a salir. Con datos reales, no promesas.

1. Respuesta rápida

Si ya sabes lo que haces, aquí tienes el resumen. Si no, sigue leyendo — cada paso está explicado abajo.

Paso Comando / Acción Tiempo
Descargar instalador ollama.com/download → Windows 2 min
Instalar Ejecutar .exe, seguir wizard 1 min
Verificar ollama --version 30 seg
Primer modelo ollama run llama3.2:3b 3-10 min
Verificar GPU ollama ps 30 seg

2. Requisitos mínimos

Mínimo absoluto (funciona, pero lento)

  • RAM: 8 GB (para modelos 3B-7B en CPU)
  • Almacenamiento: 10 GB libres
  • SO: Windows 10 v1903 o superior / Windows 11
  • GPU: No obligatoria — corre en CPU (lento pero funciona)

Recomendado para buena experiencia

  • GPU NVIDIA: GTX 1660 Ti o mejor (6 GB VRAM mínimo para Llama 3.2 3B Q4)
  • VRAM 8 GB: corre Llama 3.2 8B Q4 (4.5 GB de VRAM)
  • VRAM 12 GB: corre Mistral 7B, Gemma 3 12B, Phi-4
  • RAM: 16 GB recomendado

GPU AMD en Windows: soporte experimental

El soporte de ROCm en Windows es experimental. En la práctica, las GPUs AMD Radeon RX 6700 XT o superiores pueden funcionar con ROCm 5.7+, pero la experiencia no es tan estable como con NVIDIA CUDA. Para AMD en Windows recomendamos usar el modo CPU o instalar WSL2 con Ubuntu donde ROCm tiene soporte completo. No es que "AMD no funcione" — es que requiere pasos extra y puede dar problemas.

No sabes cuánta VRAM necesitas? Usa nuestra calculadora de VRAM para ver exactamente qué modelos caben en tu GPU.

3. Descarga e instalación paso a paso

Ollama v0.6.x (versión actual a fecha de publicación). El proceso completo no llega a 5 minutos.

1

Descargar el instalador

Ve a ollama.com/download y pulsa el botón "Download for Windows". El archivo se llama OllamaSetup.exe y pesa unos 60 MB.

2

Ejecutar el instalador

Doble clic en el .exe. Windows te pedirá permisos de administrador (UAC). El wizard es simple: 3 clicks y listo. Se instala en C:\Users\[tu-usuario]\AppData\Local\Programs\Ollama.

3

Icono en la bandeja del sistema

Al terminar la instalación verás el icono de Ollama en la bandeja del sistema (tray, abajo a la derecha). Ollama arranca automáticamente como servicio de Windows en segundo plano.

4

Verificar la instalación

Abre cmd o PowerShell y escribe:

ollama --version

Debes ver algo como: ollama version 0.6.x. Si da error "no se reconoce el comando", reinicia la terminal.

4. Tu primer modelo: GPU vs CPU

Ya tienes Ollama instalado. Vamos a descargar y correr tu primer modelo. Te recomiendo empezar con Llama 3.2 3B — es ligero, rápido y sorprendentemente capaz.

Abre cmd o PowerShell y ejecuta:

ollama run llama3.2:3b

La primera vez descarga el modelo (~2 GB para 3B Q4). Las siguientes veces arranca en segundos.

Velocidad esperada según tu hardware

Hardware Modelo tok/s Tipo
CPU i7 gen 12+ Llama 3.2 3B ~8-12 tok/s medido
CPU i5 gen 12+ Llama 3.2 3B ~5-8 tok/s medido
GPU RTX 3060 12GB Llama 3.2 3B ~80-100 tok/s estimado
GPU RTX 3060 12GB Mistral 7B ~50-65 tok/s estimado
GPU RTX 3070 8GB Llama 3.2 3B ~90-110 tok/s estimado

Verificar si Ollama usa tu GPU

Mientras el modelo está corriendo, abre otra ventana de cmd o PowerShell y ejecuta:

ollama ps

Con GPU: La columna PROCESSOR muestra 100% GPU

Sin GPU: La columna PROCESSOR muestra 100% CPU — revisa tus drivers NVIDIA

Sabes qué modelos caben en tu GPU?

Después de instalar Ollama, usa nuestra calculadora de VRAM para ver exactamente qué modelos puedes correr en tu hardware — con velocidad estimada incluida.

Calcular VRAM disponible →

5. Variables de entorno (configuración avanzada)

Ollama funciona out-of-the-box, pero hay 4 variables que tarde o temprano vas a necesitar. Especialmente OLLAMA_MODELS — si tu disco C: es un SSD pequeño, cada modelo ocupa entre 4 y 20 GB y lo vas a llenar rápido.

Variable Valor ejemplo Para qué sirve
OLLAMA_HOST 0.0.0.0:11434 Acceso desde red local (por defecto solo localhost)
OLLAMA_MODELS D:\ollama_models Cambiar carpeta de modelos a otro disco
OLLAMA_NUM_PARALLEL 2 Peticiones paralelas simultáneas
OLLAMA_MAX_LOADED_MODELS 1 Modelos cargados en memoria a la vez

Cómo configurarlas en Windows

Opción 1: Interfaz gráfica

Windows + R → escribe sysdm.cpl → pestaña Avanzado → botón Variables de entorno → Nueva (en variables de usuario).

Opción 2: PowerShell (una línea)

[Environment]::SetEnvironmentVariable("OLLAMA_HOST","0.0.0.0:11434","User")

Importante: Después de cambiar una variable, reinicia Ollama. Clic derecho en el icono de la bandeja → Quit Ollama, o desde cmd: taskkill /f /im ollama.exe. Luego vuelve a abrir Ollama.

6. Ollama API — uso básico

Ollama expone una API REST en localhost:11434 desde el momento en que arranca. Puedes usarla desde cualquier lenguaje o herramienta.

Chat simple desde PowerShell:

Invoke-RestMethod -Uri "http://localhost:11434/api/chat" ` -Method POST -ContentType "application/json" ` -Body '{"model":"llama3.2:3b","messages":[{"role":"user","content":"Hola, qué eres?"}],"stream":false}'

O con curl (si lo tienes instalado):

curl http://localhost:11434/api/chat -d "{\"model\":\"llama3.2:3b\",\"messages\":[{\"role\":\"user\",\"content\":\"Hola\"}],\"stream\":false}"

Interfaces gráficas compatibles

Si prefieres no usar terminal, hay varias herramientas con GUI que se conectan a la API de Ollama: Open WebUI (interfaz web tipo ChatGPT), AnythingLLM (documentos + chat), Continue.dev (extensión para VS Code con autocompletado IA).

7. Troubleshooting — errores comunes

Estos son los errores reales que encontrarás. No teoría — cada uno lo hemos visto o nos lo han reportado.

Error: listen tcp 127.0.0.1:11434: bind: address already in use

Causa: Ollama ya está corriendo en segundo plano.

Solución: taskkill /f /im ollama.exe, espera 5 segundos, y vuelve a abrir Ollama.

Error loading model: CUDA out of memory

Causa: El modelo no cabe en la VRAM de tu GPU.

Solución: Usa una versión más pequeña del modelo (Q4 en vez de Q8) o fuerza ejecución en CPU con OLLAMA_NUM_GPU=0 ollama run modelo.

GPU no detectada (100% CPU mode)

Causa: Drivers NVIDIA desactualizados o incompatibles.

Solución: Actualiza los drivers NVIDIA al último release con soporte CUDA 12.x+. Descárgalos desde nvidia.com/drivers. Reinicia el PC después de actualizar.

Error: model 'xxx' not found

Causa: Nombre de modelo incorrecto o modelo no descargado.

Solución: Comprueba modelos instalados con ollama list. Busca modelos disponibles con ollama search llama. Los nombres son sensibles a mayúsculas/minúsculas.

Muy lento (2-3 tok/s)

Causa: Ollama usa CPU en vez de GPU.

Solución: Ejecuta ollama ps para confirmar. Si dice "100% CPU" y tienes GPU NVIDIA, actualiza drivers CUDA. Si usas CPU sin GPU, esos 2-3 tok/s en modelos 7B son normales — prueba un modelo 3B para mejor velocidad.

Error al instalar en Windows 10

Causa: Versión de Windows 10 anterior a v1903.

Solución: Actualiza Windows 10 a la versión 1903 o superior. Comprueba tu versión con winver en el menú Inicio.

Ollama no responde después de suspensión/hibernación

Causa: El servicio de Ollama pierde la conexión con la GPU al despertar.

Solución: Clic derecho en el icono de la bandeja → Quit Ollama → Vuelve a abrirlo. Si persiste: taskkill /f /im ollama.exe y abre de nuevo.

8. Preguntas frecuentes

Ollama en Windows es gratis?

Sí, Ollama es open source (MIT license) y gratuito. Los modelos que corres también son gratuitos — Llama 3, Mistral, Phi-4, Gemma 3 son todos open weights sin coste por uso. No hay suscripción, no hay límite de tokens, no hay telemetría obligatoria.

Necesito una GPU NVIDIA? Funciona con GPU AMD?

No es obligatorio tener GPU — Ollama funciona en CPU (lento pero funcional). Con GPU NVIDIA y CUDA funciona de forma nativa sin configuración extra. Con GPU AMD en Windows el soporte es experimental via ROCm; para mejor compatibilidad AMD recomendamos WSL2 con Ubuntu donde ROCm tiene soporte completo.

Cuánto espacio necesito en disco?

El instalador pesa ~60 MB. Cada modelo ocupa entre 2 GB (3B en Q4) y 26 GB (70B en Q4). Para empezar recomendamos 10 GB libres. Si descargas varios modelos, configura OLLAMA_MODELS para moverlos a otro disco.

Se puede usar Ollama en Windows sin internet?

Sí. Una vez descargado el modelo, funciona completamente offline. Solo necesitas internet para la descarga inicial de cada modelo. Esto es una de las mayores ventajas de la IA local: privacidad total, sin depender de servidores externos.

Cómo sé si Ollama está usando mi GPU?

Ejecuta ollama ps mientras corre un modelo. En la columna PROCESSOR verás "100% GPU" si usa la GPU o "100% CPU" si no la detectó. También puedes verificar el uso de VRAM con nvidia-smi en otra terminal.

Siguientes pasos

GPUs recomendadas para Ollama en Windows

Ollama needs 4 GB VRAM minimum. 7B models need 8 GB. 13B+ needs 16 GB.

Precios y disponibilidad pueden cambiar. Enlaces de afiliado.

Entry Tier

8–12 GB VRAM

RTX 4060

8 GB VRAM
Ver disponibilidad →

RTX 3060

12 GB VRAM
Ver disponibilidad →

Mid Tier

12–16 GB VRAM

RTX 4060 Ti 16GB

16 GB VRAM
Ver disponibilidad →

RTX 4070

12 GB VRAM
Ver disponibilidad →

High Tier

24 GB VRAM

RTX 4090

24 GB VRAM
Ver disponibilidad →

RTX 3090

24 GB VRAM
Ver disponibilidad →

Sabes qué modelos caben en tu GPU?

Después de instalar Ollama, usa nuestra calculadora de VRAM para ver exactamente qué modelos puedes correr en tu hardware — con velocidad estimada incluida.