¿Cuánto ocupa Ollama en disco?

El instalador pesa ~60 MB. Los modelos se almacenan por separado: Llama 3.2 3B Q4 ocupa ~2 GB, Llama 3.2 8B Q4 ocupa ~4.7 GB, Mistral 7B Q4 ocupa ~4.1 GB. Para empezar holgado, reserva 15-20 GB. Puedes cambiar la carpeta de modelos con OLLAMA_MODELS.

¿Cómo verifico si Ollama está usando mi GPU?

Mientras el modelo está activo, abre otra terminal y ejecuta "ollama ps". En la columna PROCESSOR verás "100% GPU" si usa la GPU correctamente, o "100% CPU" si no detectó la GPU. En ese caso, verifica que tienes los drivers NVIDIA actualizados y que CUDA está disponible.

¿Es seguro usar Ollama en Windows? ¿Los datos salen a internet?

Sí, es completamente local. Ollama corre el modelo en tu hardware y la inferencia ocurre en tu máquina. Los prompts y respuestas no salen a internet. La única conexión externa es la descarga inicial del modelo desde Ollama Hub.

Guía paso a paso 15 min de lectura · Marzo 2026

Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.

Divulgación: Este artículo contiene enlaces de afiliado de Amazon. Si compras a través de ellos, recibimos una pequeña comisión sin coste adicional para ti.

Alex Chen AI Hardware Specialist Actualizado 2026-03-21

GitHub: github.com/javier-morales-ia

Cómo instalar Ollama en Windows paso a paso [2026]

Q: ¿Necesito una GPU para usar Ollama en Windows?

No, Ollama funciona en CPU. Con un i7 moderno obtendrás 8-12 tokens/segundo en modelos 3B, suficiente para probar. Para una experiencia fluida (50+ tok/s) necesitas una GPU NVIDIA con al menos 6 GB de VRAM. Con 8 GB de VRAM puedes correr Llama 3.2 8B, con 12 GB ya abres el rango completo de modelos mid-range.

Q: ¿Funciona Ollama con GPU AMD en Windows?

El soporte de ROCm en Windows es experimental en 2026. Las GPUs AMD Radeon RX 6700 XT o superiores pueden funcionar, pero la estabilidad no es la misma que con NVIDIA CUDA. Si tienes AMD y quieres máxima compatibilidad, activa WSL2 con Ubuntu — ahí ROCm tiene soporte completo.

Q: ¿Qué modelos puedo correr con 8 GB de VRAM?

Con 8 GB de VRAM puedes correr sin problema: Llama 3.2 3B Q4 (2 GB), Llama 3.2 8B Q4 (4.7 GB), Mistral 7B Q4 (4.1 GB), Phi-4 14B Q2 (cabe justo). Con 12 GB ya entras en terreno cómodo: Gemma 3 12B Q4 (7 GB), Phi-4 14B Q4 (8 GB), Mistral 12B Q4.

Ollama convierte tu PC en un servidor de IA privado. En 5 minutos tienes Llama 3, Mistral o Phi-4 corriendo en local, sin APIs de pago, sin que tus datos salgan de casa. Esta guía cubre todo: instalación, GPU, primer modelo, errores frecuentes y qué hardware comprar si todavía no tienes GPU.

¿Ya tienes GPU pero no sabes qué modelos caben? Antes de descargar nada, pasa por la calculadora de VRAM — te dice exactamente qué modelos entran en tu tarjeta y a cuántos tokens/segundo irán.

¿Cómo instalar Ollama en Windows?

Descarga el instalador desde ollama.com/download, ejecuta el .exe y en 3 minutos tienes Ollama corriendo. Abre PowerShell y escribe ollama run llama3.

1. Qué es Ollama y por qué usarlo en Windows

Ollama es un runtime open-source para modelos de lenguaje que te permite correr LLMs en tu propia máquina. Piénsalo como Docker pero para modelos de IA: descargas un modelo con un comando, lo corres con otro, y tienes una API REST en localhost:11434 compatible con la mayoría de apps.

En Windows, Ollama funciona como servicio de fondo (system tray). Instala una vez y siempre está disponible. Soporte nativo para CUDA en GPUs NVIDIA — sin configurar nada extra, Ollama detecta tu RTX y la usa automáticamente.

Privacidad total

Tus prompts nunca salen de tu PC. Ideal para código confidencial, documentos sensibles.

Sin coste por token

Una vez descargado, el modelo es tuyo. Sin límites de rate, sin créditos agotados a medianoche.

API compatible OpenAI

Cualquier app que soporte OpenAI puede apuntar a tu Ollama local. Open WebUI, Continue, Cursor.

2. Requisitos del sistema

Mínimo (solo CPU)

▸SO: Windows 10 versión 1903 o superior, Windows 11
▸RAM: 8 GB (para modelos 3B), 16 GB para modelos 7B
▸Disco: 10 GB libres en SSD (los modelos se almacenan aquí)
▸CPU: cualquier procesador moderno. Velocidad: ~5-12 tok/s en modelos 3B

GPU AMD en Windows: léete esto antes

ROCm en Windows está en beta desde 2026. Funciona en RX 6700 XT y superiores (RDNA2/RDNA3), pero no con la estabilidad de CUDA. Si tienes AMD y quieres buen soporte, activa WSL2 con Ubuntu y corre Ollama ahí — ROCm en Linux está maduro. En CPU funciona igual de bien que NVIDIA.

3. Instalación paso a paso

Ollama v0.6.x en Windows. El proceso completo — descarga, instalación, verificación — no llega a 5 minutos.

Descargar el instalador

Ve a ollama.com/download y pulsa "Download for Windows". El archivo se llama OllamaSetup.exe (~60 MB). No instales desde otras fuentes — solo del sitio oficial.

Ejecutar el instalador

Doble clic en el .exe. Windows UAC te pedirá permisos de admin — acepta. El wizard son 3 clicks. Se instala en:


C:\Users\[usuario]\AppData\Local\Programs\Ollama

Icono en la bandeja del sistema

Al terminar, aparece el icono de Ollama en el tray (abajo a la derecha en Windows). Ollama corre en segundo plano como servicio. Se inicia automáticamente con Windows.

Verificar la instalación

Abre cmd o PowerShell (Win+R → cmd) y ejecuta:


ollama --version

Respuesta esperada: ollama version 0.6.x
Si dice "no se reconoce el comando": cierra la terminal y vuelve a abrirla. Si persiste, reinicia el PC.

Verificar detección de GPU

Si tienes GPU NVIDIA, comprueba que Ollama la detecta:


ollama list

Esto no te dice directamente si detectó la GPU, pero confirma que el servicio está corriendo. La GPU se confirmará en el paso siguiente al correr el primer modelo con ollama ps.

4. Tu primer modelo: descarga y ejecución

Recomiendo empezar con Llama 3.2 3B — cabe en cualquier hardware, es capaz para muchas tareas y se descarga en minutos. El comando es el mismo en cmd y PowerShell:

cmd / PowerShell

ollama run llama3.2:3b

Primera vez: descarga ~2 GB. Las siguientes: arranca en <5 segundos.

Una vez arrancado, ves el prompt >>> y puedes escribir directamente. Para salir: /bye o Ctrl+D.

Confirmar uso de GPU

Con el modelo corriendo, abre otra ventana de terminal:

ollama ps

GPU detectada: columna PROCESSOR → 100% GPU + nombre de tu tarjeta

Sin GPU: columna PROCESSOR → 100% CPU. Revisa la sección de troubleshooting abajo.

Comandos esenciales

Comando	Qué hace
ollama run llama3.2:3b	Descarga (si no está) y corre el modelo en chat interactivo
ollama list	Lista modelos descargados con tamaño y fecha
ollama ps	Muestra modelos activos y si usan GPU o CPU
ollama pull mistral	Descarga un modelo sin ejecutarlo
ollama rm llama3.2:3b	Elimina un modelo descargado (libera disco)

¿Cuántos tokens/seg obtendrás?

Introduce tu GPU y el modelo que quieres correr. Te decimos si cabe, cuántos tok/s obtendrás y si necesitas cuantización.

Calcular rendimiento en mi GPU →

5. Tabla VRAM: qué modelos caben en tu GPU

La regla es simple: el modelo tiene que caber entero en VRAM para correr en GPU. Si no cabe, Ollama hace offloading parcial a RAM del sistema — funciona pero es mucho más lento. Esta tabla usa cuantización Q4_K_M, el estándar de facto para balance calidad/tamaño.

Modelo	VRAM necesaria (Q4)	RTX 3060 8GB	RTX 3060 12GB	RTX 4060 Ti 16GB	RTX 4090 24GB
Llama 3.2 3B Q4	~2.0 GB	✓ 100+ tok/s	✓ 100+ tok/s	✓ 100+ tok/s	✓ 200 tok/s
Llama 3.2 8B Q4	~4.7 GB	✓ 70-90 tok/s	✓ 80-100 tok/s	✓ 60 tok/s	✓ 155 tok/s
Mistral 7B Q4	~4.1 GB	✓ 70-90 tok/s	✓ 80-100 tok/s	✓ 60 tok/s	✓ 155 tok/s
Phi-4 14B Q4	~8.0 GB	⚠ parcial	✓ 50-65 tok/s	✓ 35 tok/s	✓ 84 tok/s
Gemma 3 12B Q4	~7.0 GB	⚠ parcial	✓ 50-60 tok/s	✓ 35 tok/s	✓ 84 tok/s
Llama 3.3 70B Q4	~42 GB	✗ no cabe	✗ no cabe	✗ no cabe	⚠ parcial

✓ = corre enteramente en GPU. ⚠ = offloading parcial a RAM del sistema (más lento). ✗ = no entra en VRAM. Velocidades estimadas para referencia — varían según plataforma. Para cálculos precisos usa la calculadora de VRAM.

6. GPUs recomendadas por presupuesto

Si estás pensando en comprar GPU específicamente para IA local con Ollama en Windows, estos son mis picks según presupuesto. La llave es la VRAM, no los shader cores — para inferencia, más VRAM casi siempre gana más velocidad bruta.

RTX 3060 12GB

Mejor relación calidad/precio

12 GB de VRAM en una tarjeta de gama media — la anomalía que hizo famosa a esta GPU entre la comunidad de IA local. Con ella corres Llama 3.2 8B, Mistral 7B, Gemma 3 12B y Phi-4 14B a velocidades cómodas. En segunda mano, sigue siendo una de las opciones más eficientes del mercado.

Ver especificaciones completas y benchmarks en la página de la RTX 3060.

12 GB VRAM · ~80-100 tok/s en Llama 3.2 8B · banda usada competitiva

Ver en Amazon →

RTX 4060 Ti 16GB

Para modelos 13B-30B

16 GB de VRAM en un consumo de 165W. Ada Lovelace con mejor eficiencia por watt que su predecesor. El bandwidth de 288 GB/s limita un poco los tok/s frente a la RTX 3090, pero es más barata y nueva. Buena opción si vas a correr modelos 13B regularmente y no quieres una tarjeta de 350W.

Benchmarks detallados en la página de la RTX 4060 Ti 16GB.

16 GB VRAM · ~60 tok/s en Llama 3.2 8B · banda media

Ver en Amazon →

RTX 4070 Ti Super 16GB

Alto rendimiento

El salto de bandwidth sobre la 4060 Ti (672 GB/s vs 288 GB/s) se traduce directamente en más tokens/segundo. Si el presupuesto llega, es el sweet spot para 2026: 16 GB VRAM, consumo razonable a 285W y modelos 13B volando.

Más info en la página de la RTX 4070 Ti Super.

16 GB VRAM · ~80-95 tok/s en Llama 3.2 8B · banda alta

Ver en Amazon →

Compara todas las GPUs en el comparador de GPUs para IA — filtrado por VRAM, precio y rendimiento en modelos específicos.

7. Variables de entorno útiles

Ollama funciona sin configuración, pero hay 4 variables que tarde o temprano vas a necesitar. En Windows se configuran en Configuración del sistema → Variables de entorno (o con PowerShell como admin).

Variable	Default	Para qué
OLLAMA_MODELS	C:\Users\...	Mover modelos a otro disco (SSD D: más grande)
OLLAMA_HOST	127.0.0.1:11434	Exponer la API a la red local (0.0.0.0:11434)
OLLAMA_KEEP_ALIVE	5m	Tiempo que el modelo queda en VRAM sin uso
OLLAMA_NUM_PARALLEL	1	Solicitudes paralelas (útil si expones la API)

Para configurar via PowerShell (como admin) y que sea permanente:

PowerShell (admin)

[System.Environment]::SetEnvironmentVariable("OLLAMA_MODELS", "D:\OllamaModels", "User")

Tras cambiar variables, reinicia el servicio: icono del tray → Quit → reabre Ollama.

8. Troubleshooting — errores comunes

Error: "ollama: command not found" / "no se reconoce el comando"

El PATH no se actualizó en la terminal actual. Solución: cierra completamente cmd/PowerShell y vuelve a abrirla. Si persiste, busca "Variables de entorno" en Windows y verifica que C:\Users\[user]\AppData\Local\Programs\Ollama está en PATH.

GPU no detectada — "ollama ps" muestra 100% CPU

Causas más comunes y soluciones:

Driver NVIDIA desactualizado → actualiza desde NVIDIA GeForce Experience o nvidia.com (mínimo driver 527)
CUDA no instalado → Ollama lleva CUDA incluido desde v0.5, pero verifica que el driver es reciente
El modelo cabe en VRAM pero Ollama usa CPU → asegúrate que el servicio reinició tras actualizar drivers
GPU integrada interfiriendo → en BIOS, desactiva iGPU si tienes problemas con un portátil

Error: "out of memory" al cargar modelo

El modelo no cabe en VRAM. Opciones:

• Prueba una cuantización más pequeña: ollama run llama3.2:8b:q2_k
• Usa un modelo más pequeño: Llama 3.2 3B en vez de 8B
• Cierra otras aplicaciones que usen VRAM (juegos, navegador con aceleración GPU)

La API no responde en localhost:11434

El servicio Ollama puede no estar corriendo. Verifica:

ollama serve

Si ya hay un proceso corriendo, saldrá el error "address already in use" — eso significa que el servicio sí está activo y el problema está en otro lado (firewall, puerto ocupado).

Descarga lenta o se corta

Los modelos se descargan en fragmentos. Si se corta, vuelve a ejecutar el mismo ollama run o ollama pull — retoma desde donde quedó. Si la velocidad es muy baja, el servidor de Ollama puede tener carga alta; espera unos minutos y reintenta.

9. Preguntas frecuentes

¿Necesito una GPU para usar Ollama en Windows? ▾

No. Ollama funciona en CPU. Con un i7 moderno obtendrás 8-12 tokens/segundo en modelos 3B — suficiente para probar. Para una experiencia fluida (50+ tok/s) necesitas GPU NVIDIA con mínimo 6 GB VRAM. Con 8 GB corres Llama 3.2 8B, con 12 GB el rango completo de modelos mid-range.

¿Funciona Ollama con GPU AMD en Windows? ▾

El soporte ROCm en Windows está en beta. Funciona en RX 6700 XT y superiores (RDNA2/RDNA3), pero con menos estabilidad que NVIDIA CUDA. Si tienes AMD, la recomendación es WSL2 con Ubuntu donde ROCm está completamente maduro.

¿Cuánto espacio ocupa Ollama en disco? ▾

El instalador pesa ~60 MB. Los modelos se almacenan por separado: Llama 3.2 3B Q4 (~2 GB), Llama 3.2 8B Q4 (~4.7 GB), Mistral 7B Q4 (~4.1 GB). Para empezar bien, reserva 15-20 GB. Con OLLAMA_MODELS puedes mover los modelos a otro disco.

¿Cómo verifico si Ollama usa mi GPU? ▾

Con el modelo corriendo, abre otra terminal y ejecuta ollama ps. La columna PROCESSOR muestra "100% GPU" si usa tu tarjeta, o "100% CPU" si no la detectó. En ese caso, actualiza drivers NVIDIA.

¿Ollama es seguro? ¿Mis datos salen a internet? ▾

Completamente local. La inferencia ocurre en tu hardware. Tus prompts y respuestas no van a ningún servidor externo. La única conexión a internet es la descarga inicial de cada modelo desde Ollama Hub. Una vez descargado, funciona sin internet.

¿Qué modelos puedo correr con 8 GB de VRAM? ▾

Con 8 GB sin problema: Llama 3.2 3B Q4, Llama 3.2 8B Q4 (cabe por los pelos), Mistral 7B Q4. Phi-4 14B Q4 (8 GB) es borderline — puede hacer offloading parcial. Con 12 GB ya entras cómodo: Gemma 3 12B Q4, Phi-4 14B Q4 completo, Mistral 12B Q4.

Próximos pasos

Tienes Ollama instalado y corriendo. El siguiente nivel:

Ollama vs LM Studio

¿Prefieres interfaz gráfica? Compara ambas opciones con datos reales.

Calculadora de VRAM

Descubre exactamente qué modelos caben en tu GPU y a qué velocidad.

Comparador de GPUs

Compara el rendimiento en IA de todas las tarjetas del mercado.

Guía técnica completa

API, Modelfile, integración con Open WebUI y configuración avanzada.

Preguntas frecuentes

¿Necesito instalar los drivers de NVIDIA para Ollama? ▾

Sí, necesitas drivers NVIDIA actualizados (versión 525+) y opcionalmente CUDA toolkit para algunas funciones avanzadas.

¿Funciona Ollama en Windows sin GPU? ▾

Sí, Ollama puede correr en CPU pero será 10-20x más lento que con GPU. Para uso serio necesitas GPU NVIDIA.

¿Puedo usar Ollama y LM Studio a la vez? ▾

No recomendado. Ambos compiten por VRAM. Cierra uno antes de abrir el otro.

Hardware recomendado para este modelo

GPUs verificadas para correr Ollama en Windows — actualizado en 2026.

€269

budget Amazon Prime

RTX 3060 12GB

4.8 (1,400 reviews)

Pros

La GPU más recomendada para Ollama Windows
12 GB VRAM corre Llama 8B y Mistral 7B sin problema
Drivers NVIDIA maduros en Windows

Cons

Bandwidth inferior a generaciones más nuevas

Ver en Amazon

€299

budget Amazon Prime

RTX 4060 8GB

4.6 (1,100 reviews)

Pros

Solo 115W — ideal para PC compactos
Ada Lovelace: mejor eficiencia por watt
Bajo perfil disponible para mini-ITX

Cons

8 GB VRAM limita modelos 13B+

Ver en Amazon

€499

high Amazon Prime

RTX 4070 Super 12GB

4.7 (520 reviews)

Pros

Alta velocidad: 80+ tok/s en Llama 8B
12 GB VRAM para modelos hasta 27B Q4
Excelente opción para uso intensivo

Cons

Inversión mayor que RTX 3060

Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

Found this useful? Get guides like this in your inbox every week.

1. Qué es Ollama y por qué usarlo en Windows

2. Requisitos del sistema

Mínimo (solo CPU)

Recomendado (GPU NVIDIA)

GPU AMD en Windows: léete esto antes

3. Instalación paso a paso

Descargar el instalador

Ejecutar el instalador

Icono en la bandeja del sistema

Verificar la instalación

Verificar detección de GPU

4. Tu primer modelo: descarga y ejecución

Confirmar uso de GPU

Comandos esenciales

¿Cuántos tokens/seg obtendrás?

5. Tabla VRAM: qué modelos caben en tu GPU

6. GPUs recomendadas por presupuesto

RTX 3060 12GB

RTX 4060 Ti 16GB

RTX 4070 Ti Super 16GB

7. Variables de entorno útiles

8. Troubleshooting — errores comunes

Error: "ollama: command not found" / "no se reconoce el comando"

GPU no detectada — "ollama ps" muestra 100% CPU

Error: "out of memory" al cargar modelo

La API no responde en localhost:11434

Descarga lenta o se corta

9. Preguntas frecuentes

Próximos pasos

Preguntas frecuentes

Hardware recomendado para este modelo

RTX 3060 12GB

RTX 4060 8GB

RTX 4070 Super 12GB