LM Studio en Windows: instalación paso a paso

1. Respuesta rápida

Si ya sabes lo que haces, aquí tienes el resumen. Si no, sigue leyendo — cada paso está explicado abajo.

Paso	Acción	Tiempo
Descargar	lmstudio.ai → Download for Windows	2 min
Instalar	Ejecutar .exe → siguiente → listo (no requiere admin)	1 min
Abrir LM Studio	Icono en escritorio o menú inicio	30 seg
Buscar modelo	Pestaña Search → busca "llama" → filtra por VRAM → Download	3-10 min
Chatear	Pestaña Chat → selecciona modelo → escribe tu primera pregunta	30 seg

2. Requisitos mínimos

Mínimo absoluto (funciona, experiencia limitada)

RAM: 8 GB (para modelos 3B-7B en modo CPU)
Almacenamiento: 10 GB libres (cada modelo ocupa 2-8 GB)
SO: Windows 10 x64 o Windows 11
GPU: No obligatoria — funciona en CPU (lento pero sin errores)

Compatibilidad GPU por fabricante

NVIDIA

Funciona nativamente con CUDA desde la primera instalación. GTX 1660 o superior. Sin configuración extra — LM Studio detecta CUDA automáticamente.

AMD

Funciona con LM Studio 0.3+ vía Vulkan (Windows) y ROCm (experimental). RX 6600 XT o superior. Hay que instalar los drivers Adrenalin actualizados — los Vulkan drivers vienen incluidos. La experiencia es buena en RDNA2/RDNA3, aunque menos estable que NVIDIA CUDA.

Apple Silicon

Funciona perfecto con Metal en Mac M1/M2/M3. Velocidades excelentes por el acceso unificado a memoria. Esta guía es para Windows — en Mac el proceso es idéntico pero más sencillo aún.

¿No sabes cuánta VRAM necesitas? Usa nuestra calculadora de VRAM para ver exactamente qué modelos caben en tu GPU antes de descargarlos.

3. Descarga e instalación

LM Studio 0.3.x (versión actual a fecha de publicación). El instalador no requiere permisos de administrador — una ventaja real respecto a otras herramientas.

Ir a lmstudio.ai

Visita lmstudio.ai y haz clic en el botón azul "Download for Windows". El archivo se llama LM-Studio-0.3.x-Setup.exe y pesa unos 300-400 MB (incluye runtime).

Ejecutar el instalador

Doble clic en el .exe. No pide permisos de administrador — se instala en C:\Users\[tu-usuario]\AppData\Local\LM Studio. El wizard tiene 2 pantallas: bienvenida y progreso de instalación.

Primera apertura

LM Studio abre directamente en la pantalla de inicio. Verás las secciones principales en la barra lateral izquierda: Chat, Search, My Models, Local Server. La primera vez detecta tu hardware (GPU, VRAM) automáticamente — espera 5-10 segundos.

Verificar detección de GPU

En la barra inferior de LM Studio verás un indicador con tu GPU detectada (p.ej. RTX 3070 · 8 GB VRAM). Si no aparece, revisa la sección de Troubleshooting más abajo.

4. Tu primer modelo con Model Search

La gran ventaja de LM Studio sobre Ollama es el buscador integrado de modelos: sin necesidad de conocer nombres exactos ni URLs de HuggingFace. Busca, filtra por VRAM y descarga desde dentro de la app.

Ir a la pestaña Search

Icono de lupa en la barra lateral. Escribe llama en el buscador. Verás cientos de variantes — filtra por GGUF en el menú de formato (es el único formato que LM Studio usa).

Filtrar por tu VRAM disponible

LM Studio muestra un badge de color (verde/amarillo/rojo) según si el modelo cabe en tu VRAM. Haz clic en cualquier modelo para ver sus variantes de cuantización (Q4, Q5, Q8). Para empezar, elige Q4_K_M — buen equilibrio entre tamaño y calidad.

Descargar y cargar

Botón "Download" junto al archivo. La descarga viene de HuggingFace — velocidad depende de tu internet. Una vez descargado, aparece en "My Models". Haz clic en él → Load → en 10-30 segundos está listo para chatear.

Modelos recomendados según tu VRAM

Velocidades medidas en GPU 8 GB VRAM (RTX 3070 / RX 6800 XT). Las velocidades en CPU son independientes de la GPU — dependen de tu procesador y RAM.

Modelo	VRAM Q4	tok/s GPU 8GB	tok/s CPU	Tipo
Llama 3.2 3B Q4	2.5 GB	~90 tok/s	~18 tok/s	estimado
Phi-4 Mini 3.8B Q4	2.8 GB	~85 tok/s	~17 tok/s	estimado
Mistral 7B Q4	4.5 GB	~60 tok/s	~9 tok/s	estimado
Llama 3.1 8B Q4	5 GB	~55 tok/s	~8 tok/s	estimado
Qwen2.5 Coder 7B Q4	5 GB	~55 tok/s	~9 tok/s	estimado

Los valores de VRAM son verificados desde modelos GGUF en HuggingFace. Los tok/s son estimados en base a hardware de referencia — tu hardware puede variar ±15%.

Para saber exactamente qué modelos caben en tu GPU: usa la calculadora de VRAM con tu GPU específica — te da el listado exacto con velocidad estimada.

¿Sabes qué modelos caben en tu GPU?

Antes de descargar un modelo de 5 GB, comprueba que encaja en tu VRAM. Nuestra calculadora te da la lista completa con velocidad estimada.

Calcular VRAM disponible →

5. Configuración importante

LM Studio funciona bien por defecto, pero estos cuatro parámetros marcan la diferencia entre una experiencia mediocre y una excelente. Los encontrarás en el panel derecho cuando tienes un modelo cargado.

GPU Layers (capas en GPU)

Controla cuántas capas del modelo se cargan en VRAM. Más layers = más VRAM usada = más rápido. Con el valor en -1 (automático), LM Studio carga todo lo que cabe en VRAM y el resto va a RAM/CPU.

-1 Automático (recomendado para empezar)

0 Solo CPU — úsalo si tu GPU da problemas

32 Número concreto de capas en GPU (Llama 3.1 8B tiene 32 layers)

Context Length (longitud de contexto)

Cuántos tokens de conversación puede "recordar" el modelo. Más contexto = más VRAM consumida. La regla práctica:

4 096 ~0.5 GB extra de VRAM. Para chat casual, código corto.

8 192 ~1 GB extra de VRAM. Conversaciones largas, documentos pequeños.

32 768 ~4 GB extra de VRAM. Solo si tu GPU tiene suficiente margen.

Si ves errores "out of memory" al cargar, reduce el Context Length primero.

CPU Fallback

Cuando está activo, las capas que no caben en VRAM se procesan en RAM/CPU. Útil para correr modelos más grandes que tu VRAM disponible, pero lento. Actívalo si quieres probar Llama 3.1 8B con solo 4 GB de VRAM (irá a ~15-20 tok/s en vez de quedarse sin memoria). Desactívalo si prefieres velocidad máxima y quieres forzarte a usar modelos que encajan 100% en GPU.

Flash Attention

Optimización de memoria para GPUs modernas. Reduce el consumo de VRAM del contexto hasta un 40% y acelera la inferencia en contextos largos. Actívalo si tienes NVIDIA RTX 30xx/40xx o AMD RX 6xxx/7xxx. En GPUs más antiguas puede dar error — si ocurre, desactívalo.

6. API local compatible OpenAI

LM Studio expone una API REST en localhost:1234 compatible con la API de OpenAI. Cualquier herramienta que hable con ChatGPT puede apuntar a tu LM Studio local cambiando solo la URL base. Útil para integraciones, scripts y herramientas de desarrollo.

Cómo activar el servidor local

En LM Studio, haz clic en la pestaña Local Server (icono de servidor en la barra lateral).

Selecciona un modelo en el dropdown y haz clic en Start Server. El servidor arranca en http://localhost:1234.

El servidor queda activo en segundo plano mientras LM Studio está abierto. Puedes cerrar la pestaña Local Server y el servidor sigue respondiendo.

Ejemplo con curl

Desde cmd o PowerShell (con curl instalado):

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d "{\"model\":\"local-model\",\"messages\":[{\"role\":\"user\",\"content\":\"Hola desde LM Studio\"}],\"stream\":false}"

Integraciones populares

Continue.dev Extensión para VS Code y JetBrains. Autocompletado y chat con tu modelo local. Apunta a http://localhost:1234.

AnythingLLM Chat con documentos (PDF, Word, webs). Se conecta a LM Studio Server como proveedor de IA.

Open WebUI Interfaz web tipo ChatGPT que puedes alojar localmente. Soporta conexión directa a LM Studio vía API OpenAI-compatible.

Para comparar LM Studio con Ollama en profundidad (API, velocidad, ecosistema): Ollama vs LM Studio — comparativa completa.

7. Troubleshooting — errores comunes

Estos son los errores reales que encontrarás al empezar con LM Studio en Windows. Ningún teorema — solo soluciones.

"Out of memory" al cargar el modelo

Causa: El modelo (o el contexto configurado) no cabe en tu VRAM.

Solución: (1) Reduce el Context Length en el panel derecho. (2) Baja el número de GPU Layers. (3) Activa CPU Fallback. (4) Prueba una versión más pequeña del modelo (3B en vez de 7B, o Q4 en vez de Q5).

Modelo tarda mucho en cargar (90+ segundos)

Causa: Normal en la primera carga — LM Studio mapea el archivo GGUF en memoria. Un modelo de 5 GB puede tardar 30-90 segundos la primera vez según la velocidad del disco.

Solución: Esperar. Las cargas siguientes son mucho más rápidas porque el OS cachea el archivo. Si tienes SSD NVMe, será mucho más rápido que HDD.

GPU AMD no detectada

Causa: Versión de LM Studio anterior a 0.3, o drivers Adrenalin desactualizados sin soporte Vulkan.

Solución: (1) Actualiza LM Studio a 0.3+. (2) Instala los últimos drivers AMD Adrenalin desde amd.com. (3) En LM Studio → Settings → GPU → selecciona Vulkan manualmente. (4) Si persiste, usa GPU Layers en 0 y trabaja en CPU hasta que AMD mejore el soporte en Windows.

Velocidad muy baja (2-5 tok/s con GPU conectada)

Causa: GPU Layers está en 0 — el modelo está corriendo solo en CPU aunque tengas GPU.

Solución: Ve al panel de configuración del modelo → GPU Layers → cambia de 0 a -1 (automático). Recarga el modelo. Deberías ver la velocidad multiplicarse por 5-10x.

"Model not compatible" o formato no soportado

Causa: LM Studio solo soporta formato GGUF. Si descargaste un modelo en formato .safetensors, .bin o .pt, no funcionará.

Solución: Busca la versión GGUF del modelo en HuggingFace — la mayoría de modelos populares tienen una. Busca en HuggingFace con "nombre-del-modelo GGUF" y filtra por el usuario "bartowski" o "TheBloke" que suben versiones GGUF de calidad.

API local no responde (conexión rechazada en localhost:1234)

Causa: El servidor local no está activo, o está activo pero no tiene modelo cargado.

Solución: (1) Ve a la pestaña "Local Server" en LM Studio. (2) Asegúrate de que el botón muestra "Stop Server" (verde) — si muestra "Start Server" es que no está activo. (3) Selecciona un modelo en el dropdown antes de arrancar el servidor. (4) Verifica que el puerto 1234 no está bloqueado por el firewall de Windows.

8. Preguntas frecuentes

¿LM Studio es gratis?

Sí, LM Studio es gratuito para uso personal. Incluye descarga de modelos, interfaz gráfica, servidor local compatible con OpenAI y todas las funciones de configuración. No hay suscripción ni límites de tokens. El uso comercial tiene términos propios — revisa la licencia de LM Studio si lo usas en una empresa.

¿LM Studio funciona sin internet?

Sí, 100% local tras descargar el modelo. Solo necesitas internet para descargar LM Studio y los modelos la primera vez. Una vez en disco, todo funciona completamente offline: inferencia, API local y chat. Privacidad total — ningún dato sale de tu PC.

¿LM Studio vs Ollama, cuál es mejor?

Depende de tu perfil. LM Studio es mejor si prefieres interfaz gráfica, quieres explorar modelos visualmente y no quieres tocar la terminal. Ollama es mejor si usas scripts, automatizas pipelines o trabajas desde la línea de comandos. Ambos exponen API compatible con OpenAI. Puedes usar los dos a la vez en distintos puertos. Tenemos una comparativa completa Ollama vs LM Studio si quieres entrar en detalle.

¿Qué GPU necesito para LM Studio?

LM Studio funciona sin GPU (modo CPU), pero es lento. Para una experiencia fluida necesitas mínimo 4 GB de VRAM para modelos 3B Q4, y 8 GB para modelos 7B-8B Q4. NVIDIA funciona nativamente con CUDA. AMD necesita LM Studio 0.3+ con soporte Vulkan/ROCm. Para saber exactamente qué modelos caben en tu hardware, usa la calculadora de VRAM.

¿LM Studio funciona en Windows 10?

Sí, LM Studio es compatible con Windows 10 y Windows 11, ambos en versión x64. No requiere permisos de administrador para instalar. El instalador .exe se ejecuta como usuario normal y se instala en la carpeta del usuario, no en archivos de programa del sistema.

Siguientes pasos

Calculadora de VRAM — comprueba qué modelos caben en tu GPU
Comparador de GPUs para IA — si necesitas más VRAM o quieres cambiar de GPU
Ollama vs LM Studio — comparativa detallada de ambas herramientas
Guía de Ollama en Windows — alternativa CLI si prefieres terminal
Llama 3.1 8B — el modelo más usado para 8 GB de VRAM

GPUs recomendadas para LM Studio en Windows

LM Studio needs 4 GB VRAM minimum. 7B–8B models need 8 GB. 13B+ needs 16 GB.

Precios y disponibilidad pueden cambiar. Enlaces de afiliado.

Entry Tier

8–12 GB VRAM

RTX 4060

8 GB VRAM

Ver disponibilidad →

RTX 3060

12 GB VRAM

Ver disponibilidad →

Mid Tier

12–16 GB VRAM

RTX 4060 Ti 16GB

16 GB VRAM

Ver disponibilidad →

RTX 4070

12 GB VRAM

Ver disponibilidad →

High Tier

24 GB VRAM

RTX 4090

24 GB VRAM

Ver disponibilidad →

RTX 3090

24 GB VRAM

Ver disponibilidad →

¿Qué modelos puedes correr con tu GPU?

Usa nuestra calculadora de VRAM para ver el listado completo de modelos compatibles con tu hardware, con VRAM necesaria y velocidad estimada.

Calcular VRAM disponible → Ollama vs LM Studio

LM Studio en Windows: guía completa de instalación 2026

1. Respuesta rápida

2. Requisitos mínimos

Mínimo absoluto (funciona, experiencia limitada)

Recomendado para buena experiencia

Compatibilidad GPU por fabricante

3. Descarga e instalación

4. Tu primer modelo con Model Search

Modelos recomendados según tu VRAM

¿Sabes qué modelos caben en tu GPU?

5. Configuración importante

GPU Layers (capas en GPU)

Context Length (longitud de contexto)

CPU Fallback

Flash Attention

6. API local compatible OpenAI

Cómo activar el servidor local

Ejemplo con curl

Integraciones populares

7. Troubleshooting — errores comunes

8. Preguntas frecuentes

¿LM Studio es gratis?

¿LM Studio funciona sin internet?

¿LM Studio vs Ollama, cuál es mejor?

¿Qué GPU necesito para LM Studio?

¿LM Studio funciona en Windows 10?

Siguientes pasos

GPUs recomendadas para LM Studio en Windows

Entry Tier

Mid Tier

High Tier

¿Qué modelos puedes correr con tu GPU?