Por el equipo editorial de RunAIatHome. Esta guía se revisa contra compatibilidad real de VRAM, UX de instalación y notas de rendimiento local.
LM Studio en Windows: guía completa de instalación 2026
Instala LM Studio, descarga tu primer modelo y empieza a chatear con IA local en menos de 15 minutos. Sin terminal, sin comandos, sin configuración complicada. Con datos reales de VRAM y velocidad.
Si prefieres la línea de comandos, tenemos también la guía de Ollama en Windows. LM Studio y Ollama hacen lo mismo con filosofías distintas.
1. Respuesta rápida
Si ya sabes lo que haces, aquí tienes el resumen. Si no, sigue leyendo — cada paso está explicado abajo.
| Paso | Acción | Tiempo |
|---|---|---|
| Descargar | lmstudio.ai → Download for Windows | 2 min |
| Instalar | Ejecutar .exe → siguiente → listo (no requiere admin) | 1 min |
| Abrir LM Studio | Icono en escritorio o menú inicio | 30 seg |
| Buscar modelo | Pestaña Search → busca "llama" → filtra por VRAM → Download | 3-10 min |
| Chatear | Pestaña Chat → selecciona modelo → escribe tu primera pregunta | 30 seg |
2. Requisitos mínimos
Mínimo absoluto (funciona, experiencia limitada)
- RAM: 8 GB (para modelos 3B-7B en modo CPU)
- Almacenamiento: 10 GB libres (cada modelo ocupa 2-8 GB)
- SO: Windows 10 x64 o Windows 11
- GPU: No obligatoria — funciona en CPU (lento pero sin errores)
Recomendado para buena experiencia
- RAM: 16 GB o más
- GPU VRAM 4 GB: corre modelos 3B Q4 (Llama 3.2 3B, Phi-4 Mini) a 60-90 tok/s
- GPU VRAM 8 GB: corre modelos 7B-8B Q4 (Llama 3.1 8B, Mistral 7B) a 50-60 tok/s
- GPU VRAM 12+ GB: acceso a modelos más capaces y contextos largos
Compara tu GPU con otras en nuestra tabla comparativa de GPUs para IA.
Compatibilidad GPU por fabricante
Funciona nativamente con CUDA desde la primera instalación. GTX 1660 o superior. Sin configuración extra — LM Studio detecta CUDA automáticamente.
Funciona con LM Studio 0.3+ vía Vulkan (Windows) y ROCm (experimental). RX 6600 XT o superior. Hay que instalar los drivers Adrenalin actualizados — los Vulkan drivers vienen incluidos. La experiencia es buena en RDNA2/RDNA3, aunque menos estable que NVIDIA CUDA.
Funciona perfecto con Metal en Mac M1/M2/M3. Velocidades excelentes por el acceso unificado a memoria. Esta guía es para Windows — en Mac el proceso es idéntico pero más sencillo aún.
¿No sabes cuánta VRAM necesitas? Usa nuestra calculadora de VRAM para ver exactamente qué modelos caben en tu GPU antes de descargarlos.
3. Descarga e instalación
LM Studio 0.3.x (versión actual a fecha de publicación). El instalador no requiere permisos de administrador — una ventaja real respecto a otras herramientas.
Ir a lmstudio.ai
Visita lmstudio.ai y haz clic en el botón azul "Download for Windows". El archivo se llama LM-Studio-0.3.x-Setup.exe y pesa unos 300-400 MB (incluye runtime).
Ejecutar el instalador
Doble clic en el .exe. No pide permisos de administrador — se instala en C:\Users\[tu-usuario]\AppData\Local\LM Studio. El wizard tiene 2 pantallas: bienvenida y progreso de instalación.
Primera apertura
LM Studio abre directamente en la pantalla de inicio. Verás las secciones principales en la barra lateral izquierda: Chat, Search, My Models, Local Server. La primera vez detecta tu hardware (GPU, VRAM) automáticamente — espera 5-10 segundos.
Verificar detección de GPU
En la barra inferior de LM Studio verás un indicador con tu GPU detectada (p.ej. RTX 3070 · 8 GB VRAM). Si no aparece, revisa la sección de Troubleshooting más abajo.
4. Tu primer modelo con Model Search
La gran ventaja de LM Studio sobre Ollama es el buscador integrado de modelos: sin necesidad de conocer nombres exactos ni URLs de HuggingFace. Busca, filtra por VRAM y descarga desde dentro de la app.
Ir a la pestaña Search
Icono de lupa en la barra lateral. Escribe llama en el buscador. Verás cientos de variantes — filtra por GGUF en el menú de formato (es el único formato que LM Studio usa).
Filtrar por tu VRAM disponible
LM Studio muestra un badge de color (verde/amarillo/rojo) según si el modelo cabe en tu VRAM. Haz clic en cualquier modelo para ver sus variantes de cuantización (Q4, Q5, Q8). Para empezar, elige Q4_K_M — buen equilibrio entre tamaño y calidad.
Descargar y cargar
Botón "Download" junto al archivo. La descarga viene de HuggingFace — velocidad depende de tu internet. Una vez descargado, aparece en "My Models". Haz clic en él → Load → en 10-30 segundos está listo para chatear.
Modelos recomendados según tu VRAM
Velocidades medidas en GPU 8 GB VRAM (RTX 3070 / RX 6800 XT). Las velocidades en CPU son independientes de la GPU — dependen de tu procesador y RAM.
| Modelo | VRAM Q4 | tok/s GPU 8GB | tok/s CPU | Tipo |
|---|---|---|---|---|
| Llama 3.2 3B Q4 | 2.5 GB | ~90 tok/s | ~18 tok/s | estimado |
| Phi-4 Mini 3.8B Q4 | 2.8 GB | ~85 tok/s | ~17 tok/s | estimado |
| Mistral 7B Q4 | 4.5 GB | ~60 tok/s | ~9 tok/s | estimado |
| Llama 3.1 8B Q4 | 5 GB | ~55 tok/s | ~8 tok/s | estimado |
| Qwen2.5 Coder 7B Q4 | 5 GB | ~55 tok/s | ~9 tok/s | estimado |
Los valores de VRAM son verificados desde modelos GGUF en HuggingFace. Los tok/s son estimados en base a hardware de referencia — tu hardware puede variar ±15%.
Para saber exactamente qué modelos caben en tu GPU: usa la calculadora de VRAM con tu GPU específica — te da el listado exacto con velocidad estimada.
¿Sabes qué modelos caben en tu GPU?
Antes de descargar un modelo de 5 GB, comprueba que encaja en tu VRAM. Nuestra calculadora te da la lista completa con velocidad estimada.
Calcular VRAM disponible →5. Configuración importante
LM Studio funciona bien por defecto, pero estos cuatro parámetros marcan la diferencia entre una experiencia mediocre y una excelente. Los encontrarás en el panel derecho cuando tienes un modelo cargado.
GPU Layers (capas en GPU)
Controla cuántas capas del modelo se cargan en VRAM. Más layers = más VRAM usada = más rápido. Con el valor en -1 (automático), LM Studio carga todo lo que cabe en VRAM y el resto va a RAM/CPU.
-1 Automático (recomendado para empezar) 0 Solo CPU — úsalo si tu GPU da problemas 32 Número concreto de capas en GPU (Llama 3.1 8B tiene 32 layers) Context Length (longitud de contexto)
Cuántos tokens de conversación puede "recordar" el modelo. Más contexto = más VRAM consumida. La regla práctica:
4 096 ~0.5 GB extra de VRAM. Para chat casual, código corto. 8 192 ~1 GB extra de VRAM. Conversaciones largas, documentos pequeños. 32 768 ~4 GB extra de VRAM. Solo si tu GPU tiene suficiente margen. Si ves errores "out of memory" al cargar, reduce el Context Length primero.
CPU Fallback
Cuando está activo, las capas que no caben en VRAM se procesan en RAM/CPU. Útil para correr modelos más grandes que tu VRAM disponible, pero lento. Actívalo si quieres probar Llama 3.1 8B con solo 4 GB de VRAM (irá a ~15-20 tok/s en vez de quedarse sin memoria). Desactívalo si prefieres velocidad máxima y quieres forzarte a usar modelos que encajan 100% en GPU.
Flash Attention
Optimización de memoria para GPUs modernas. Reduce el consumo de VRAM del contexto hasta un 40% y acelera la inferencia en contextos largos. Actívalo si tienes NVIDIA RTX 30xx/40xx o AMD RX 6xxx/7xxx. En GPUs más antiguas puede dar error — si ocurre, desactívalo.
6. API local compatible OpenAI
LM Studio expone una API REST en localhost:1234 compatible con la API de OpenAI.
Cualquier herramienta que hable con ChatGPT puede apuntar a tu LM Studio local cambiando solo la URL base.
Útil para integraciones, scripts y herramientas de desarrollo.
Cómo activar el servidor local
En LM Studio, haz clic en la pestaña Local Server (icono de servidor en la barra lateral).
Selecciona un modelo en el dropdown y haz clic en Start Server. El servidor arranca en http://localhost:1234.
El servidor queda activo en segundo plano mientras LM Studio está abierto. Puedes cerrar la pestaña Local Server y el servidor sigue respondiendo.
Ejemplo con curl
Desde cmd o PowerShell (con curl instalado):
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d "{\"model\":\"local-model\",\"messages\":[{\"role\":\"user\",\"content\":\"Hola desde LM Studio\"}],\"stream\":false}" Integraciones populares
http://localhost:1234. Para comparar LM Studio con Ollama en profundidad (API, velocidad, ecosistema): Ollama vs LM Studio — comparativa completa.
7. Troubleshooting — errores comunes
Estos son los errores reales que encontrarás al empezar con LM Studio en Windows. Ningún teorema — solo soluciones.
"Out of memory" al cargar el modelo
Causa: El modelo (o el contexto configurado) no cabe en tu VRAM.
Solución: (1) Reduce el Context Length en el panel derecho. (2) Baja el número de GPU Layers. (3) Activa CPU Fallback. (4) Prueba una versión más pequeña del modelo (3B en vez de 7B, o Q4 en vez de Q5).
Modelo tarda mucho en cargar (90+ segundos)
Causa: Normal en la primera carga — LM Studio mapea el archivo GGUF en memoria. Un modelo de 5 GB puede tardar 30-90 segundos la primera vez según la velocidad del disco.
Solución: Esperar. Las cargas siguientes son mucho más rápidas porque el OS cachea el archivo. Si tienes SSD NVMe, será mucho más rápido que HDD.
GPU AMD no detectada
Causa: Versión de LM Studio anterior a 0.3, o drivers Adrenalin desactualizados sin soporte Vulkan.
Solución: (1) Actualiza LM Studio a 0.3+. (2) Instala los últimos drivers AMD Adrenalin desde amd.com. (3) En LM Studio → Settings → GPU → selecciona Vulkan manualmente. (4) Si persiste, usa GPU Layers en 0 y trabaja en CPU hasta que AMD mejore el soporte en Windows.
Velocidad muy baja (2-5 tok/s con GPU conectada)
Causa: GPU Layers está en 0 — el modelo está corriendo solo en CPU aunque tengas GPU.
Solución: Ve al panel de configuración del modelo → GPU Layers → cambia de 0 a -1 (automático). Recarga el modelo. Deberías ver la velocidad multiplicarse por 5-10x.
"Model not compatible" o formato no soportado
Causa: LM Studio solo soporta formato GGUF. Si descargaste un modelo en formato .safetensors, .bin o .pt, no funcionará.
Solución: Busca la versión GGUF del modelo en HuggingFace — la mayoría de modelos populares tienen una. Busca en HuggingFace con "nombre-del-modelo GGUF" y filtra por el usuario "bartowski" o "TheBloke" que suben versiones GGUF de calidad.
API local no responde (conexión rechazada en localhost:1234)
Causa: El servidor local no está activo, o está activo pero no tiene modelo cargado.
Solución: (1) Ve a la pestaña "Local Server" en LM Studio. (2) Asegúrate de que el botón muestra "Stop Server" (verde) — si muestra "Start Server" es que no está activo. (3) Selecciona un modelo en el dropdown antes de arrancar el servidor. (4) Verifica que el puerto 1234 no está bloqueado por el firewall de Windows.
8. Preguntas frecuentes
¿LM Studio es gratis?
Sí, LM Studio es gratuito para uso personal. Incluye descarga de modelos, interfaz gráfica, servidor local compatible con OpenAI y todas las funciones de configuración. No hay suscripción ni límites de tokens. El uso comercial tiene términos propios — revisa la licencia de LM Studio si lo usas en una empresa.
¿LM Studio funciona sin internet?
Sí, 100% local tras descargar el modelo. Solo necesitas internet para descargar LM Studio y los modelos la primera vez. Una vez en disco, todo funciona completamente offline: inferencia, API local y chat. Privacidad total — ningún dato sale de tu PC.
¿LM Studio vs Ollama, cuál es mejor?
Depende de tu perfil. LM Studio es mejor si prefieres interfaz gráfica, quieres explorar modelos visualmente y no quieres tocar la terminal. Ollama es mejor si usas scripts, automatizas pipelines o trabajas desde la línea de comandos. Ambos exponen API compatible con OpenAI. Puedes usar los dos a la vez en distintos puertos. Tenemos una comparativa completa Ollama vs LM Studio si quieres entrar en detalle.
¿Qué GPU necesito para LM Studio?
LM Studio funciona sin GPU (modo CPU), pero es lento. Para una experiencia fluida necesitas mínimo 4 GB de VRAM para modelos 3B Q4, y 8 GB para modelos 7B-8B Q4. NVIDIA funciona nativamente con CUDA. AMD necesita LM Studio 0.3+ con soporte Vulkan/ROCm. Para saber exactamente qué modelos caben en tu hardware, usa la calculadora de VRAM.
¿LM Studio funciona en Windows 10?
Sí, LM Studio es compatible con Windows 10 y Windows 11, ambos en versión x64. No requiere permisos de administrador para instalar. El instalador .exe se ejecuta como usuario normal y se instala en la carpeta del usuario, no en archivos de programa del sistema.
Siguientes pasos
- Calculadora de VRAM — comprueba qué modelos caben en tu GPU
- Comparador de GPUs para IA — si necesitas más VRAM o quieres cambiar de GPU
- Ollama vs LM Studio — comparativa detallada de ambas herramientas
- Guía de Ollama en Windows — alternativa CLI si prefieres terminal
- Llama 3.1 8B — el modelo más usado para 8 GB de VRAM
GPUs recomendadas para LM Studio en Windows
LM Studio needs 4 GB VRAM minimum. 7B–8B models need 8 GB. 13B+ needs 16 GB.
Precios y disponibilidad pueden cambiar. Enlaces de afiliado.
Entry Tier
8–12 GB VRAMRTX 4060
8 GB VRAMRTX 3060
12 GB VRAMMid Tier
12–16 GB VRAMRTX 4060 Ti 16GB
16 GB VRAMRTX 4070
12 GB VRAMHigh Tier
24 GB VRAMRTX 4090
24 GB VRAMRTX 3090
24 GB VRAM¿Qué modelos puedes correr con tu GPU?
Usa nuestra calculadora de VRAM para ver el listado completo de modelos compatibles con tu hardware, con VRAM necesaria y velocidad estimada.