Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.
DeepSeek R1 en local: VRAM necesaria, destilaciones y cómo instalarlo
El modelo que paralizó la industria. Los requisitos reales para correrlo en casa, por qué el 671B completo es ciencia ficción para usuarios domésticos, y cómo las destilaciones 8B/14B/32B son la solución práctica. Datos extraídos directamente de los modelos — sin estimaciones.
¿Qué necesitas para correr DeepSeek R1 localmente?
Para DeepSeek R1 7B necesitas 8GB VRAM. Para la versión 70B cuantizada a 4-bit, 24GB VRAM mínimo.
1. La respuesta rápida
Si buscas "deepseek r1 local requisitos" y tienes prisa, aquí está todo: el modelo completo es para clusters de investigación, las destilaciones son para tu casa. ¿No sabes cuánta VRAM tienes? Usa nuestra calculadora de VRAM antes de descargar nada.
| Modelo | VRAM mín. (Q4) | GPU recomendada |
|---|---|---|
| DeepSeek R1 Distill 8B | 4.8 GB | RTX 3060 12GB, RTX 4060 8GB |
| DeepSeek R1 Distill 14B | 8.4 GB | RTX 3060 12GB, RTX 4060 Ti 16GB |
| DeepSeek R1 Distill 32B | 19.2 GB | RTX 4090 24GB, RX 7900 XTX 24GB, M4 Max 36GB |
| DeepSeek R1 671B completo | 403 GB | Solo clusters multi-GPU (A100/H100) |
La confusión "200 GB vs 400 GB": Si has leído que DeepSeek R1 cabe en 200 GB, confunden Q2 (201 GB, calidad degradada) con Q4 (403 GB, el estándar). Los datos de abajo son exactos — extraídos de los modelos reales.
2. Qué es DeepSeek R1 y por qué el hype
DeepSeek R1 es un modelo de razonamiento de 671B parámetros creado por DeepSeek AI (China), lanzado en enero de 2025. Alcanza un rendimiento comparable a o1 de OpenAI en benchmarks de matemáticas y código — y es completamente open source con licencia MIT. Eso explica el hype: el mejor modelo de razonamiento disponible, gratis, descargable.
La arquitectura MoE: por qué 671B no significa lo que crees
DeepSeek R1 usa arquitectura MoE (Mixture of Experts): tiene 671B parámetros totales, pero solo activa aproximadamente 37B parámetros por cada token que genera. Los 634B restantes están "dormidos" en ese momento.
El malentendido más común sobre MoE y VRAM
Mucha gente lee "37B activos por token" y piensa: "entonces necesito VRAM para 37B, no para 671B". Incorrecto.
La VRAM no almacena solo los parámetros activos en un momento dado — almacena todos los pesos del modelo completo, porque el sistema no sabe de antemano qué expertos va a necesitar para el siguiente token. El modelo completo (671B parámetros totales) tiene que estar cargado en memoria. Los 37B "activos" se refieren a computación, no a almacenamiento.
Dicho esto, MoE tiene una ventaja real: genera tokens más rápido que un modelo denso de igual tamaño, porque solo activa una fracción de la red en cada paso. Si pudieras cargar el 671B completo en VRAM, irías más rápido que un modelo denso de 671B. El problema es que no puedes.
Por qué compite con o1 de OpenAI
R1 fue entrenado con RL puro para razonamiento — el modelo aprende a "pensar en voz alta" mostrando su cadena de razonamiento antes de dar la respuesta final. Este proceso (visible en las etiquetas <think>...</think>) le da resultados superiores en matemáticas, código y lógica frente a modelos del mismo tamaño sin RL de razonamiento.
La buena noticia: ese estilo de razonamiento se transfiere a las destilaciones. El R1 Distill 14B razona mejor que un modelo genérico de 14B sin destilación de R1.
3. DeepSeek R1 671B: los requisitos reales
Números exactos del modelo completo, sin filtros. Estos datos vienen del modelo tal como se carga con llama.cpp — incluyen el overhead de activaciones y KV cache base.
| Quantización | VRAM necesaria | Espacio en disco | ¿Viable en casa? |
|---|---|---|---|
| FP16 (sin comprimir) | 1.610 GB | 1.342 GB | ❌ Imposible |
| Q8 | 805 GB | 671 GB | ❌ Solo datacenter |
| Q4 (estándar) | 403 GB | 336 GB | ❌ Solo multi-GPU profesional |
| Q2 (mínimo, calidad degradada) | 201 GB | 168 GB | ⚠️ M3 Ultra con sacrificio de calidad |
Para quién es el 671B: Investigadores con acceso a clusters de A100 o H100, empresas que montaron sistemas multi-GPU propios, o entusiastas muy extremos con 8× RTX 3090 en NVLink (192 GB — aún insuficiente para Q4). Si estás leyendo esta guía preguntándote si corre en tu PC, la respuesta es no. Pero las destilaciones sí.
El punto de esta sección no es desanimarte — es orientarte hacia la solución correcta: las destilaciones son modelos reales, capaces, que heredan el estilo de razonamiento de R1. No son un consolación prize; son la versión práctica.
4. Las destilaciones: lo que sí puedes correr en casa
DeepSeek lanzó tres destilaciones del R1 para hardware de consumidor: 8B, 14B y 32B parámetros. Cada una tiene sus propios pesos y requisitos exactos. Los datos de abajo son los reales del modelo.
DeepSeek R1 Distill 8B
Tareas rápidas · entrada| FP16 | Q8 | Q4 (rec.) | Q2 |
|---|---|---|---|
| 19.2 GB | 9.6 GB | 4.8 GB | 2.4 GB |
Basado en Llama-3 8B. Corre en cualquier GPU con 6+ GB de VRAM. Con 4.8 GB en Q4 tienes margen para un contexto de 8–16K tokens sin problemas. Ideal para: asistente rápido, código corto, preguntas cotidianas. Quality score: 82/100.
DeepSeek R1 Distill 14B
Equilibrio calidad/VRAM| FP16 | Q8 | Q4 (rec.) | Q2 |
|---|---|---|---|
| 33.6 GB | 16.8 GB | 8.4 GB | 4.2 GB |
Basado en Qwen2.5 14B. El punto dulce para la mayoría de usuarios con GPUs de 12–16 GB. A 8.4 GB en Q4 cabe con holgura en una RTX 3060 12GB, RTX 4060 Ti 16GB o cualquier GPU de 16+ GB. Mejor razonamiento que el 8B, velocidad todavía usable. Quality score: 87/100.
DeepSeek R1 Distill 32B
Máxima calidad en casa| FP16 | Q8 | Q4 (rec.) | Q2 |
|---|---|---|---|
| 76.8 GB | 38.4 GB | 19.2 GB | 9.6 GB |
Basado en Qwen2.5 32B. Necesita una GPU de 24+ GB (RTX 4090, RX 7900 XTX) o Apple Silicon con 24+ GB. Con 19.2 GB en Q4 cabe ajustado en una RTX 4090 (24 GB) y con holgura en un M4 Max 36GB. La destilación más cercana al modelo completo que puedes correr en casa. Quality score: 92/100.
¿Cuál te conviene? Usa la calculadora de VRAM para ver exactamente qué destilación cabe en tu GPU específica y cuántos tokens/seg obtendrás.
5. Tabla de compatibilidad GPU × modelo
Cruce directo de las GPUs más populares con las 4 variantes de DeepSeek R1. Basado en VRAM real de cada GPU vs VRAM Q4 de cada modelo. ✅ cabe en VRAM · ⚠️ necesita offloading a RAM (funciona, más lento) · ❌ no viable
| GPU | VRAM | R1 671B (403 GB Q4) | Distill 32B (19.2 GB Q4) | Distill 14B (8.4 GB Q4) | Distill 8B (4.8 GB Q4) |
|---|---|---|---|---|---|
| RTX 3060 | 12 GB | ❌ | ⚠️ offload | ✅ | ✅ |
| RTX 4070 Ti Super | 16 GB | ❌ | ⚠️ offload | ✅ | ✅ |
| RTX 4090 | 24 GB | ❌ | ✅ justo | ✅ | ✅ |
| RTX 5090 | 32 GB | ❌ | ✅ holgado | ✅ | ✅ |
| RX 7900 XTX | 24 GB | ❌ | ✅ justo | ✅ | ✅ |
| M4 Max 36GB | 36 GB | ❌ | ✅ holgado | ✅ | ✅ |
⚠️ Offloading en Distill 32B con 16 GB: La versión 32B (19.2 GB Q4) no cabe en 16 GB de VRAM. Con Ollama se activa offloading automático — parte del modelo va a RAM. Funciona, pero a ~3–5 tok/s en vez de 10–12 tok/s en VRAM completa. Para la 32B, necesitas 24+ GB.
Nota RTX 4070 Ti Super: Los datos del RTX 4070 (standar) no están disponibles en nuestra base de datos — usamos el RTX 4070 Ti Super (16 GB) como referencia del tier. El RTX 4070 base tiene 12 GB y comportamiento similar al RTX 3060 para estas variantes.
¿Tu GPU no está en la tabla? Calcula exactamente qué modelo de DeepSeek R1 corre en tu GPU — incluyendo tokens/seg estimados y si necesitas offloading.
6. Cómo instalarlo con Ollama (paso a paso)
Ollama es la forma más directa de correr DeepSeek R1 en local. Gestiona la descarga, cuantización y ejecución del modelo de forma transparente. Tiempo total desde cero: 5 minutos (más el tiempo de descarga del modelo).
Paso 1: Instalar Ollama
# Linux / macOS — una línea
curl -fsSL https://ollama.ai/install.sh | sh
# Windows — descarga el instalador desde:
# https://ollama.ai/download Paso 2: Descarga la variante que cabe en tu VRAM
# DeepSeek R1 Distill 8B — 4.8 GB VRAM en Q4
# Recomendado para: RTX 3060 12GB, cualquier GPU 6–12GB
ollama pull deepseek-r1:8b
# DeepSeek R1 Distill 14B — 8.4 GB VRAM en Q4
# Recomendado para: RTX 3060 12GB, RTX 4060 Ti 16GB, 12–16GB
ollama pull deepseek-r1:14b
# DeepSeek R1 Distill 32B — 19.2 GB VRAM en Q4
# Recomendado para: RTX 4090 24GB, RX 7900 XTX, M4 Max 36GB
ollama pull deepseek-r1:32b
Los tags deepseek-r1:8b, deepseek-r1:14b y deepseek-r1:32b
son los tags oficiales del modelo en Ollama. Ollama descarga Q4 por defecto — el punto óptimo entre VRAM y calidad.
Paso 3: Ejecutar
# Inicia la conversación (reemplaza con tu variante)
ollama run deepseek-r1:8b
# Primer prompt de prueba para verificar que funciona:
# ">>> ¿Cuánto es 127 × 43?"
# Deberías ver las etiquetas <think>...</think> antes de la respuesta —
# eso confirma que el razonamiento en cadena está activo. Ajustar el contexto (num_ctx)
Por defecto Ollama usa una ventana de contexto de 2048 tokens. DeepSeek R1 soporta hasta 128K tokens.
Para aumentar el contexto usa el flag --num_ctx
— pero recuerda que más contexto consume más VRAM:
# Contexto extendido a 8K tokens (~+1–2 GB VRAM adicional)
ollama run deepseek-r1:14b --num_ctx 8192
# Para uso con documentos largos (necesitas VRAM de sobra)
ollama run deepseek-r1:32b --num_ctx 32768 API REST incluida: Ollama levanta automáticamente una API REST en localhost:11434.
Compatible con el formato de la API de OpenAI — puedes integrarlo directamente en cualquier app que use LLMs.
7. Alternativa: LM Studio
Si el terminal no es lo tuyo, LM Studio ofrece una interfaz gráfica completa para descargar y correr modelos locales. Mismo resultado que Ollama, diferente experiencia de usuario.
LM Studio
- • Interfaz visual para elegir modelos
- • Chat integrado sin configuración
- • Selector de quantización con preview de VRAM
- • Descarga directamente desde HuggingFace Hub
- • Windows, macOS, Linux
Ollama
- • Más rápido y ligero
- • API REST lista para integrar
- • Ideal para developers
- • Gestión de modelos desde terminal
- • Más activo en actualizaciones
Cómo encontrar DeepSeek R1 en LM Studio
- 1. Descarga LM Studio desde lmstudio.ai e instálalo.
- 2.
En el buscador del hub, escribe
deepseek-r1-distill. - 3. Elige la variante (8B, 14B o 32B). LM Studio muestra el uso estimado de VRAM por quantización — elige Q4 para el mejor equilibrio.
- 4. Descarga y carga el modelo. El chat integrado está listo.
Recomendación de quantización en LM Studio según tu VRAM: Si tienes 8–12 GB → Q4 de la versión 8B o 14B. Si tienes 16 GB → Q4 de la 14B con margen, o Q4 de la 8B en Q8. Si tienes 24+ GB → Q4 de la 32B.
8. Benchmarks y velocidad esperada
Los tokens/seg de abajo usan como proxy los benchmarks reales de cada GPU con Llama 7B Q4 (para el Distill 8B) y Llama 70B Q4 (para el Distill 32B). Los números son del hardware real — sin estimaciones inventadas. Para el Distill 14B las cifras son estimaciones derivadas de interpolación y se marcan como tal.
| GPU | Distill 8B Q4 | Distill 14B Q4 | Distill 32B Q4 |
|---|---|---|---|
| RTX 3060 12GB | ~30 tok/s | ~18 tok/s (est.) | offloading (~4 tok/s) |
| RTX 4070 Ti Super 16GB | ~60 tok/s | ~35 tok/s (est.) | offloading (~5 tok/s) |
| RTX 4090 24GB | ~95 tok/s | ~45 tok/s (est.) | ~18 tok/s |
| RTX 5090 32GB | ~155 tok/s | ~70 tok/s (est.) | ~28 tok/s |
| RX 7900 XTX 24GB | ~80 tok/s | ~40 tok/s (est.) | ~15 tok/s |
| M4 Max 36GB | ~62 tok/s | ~35 tok/s (est.) | ~13 tok/s |
Expectativas honestas
RTX 3060 + Distill 8B Q4 (~30 tok/s): Respuesta fluida para conversación. El modelo "piensa" en las etiquetas <think> antes de responder — en problemas complejos esto puede tardar 30–60 segundos de razonamiento antes de la respuesta final. Perfectamente usable para día a día.
RTX 4090 + Distill 32B Q4 (~18 tok/s): Para razonamiento profundo, el modelo puede generar 2.000–5.000 tokens de cadena de pensamiento antes de la respuesta. A 18 tok/s eso son 2–5 minutos de espera en problemas muy complejos. Normal y esperado. El resultado suele ser notablemente mejor que saltarse el razonamiento.
La ventaja real sobre ChatGPT o Claude: privacidad total (nada sale de tu máquina), sin costes de API, sin límites de uso, disponible offline. No es instantáneo, pero es tuyo.
GPUs recomendadas para DeepSeek R1
DeepSeek R1 Distill viene en variantes de 8B, 14B y 32B. Elige la GPU según el tamaño que quieras correr:
Affiliate disclosure: esta comparativa incluye enlaces de afiliado a Amazon. Si compras desde ellos, RunAIatHome puede recibir una comisión sin coste extra para ti.
Mejor GPU para DeepSeek R1: comparativa rápida
Si quieres evitar pruebas ciegas, estas tres GPUs cubren los casos reales: entrada barata para Distill 8B, punto dulce para 14B y opción premium para 32B.
Ganador recomendado
RTX 4060 Ti 16GB
Es la recomendación más equilibrada para DeepSeek R1 en casa: suficiente VRAM para Distill 14B, consumo razonable y coste muy inferior a una 4090.
| GPU | Mejor para | Rendimiento | Rango | CTA |
|---|---|---|---|---|
| RTX 4060 Ti 16GB | DeepSeek R1 Distill 14B Q4 | ~25 tok/s | Gama media | Ver precio en Amazon |
| RTX 3060 12GB | DeepSeek R1 Distill 8B Q4 | ~30 tok/s | Budget | Ver precio en Amazon |
| RTX 4090 24GB | DeepSeek R1 Distill 32B Q4 | ~18 tok/s | Premium | Ver precio en Amazon |
9. Calcula tu caso exacto
Los números de este artículo son el punto de partida, pero hay variables que cambian el resultado: overhead del contexto, versión exacta del modelo, flash attention activado, RAM disponible para offloading. Para tu combinación específica de GPU + modelo + quantización, usa la calculadora.
Calculadora de VRAM
Selecciona tu GPU y la variante de DeepSeek R1. La calculadora te dice: si cabe en VRAM, cuántos tokens/seg obtendrás, y qué pasa si activas offloading.
Calcular mi GPU ahora →Hardware recomendado para este modelo
GPUs verificadas para correr DeepSeek R1 en local — actualizado en 2026.
€1799
RTX 4090 24GB
Pros
- Única opción para R1 70B en local
- 24 GB VRAM para modelos 32B
- Máxima velocidad de inferencia
Cons
- Precio muy elevado
€399
RTX 4060 Ti 8GB
Pros
- Sweet spot para R1 Distill 7B/8B
- Consumo eficiente
- Precio razonable
Cons
- 8 GB limita modelos más grandes
€269
RTX 3060 12GB
Pros
- 12 GB para R1 Distill 8B sin problema
- Precio de entrada inmejorable
- Gran disponibilidad
Cons
- Velocidad inferior a generaciones Ada
€249
Intel Arc B580 12GB
Pros
- 12 GB VRAM a precio muy bajo
- Soporte Vulkan/SYCL para Ollama
- Bajo consumo energético
Cons
- Soporte software menos maduro que NVIDIA
Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.
Found this useful? Get guides like this in your inbox every week.