Skip to main content
Guía técnica 18 min de lectura ·

Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.

Divulgación: Este artículo contiene enlaces de afiliado de Amazon. Si compras a través de ellos, recibimos una pequeña comisión sin coste adicional para ti.
Alex Chen AI Hardware Specialist
GitHub: github.com/javier-morales-ia

DeepSeek R1 en local: VRAM necesaria, destilaciones y cómo instalarlo

El modelo que paralizó la industria. Los requisitos reales para correrlo en casa, por qué el 671B completo es ciencia ficción para usuarios domésticos, y cómo las destilaciones 8B/14B/32B son la solución práctica. Datos extraídos directamente de los modelos — sin estimaciones.

¿Qué necesitas para correr DeepSeek R1 localmente?

Para DeepSeek R1 7B necesitas 8GB VRAM. Para la versión 70B cuantizada a 4-bit, 24GB VRAM mínimo.

1. La respuesta rápida

Si buscas "deepseek r1 local requisitos" y tienes prisa, aquí está todo: el modelo completo es para clusters de investigación, las destilaciones son para tu casa. ¿No sabes cuánta VRAM tienes? Usa nuestra calculadora de VRAM antes de descargar nada.

Modelo VRAM mín. (Q4) GPU recomendada
DeepSeek R1 Distill 8B 4.8 GB RTX 3060 12GB, RTX 4060 8GB
DeepSeek R1 Distill 14B 8.4 GB RTX 3060 12GB, RTX 4060 Ti 16GB
DeepSeek R1 Distill 32B 19.2 GB RTX 4090 24GB, RX 7900 XTX 24GB, M4 Max 36GB
DeepSeek R1 671B completo 403 GB Solo clusters multi-GPU (A100/H100)

La confusión "200 GB vs 400 GB": Si has leído que DeepSeek R1 cabe en 200 GB, confunden Q2 (201 GB, calidad degradada) con Q4 (403 GB, el estándar). Los datos de abajo son exactos — extraídos de los modelos reales.

2. Qué es DeepSeek R1 y por qué el hype

DeepSeek R1 es un modelo de razonamiento de 671B parámetros creado por DeepSeek AI (China), lanzado en enero de 2025. Alcanza un rendimiento comparable a o1 de OpenAI en benchmarks de matemáticas y código — y es completamente open source con licencia MIT. Eso explica el hype: el mejor modelo de razonamiento disponible, gratis, descargable.

La arquitectura MoE: por qué 671B no significa lo que crees

DeepSeek R1 usa arquitectura MoE (Mixture of Experts): tiene 671B parámetros totales, pero solo activa aproximadamente 37B parámetros por cada token que genera. Los 634B restantes están "dormidos" en ese momento.

El malentendido más común sobre MoE y VRAM

Mucha gente lee "37B activos por token" y piensa: "entonces necesito VRAM para 37B, no para 671B". Incorrecto.

La VRAM no almacena solo los parámetros activos en un momento dado — almacena todos los pesos del modelo completo, porque el sistema no sabe de antemano qué expertos va a necesitar para el siguiente token. El modelo completo (671B parámetros totales) tiene que estar cargado en memoria. Los 37B "activos" se refieren a computación, no a almacenamiento.

Dicho esto, MoE tiene una ventaja real: genera tokens más rápido que un modelo denso de igual tamaño, porque solo activa una fracción de la red en cada paso. Si pudieras cargar el 671B completo en VRAM, irías más rápido que un modelo denso de 671B. El problema es que no puedes.

Por qué compite con o1 de OpenAI

R1 fue entrenado con RL puro para razonamiento — el modelo aprende a "pensar en voz alta" mostrando su cadena de razonamiento antes de dar la respuesta final. Este proceso (visible en las etiquetas <think>...</think>) le da resultados superiores en matemáticas, código y lógica frente a modelos del mismo tamaño sin RL de razonamiento.

La buena noticia: ese estilo de razonamiento se transfiere a las destilaciones. El R1 Distill 14B razona mejor que un modelo genérico de 14B sin destilación de R1.

3. DeepSeek R1 671B: los requisitos reales

Números exactos del modelo completo, sin filtros. Estos datos vienen del modelo tal como se carga con llama.cpp — incluyen el overhead de activaciones y KV cache base.

Quantización VRAM necesaria Espacio en disco ¿Viable en casa?
FP16 (sin comprimir) 1.610 GB 1.342 GB ❌ Imposible
Q8 805 GB 671 GB ❌ Solo datacenter
Q4 (estándar) 403 GB 336 GB ❌ Solo multi-GPU profesional
Q2 (mínimo, calidad degradada) 201 GB 168 GB ⚠️ M3 Ultra con sacrificio de calidad

Para quién es el 671B: Investigadores con acceso a clusters de A100 o H100, empresas que montaron sistemas multi-GPU propios, o entusiastas muy extremos con 8× RTX 3090 en NVLink (192 GB — aún insuficiente para Q4). Si estás leyendo esta guía preguntándote si corre en tu PC, la respuesta es no. Pero las destilaciones sí.

El punto de esta sección no es desanimarte — es orientarte hacia la solución correcta: las destilaciones son modelos reales, capaces, que heredan el estilo de razonamiento de R1. No son un consolación prize; son la versión práctica.

4. Las destilaciones: lo que sí puedes correr en casa

DeepSeek lanzó tres destilaciones del R1 para hardware de consumidor: 8B, 14B y 32B parámetros. Cada una tiene sus propios pesos y requisitos exactos. Los datos de abajo son los reales del modelo.

DeepSeek R1 Distill 8B

Tareas rápidas · entrada
FP16 Q8 Q4 (rec.) Q2
19.2 GB 9.6 GB 4.8 GB 2.4 GB

Basado en Llama-3 8B. Corre en cualquier GPU con 6+ GB de VRAM. Con 4.8 GB en Q4 tienes margen para un contexto de 8–16K tokens sin problemas. Ideal para: asistente rápido, código corto, preguntas cotidianas. Quality score: 82/100.

DeepSeek R1 Distill 14B

Equilibrio calidad/VRAM
FP16 Q8 Q4 (rec.) Q2
33.6 GB 16.8 GB 8.4 GB 4.2 GB

Basado en Qwen2.5 14B. El punto dulce para la mayoría de usuarios con GPUs de 12–16 GB. A 8.4 GB en Q4 cabe con holgura en una RTX 3060 12GB, RTX 4060 Ti 16GB o cualquier GPU de 16+ GB. Mejor razonamiento que el 8B, velocidad todavía usable. Quality score: 87/100.

DeepSeek R1 Distill 32B

Máxima calidad en casa
FP16 Q8 Q4 (rec.) Q2
76.8 GB 38.4 GB 19.2 GB 9.6 GB

Basado en Qwen2.5 32B. Necesita una GPU de 24+ GB (RTX 4090, RX 7900 XTX) o Apple Silicon con 24+ GB. Con 19.2 GB en Q4 cabe ajustado en una RTX 4090 (24 GB) y con holgura en un M4 Max 36GB. La destilación más cercana al modelo completo que puedes correr en casa. Quality score: 92/100.

¿Cuál te conviene? Usa la calculadora de VRAM para ver exactamente qué destilación cabe en tu GPU específica y cuántos tokens/seg obtendrás.

5. Tabla de compatibilidad GPU × modelo

Cruce directo de las GPUs más populares con las 4 variantes de DeepSeek R1. Basado en VRAM real de cada GPU vs VRAM Q4 de cada modelo. ✅ cabe en VRAM · ⚠️ necesita offloading a RAM (funciona, más lento) · ❌ no viable

GPU VRAM R1 671B
(403 GB Q4)
Distill 32B
(19.2 GB Q4)
Distill 14B
(8.4 GB Q4)
Distill 8B
(4.8 GB Q4)
RTX 3060 12 GB ⚠️ offload
RTX 4070 Ti Super 16 GB ⚠️ offload
RTX 4090 24 GB ✅ justo
RTX 5090 32 GB ✅ holgado
RX 7900 XTX 24 GB ✅ justo
M4 Max 36GB 36 GB ✅ holgado

⚠️ Offloading en Distill 32B con 16 GB: La versión 32B (19.2 GB Q4) no cabe en 16 GB de VRAM. Con Ollama se activa offloading automático — parte del modelo va a RAM. Funciona, pero a ~3–5 tok/s en vez de 10–12 tok/s en VRAM completa. Para la 32B, necesitas 24+ GB.

Nota RTX 4070 Ti Super: Los datos del RTX 4070 (standar) no están disponibles en nuestra base de datos — usamos el RTX 4070 Ti Super (16 GB) como referencia del tier. El RTX 4070 base tiene 12 GB y comportamiento similar al RTX 3060 para estas variantes.

¿Tu GPU no está en la tabla? Calcula exactamente qué modelo de DeepSeek R1 corre en tu GPU — incluyendo tokens/seg estimados y si necesitas offloading.

6. Cómo instalarlo con Ollama (paso a paso)

Ollama es la forma más directa de correr DeepSeek R1 en local. Gestiona la descarga, cuantización y ejecución del modelo de forma transparente. Tiempo total desde cero: 5 minutos (más el tiempo de descarga del modelo).

Paso 1: Instalar Ollama

# Linux / macOS — una línea
curl -fsSL https://ollama.ai/install.sh | sh

# Windows — descarga el instalador desde:
# https://ollama.ai/download

Paso 2: Descarga la variante que cabe en tu VRAM

# DeepSeek R1 Distill 8B — 4.8 GB VRAM en Q4
# Recomendado para: RTX 3060 12GB, cualquier GPU 6–12GB
ollama pull deepseek-r1:8b

# DeepSeek R1 Distill 14B — 8.4 GB VRAM en Q4
# Recomendado para: RTX 3060 12GB, RTX 4060 Ti 16GB, 12–16GB
ollama pull deepseek-r1:14b

# DeepSeek R1 Distill 32B — 19.2 GB VRAM en Q4
# Recomendado para: RTX 4090 24GB, RX 7900 XTX, M4 Max 36GB
ollama pull deepseek-r1:32b

Los tags deepseek-r1:8b, deepseek-r1:14b y deepseek-r1:32b son los tags oficiales del modelo en Ollama. Ollama descarga Q4 por defecto — el punto óptimo entre VRAM y calidad.

Paso 3: Ejecutar

# Inicia la conversación (reemplaza con tu variante)
ollama run deepseek-r1:8b

# Primer prompt de prueba para verificar que funciona:
# ">>> ¿Cuánto es 127 × 43?"
# Deberías ver las etiquetas <think>...</think> antes de la respuesta —
# eso confirma que el razonamiento en cadena está activo.

Ajustar el contexto (num_ctx)

Por defecto Ollama usa una ventana de contexto de 2048 tokens. DeepSeek R1 soporta hasta 128K tokens. Para aumentar el contexto usa el flag --num_ctx — pero recuerda que más contexto consume más VRAM:

# Contexto extendido a 8K tokens (~+1–2 GB VRAM adicional)
ollama run deepseek-r1:14b --num_ctx 8192

# Para uso con documentos largos (necesitas VRAM de sobra)
ollama run deepseek-r1:32b --num_ctx 32768

API REST incluida: Ollama levanta automáticamente una API REST en localhost:11434. Compatible con el formato de la API de OpenAI — puedes integrarlo directamente en cualquier app que use LLMs.

7. Alternativa: LM Studio

Si el terminal no es lo tuyo, LM Studio ofrece una interfaz gráfica completa para descargar y correr modelos locales. Mismo resultado que Ollama, diferente experiencia de usuario.

LM Studio

  • Interfaz visual para elegir modelos
  • Chat integrado sin configuración
  • Selector de quantización con preview de VRAM
  • Descarga directamente desde HuggingFace Hub
  • Windows, macOS, Linux

Ollama

  • Más rápido y ligero
  • API REST lista para integrar
  • Ideal para developers
  • Gestión de modelos desde terminal
  • Más activo en actualizaciones

Cómo encontrar DeepSeek R1 en LM Studio

  1. 1. Descarga LM Studio desde lmstudio.ai e instálalo.
  2. 2. En el buscador del hub, escribe deepseek-r1-distill.
  3. 3. Elige la variante (8B, 14B o 32B). LM Studio muestra el uso estimado de VRAM por quantización — elige Q4 para el mejor equilibrio.
  4. 4. Descarga y carga el modelo. El chat integrado está listo.

Recomendación de quantización en LM Studio según tu VRAM: Si tienes 8–12 GB → Q4 de la versión 8B o 14B. Si tienes 16 GB → Q4 de la 14B con margen, o Q4 de la 8B en Q8. Si tienes 24+ GB → Q4 de la 32B.

8. Benchmarks y velocidad esperada

Los tokens/seg de abajo usan como proxy los benchmarks reales de cada GPU con Llama 7B Q4 (para el Distill 8B) y Llama 70B Q4 (para el Distill 32B). Los números son del hardware real — sin estimaciones inventadas. Para el Distill 14B las cifras son estimaciones derivadas de interpolación y se marcan como tal.

GPU Distill 8B Q4 Distill 14B Q4 Distill 32B Q4
RTX 3060 12GB ~30 tok/s ~18 tok/s (est.) offloading (~4 tok/s)
RTX 4070 Ti Super 16GB ~60 tok/s ~35 tok/s (est.) offloading (~5 tok/s)
RTX 4090 24GB ~95 tok/s ~45 tok/s (est.) ~18 tok/s
RTX 5090 32GB ~155 tok/s ~70 tok/s (est.) ~28 tok/s
RX 7900 XTX 24GB ~80 tok/s ~40 tok/s (est.) ~15 tok/s
M4 Max 36GB ~62 tok/s ~35 tok/s (est.) ~13 tok/s

Expectativas honestas

RTX 3060 + Distill 8B Q4 (~30 tok/s): Respuesta fluida para conversación. El modelo "piensa" en las etiquetas <think> antes de responder — en problemas complejos esto puede tardar 30–60 segundos de razonamiento antes de la respuesta final. Perfectamente usable para día a día.

RTX 4090 + Distill 32B Q4 (~18 tok/s): Para razonamiento profundo, el modelo puede generar 2.000–5.000 tokens de cadena de pensamiento antes de la respuesta. A 18 tok/s eso son 2–5 minutos de espera en problemas muy complejos. Normal y esperado. El resultado suele ser notablemente mejor que saltarse el razonamiento.

La ventaja real sobre ChatGPT o Claude: privacidad total (nada sale de tu máquina), sin costes de API, sin límites de uso, disponible offline. No es instantáneo, pero es tuyo.

GPUs recomendadas para DeepSeek R1

DeepSeek R1 Distill viene en variantes de 8B, 14B y 32B. Elige la GPU según el tamaño que quieras correr:

Affiliate disclosure: esta comparativa incluye enlaces de afiliado a Amazon. Si compras desde ellos, RunAIatHome puede recibir una comisión sin coste extra para ti.

Mejor GPU para DeepSeek R1: comparativa rápida

Si quieres evitar pruebas ciegas, estas tres GPUs cubren los casos reales: entrada barata para Distill 8B, punto dulce para 14B y opción premium para 32B.

Ganador recomendado

RTX 4060 Ti 16GB

Es la recomendación más equilibrada para DeepSeek R1 en casa: suficiente VRAM para Distill 14B, consumo razonable y coste muy inferior a una 4090.

GPU Mejor para Rendimiento Rango CTA
RTX 4060 Ti 16GB DeepSeek R1 Distill 14B Q4 ~25 tok/s Gama media Ver precio en Amazon
RTX 3060 12GB DeepSeek R1 Distill 8B Q4 ~30 tok/s Budget Ver precio en Amazon
RTX 4090 24GB DeepSeek R1 Distill 32B Q4 ~18 tok/s Premium Ver precio en Amazon

RTX 3060 12GB

Para Distill 8B Q4 · ~30 tok/s

Ver precio en Amazon

RTX 4060 Ti 16GB

Para Distill 14B Q4 · ~25 tok/s

Ver precio en Amazon

RTX 4090 24GB

Para Distill 32B Q4 · ~18 tok/s

Ver precio en Amazon

9. Calcula tu caso exacto

Los números de este artículo son el punto de partida, pero hay variables que cambian el resultado: overhead del contexto, versión exacta del modelo, flash attention activado, RAM disponible para offloading. Para tu combinación específica de GPU + modelo + quantización, usa la calculadora.

Calculadora de VRAM

Selecciona tu GPU y la variante de DeepSeek R1. La calculadora te dice: si cabe en VRAM, cuántos tokens/seg obtendrás, y qué pasa si activas offloading.

Calcular mi GPU ahora →

Hardware recomendado para este modelo

GPUs verificadas para correr DeepSeek R1 en local — actualizado en 2026.

RTX 4090 24GB

€1799

pro Amazon Prime

RTX 4090 24GB

4.8 (1,200 reviews)

Pros

  • Única opción para R1 70B en local
  • 24 GB VRAM para modelos 32B
  • Máxima velocidad de inferencia

Cons

  • Precio muy elevado
Ver en Amazon
RTX 4060 Ti 8GB

€399

mid Amazon Prime

RTX 4060 Ti 8GB

4.6 (640 reviews)

Pros

  • Sweet spot para R1 Distill 7B/8B
  • Consumo eficiente
  • Precio razonable

Cons

  • 8 GB limita modelos más grandes
Ver en Amazon
RTX 3060 12GB

€269

budget Amazon Prime

RTX 3060 12GB

4.8 (1,400 reviews)

Pros

  • 12 GB para R1 Distill 8B sin problema
  • Precio de entrada inmejorable
  • Gran disponibilidad

Cons

  • Velocidad inferior a generaciones Ada
Ver en Amazon
Product image

€249

budget Amazon Prime

Intel Arc B580 12GB

4.2 (180 reviews)

Pros

  • 12 GB VRAM a precio muy bajo
  • Soporte Vulkan/SYCL para Ollama
  • Bajo consumo energético

Cons

  • Soporte software menos maduro que NVIDIA
Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

Found this useful? Get guides like this in your inbox every week.

No spam. Unsubscribe in one click.

Fuentes

RTX 4060 — GPU recomendada

Ver mejor precio