¿Cuánta VRAM necesita DeepSeek R1?

DeepSeek R1 671B completo necesita 403 GB de VRAM en Q4 — imposible en hardware de consumidor. Para uso doméstico, las destilaciones son la solución real: DeepSeek R1 Distill 8B necesita 4.8 GB en Q4, la 14B necesita 8.4 GB, y la 32B necesita 19.2 GB.

¿Puedo correr DeepSeek R1 en una RTX 3060?

Sí, pero no el modelo completo. Con una RTX 3060 de 12 GB puedes correr DeepSeek R1 Distill 8B Q4 (4.8 GB) sin problema, con velocidades de ~30 tokens/seg. La versión Distill 14B Q4 (8.4 GB) también cabe con margen. La versión 32B (19.2 GB) no cabe en 12 GB y requeriría offloading a RAM.

¿Qué es una destilación de DeepSeek R1?

Las destilaciones de DeepSeek R1 son modelos más pequeños (8B, 14B, 32B parámetros) entrenados para imitar el estilo de razonamiento del modelo original de 671B. Mediante destilación del conocimiento, estos modelos compactos heredan la capacidad de pensar paso a paso del R1 completo. Son la única opción viable para hardware de consumidor.

¿DeepSeek R1 Distill 8B tiene la misma calidad que el modelo completo?

No. El 671B tiene quality_score 97/100, el Distill 8B tiene 82/100 y el 32B tiene 92/100. La diferencia se nota en razonamiento matemático complejo y tareas multi-paso. Para uso cotidiano (código, redacción, análisis), el 14B o 32B cubre la mayoría de los casos.

¿Ollama o LM Studio para DeepSeek R1?

Ollama es más rápido y eficiente: terminal, API REST lista para integrar. LM Studio ofrece GUI visual, ideal si prefieres no usar terminal. Para developers, Ollama. Para usuarios que priorizan comodidad visual, LM Studio.

DeepSeek R1 en local: VRAM e instalación

1. La respuesta rápida

Si buscas "deepseek r1 local requisitos" y tienes prisa, aquí está todo: el modelo completo es para clusters de investigación, las destilaciones son para tu casa. ¿No sabes cuánta VRAM tienes? Usa nuestra calculadora de VRAM antes de descargar nada.

Modelo	VRAM mín. (Q4)	GPU recomendada
DeepSeek R1 Distill 8B	4.8 GB	RTX 3060 12GB, RTX 4060 8GB
DeepSeek R1 Distill 14B	8.4 GB	RTX 3060 12GB, RTX 4060 Ti 16GB
DeepSeek R1 Distill 32B	19.2 GB	RTX 4090 24GB, RX 7900 XTX 24GB, M4 Max 36GB
DeepSeek R1 671B completo	403 GB	Solo clusters multi-GPU (A100/H100)

La confusión "200 GB vs 400 GB": Si has leído que DeepSeek R1 cabe en 200 GB, confunden Q2 (201 GB, calidad degradada) con Q4 (403 GB, el estándar). Los datos de abajo son exactos — extraídos de los modelos reales.

2. Qué es DeepSeek R1 y por qué el hype

DeepSeek R1 es un modelo de razonamiento de 671B parámetros creado por DeepSeek AI (China), lanzado en enero de 2025. Alcanza un rendimiento comparable a o1 de OpenAI en benchmarks de matemáticas y código — y es completamente open source con licencia MIT. Eso explica el hype: el mejor modelo de razonamiento disponible, gratis, descargable.

La arquitectura MoE: por qué 671B no significa lo que crees

DeepSeek R1 usa arquitectura MoE (Mixture of Experts): tiene 671B parámetros totales, pero solo activa aproximadamente 37B parámetros por cada token que genera. Los 634B restantes están "dormidos" en ese momento.

El malentendido más común sobre MoE y VRAM

Mucha gente lee "37B activos por token" y piensa: "entonces necesito VRAM para 37B, no para 671B". Incorrecto.

La VRAM no almacena solo los parámetros activos en un momento dado — almacena todos los pesos del modelo completo, porque el sistema no sabe de antemano qué expertos va a necesitar para el siguiente token. El modelo completo (671B parámetros totales) tiene que estar cargado en memoria. Los 37B "activos" se refieren a computación, no a almacenamiento.

Dicho esto, MoE tiene una ventaja real: genera tokens más rápido que un modelo denso de igual tamaño, porque solo activa una fracción de la red en cada paso. Si pudieras cargar el 671B completo en VRAM, irías más rápido que un modelo denso de 671B. El problema es que no puedes.

Por qué compite con o1 de OpenAI

R1 fue entrenado con RL puro para razonamiento — el modelo aprende a "pensar en voz alta" mostrando su cadena de razonamiento antes de dar la respuesta final. Este proceso (visible en las etiquetas <think>...</think>) le da resultados superiores en matemáticas, código y lógica frente a modelos del mismo tamaño sin RL de razonamiento.

La buena noticia: ese estilo de razonamiento se transfiere a las destilaciones. El R1 Distill 14B razona mejor que un modelo genérico de 14B sin destilación de R1.

3. DeepSeek R1 671B: los requisitos reales

Números exactos del modelo completo, sin filtros. Estos datos vienen del modelo tal como se carga con llama.cpp — incluyen el overhead de activaciones y KV cache base.

Quantización	VRAM necesaria	Espacio en disco	¿Viable en casa?
FP16 (sin comprimir)	1.610 GB	1.342 GB	❌ Imposible
Q8	805 GB	671 GB	❌ Solo datacenter
Q4 (estándar)	403 GB	336 GB	❌ Solo multi-GPU profesional
Q2 (mínimo, calidad degradada)	201 GB	168 GB	⚠️ M3 Ultra con sacrificio de calidad

Para quién es el 671B: Investigadores con acceso a clusters de A100 o H100, empresas que montaron sistemas multi-GPU propios, o entusiastas muy extremos con 8× RTX 3090 en NVLink (192 GB — aún insuficiente para Q4). Si estás leyendo esta guía preguntándote si corre en tu PC, la respuesta es no. Pero las destilaciones sí.

El punto de esta sección no es desanimarte — es orientarte hacia la solución correcta: las destilaciones son modelos reales, capaces, que heredan el estilo de razonamiento de R1. No son un consolación prize; son la versión práctica.

4. Las destilaciones: lo que sí puedes correr en casa

DeepSeek lanzó tres destilaciones del R1 para hardware de consumidor: 8B, 14B y 32B parámetros. Cada una tiene sus propios pesos y requisitos exactos. Los datos de abajo son los reales del modelo.

DeepSeek R1 Distill 8B

Tareas rápidas · entrada

FP16	Q8	Q4 (rec.)	Q2
19.2 GB	9.6 GB	4.8 GB	2.4 GB

Basado en Llama-3 8B. Corre en cualquier GPU con 6+ GB de VRAM. Con 4.8 GB en Q4 tienes margen para un contexto de 8–16K tokens sin problemas. Ideal para: asistente rápido, código corto, preguntas cotidianas. Quality score: 82/100.

DeepSeek R1 Distill 14B

Equilibrio calidad/VRAM

FP16	Q8	Q4 (rec.)	Q2
33.6 GB	16.8 GB	8.4 GB	4.2 GB

Basado en Qwen2.5 14B. El punto dulce para la mayoría de usuarios con GPUs de 12–16 GB. A 8.4 GB en Q4 cabe con holgura en una RTX 3060 12GB, RTX 4060 Ti 16GB o cualquier GPU de 16+ GB. Mejor razonamiento que el 8B, velocidad todavía usable. Quality score: 87/100.

DeepSeek R1 Distill 32B

Máxima calidad en casa

FP16	Q8	Q4 (rec.)	Q2
76.8 GB	38.4 GB	19.2 GB	9.6 GB

Basado en Qwen2.5 32B. Necesita una GPU de 24+ GB (RTX 4090, RX 7900 XTX) o Apple Silicon con 24+ GB. Con 19.2 GB en Q4 cabe ajustado en una RTX 4090 (24 GB) y con holgura en un M4 Max 36GB. La destilación más cercana al modelo completo que puedes correr en casa. Quality score: 92/100.

¿Cuál te conviene? Usa la calculadora de VRAM para ver exactamente qué destilación cabe en tu GPU específica y cuántos tokens/seg obtendrás.

5. Tabla de compatibilidad GPU × modelo

Cruce directo de las GPUs más populares con las 4 variantes de DeepSeek R1. Basado en VRAM real de cada GPU vs VRAM Q4 de cada modelo. ✅ cabe en VRAM · ⚠️ necesita offloading a RAM (funciona, más lento) · ❌ no viable

GPU	VRAM	R1 671B (403 GB Q4)	Distill 32B (19.2 GB Q4)	Distill 14B (8.4 GB Q4)	Distill 8B (4.8 GB Q4)
RTX 3060	12 GB	❌	⚠️ offload	✅	✅
RTX 4070 Ti Super	16 GB	❌	⚠️ offload	✅	✅
RTX 4090	24 GB	❌	✅ justo	✅	✅
RTX 5090	32 GB	❌	✅ holgado	✅	✅
RX 7900 XTX	24 GB	❌	✅ justo	✅	✅
M4 Max 36GB	36 GB	❌	✅ holgado	✅	✅

⚠️ Offloading en Distill 32B con 16 GB: La versión 32B (19.2 GB Q4) no cabe en 16 GB de VRAM. Con Ollama se activa offloading automático — parte del modelo va a RAM. Funciona, pero a ~3–5 tok/s en vez de 10–12 tok/s en VRAM completa. Para la 32B, necesitas 24+ GB.

Nota RTX 4070 Ti Super: Los datos del RTX 4070 (standar) no están disponibles en nuestra base de datos — usamos el RTX 4070 Ti Super (16 GB) como referencia del tier. El RTX 4070 base tiene 12 GB y comportamiento similar al RTX 3060 para estas variantes.

¿Tu GPU no está en la tabla? Calcula exactamente qué modelo de DeepSeek R1 corre en tu GPU — incluyendo tokens/seg estimados y si necesitas offloading.

6. Cómo instalarlo con Ollama (paso a paso)

Ollama es la forma más directa de correr DeepSeek R1 en local. Gestiona la descarga, cuantización y ejecución del modelo de forma transparente. Tiempo total desde cero: 5 minutos (más el tiempo de descarga del modelo).

Paso 1: Instalar Ollama

# Linux / macOS — una línea
curl -fsSL https://ollama.ai/install.sh | sh

# Windows — descarga el instalador desde:
# https://ollama.ai/download

Paso 2: Descarga la variante que cabe en tu VRAM

# DeepSeek R1 Distill 8B — 4.8 GB VRAM en Q4
# Recomendado para: RTX 3060 12GB, cualquier GPU 6–12GB
ollama pull deepseek-r1:8b

# DeepSeek R1 Distill 14B — 8.4 GB VRAM en Q4
# Recomendado para: RTX 3060 12GB, RTX 4060 Ti 16GB, 12–16GB
ollama pull deepseek-r1:14b

# DeepSeek R1 Distill 32B — 19.2 GB VRAM en Q4
# Recomendado para: RTX 4090 24GB, RX 7900 XTX, M4 Max 36GB
ollama pull deepseek-r1:32b

Los tags deepseek-r1:8b, deepseek-r1:14b y deepseek-r1:32b son los tags oficiales del modelo en Ollama. Ollama descarga Q4 por defecto — el punto óptimo entre VRAM y calidad.

Paso 3: Ejecutar

# Inicia la conversación (reemplaza con tu variante)
ollama run deepseek-r1:8b

# Primer prompt de prueba para verificar que funciona:
# ">>> ¿Cuánto es 127 × 43?"
# Deberías ver las etiquetas <think>...</think> antes de la respuesta —
# eso confirma que el razonamiento en cadena está activo.

Ajustar el contexto (num_ctx)

Por defecto Ollama usa una ventana de contexto de 2048 tokens. DeepSeek R1 soporta hasta 128K tokens. Para aumentar el contexto usa el flag --num_ctx — pero recuerda que más contexto consume más VRAM:

# Contexto extendido a 8K tokens (~+1–2 GB VRAM adicional)
ollama run deepseek-r1:14b --num_ctx 8192

# Para uso con documentos largos (necesitas VRAM de sobra)
ollama run deepseek-r1:32b --num_ctx 32768

API REST incluida: Ollama levanta automáticamente una API REST en localhost:11434. Compatible con el formato de la API de OpenAI — puedes integrarlo directamente en cualquier app que use LLMs.

7. Alternativa: LM Studio

Si el terminal no es lo tuyo, LM Studio ofrece una interfaz gráfica completa para descargar y correr modelos locales. Mismo resultado que Ollama, diferente experiencia de usuario.

LM Studio

• Interfaz visual para elegir modelos
• Chat integrado sin configuración
• Selector de quantización con preview de VRAM
• Descarga directamente desde HuggingFace Hub
• Windows, macOS, Linux

Ollama

• Más rápido y ligero
• API REST lista para integrar
• Ideal para developers
• Gestión de modelos desde terminal
• Más activo en actualizaciones

Cómo encontrar DeepSeek R1 en LM Studio

1. Descarga LM Studio desde lmstudio.ai e instálalo.
2. En el buscador del hub, escribe deepseek-r1-distill.
3. Elige la variante (8B, 14B o 32B). LM Studio muestra el uso estimado de VRAM por quantización — elige Q4 para el mejor equilibrio.
4. Descarga y carga el modelo. El chat integrado está listo.

Recomendación de quantización en LM Studio según tu VRAM: Si tienes 8–12 GB → Q4 de la versión 8B o 14B. Si tienes 16 GB → Q4 de la 14B con margen, o Q4 de la 8B en Q8. Si tienes 24+ GB → Q4 de la 32B.

8. Benchmarks y velocidad esperada

Los tokens/seg de abajo usan como proxy los benchmarks reales de cada GPU con Llama 7B Q4 (para el Distill 8B) y Llama 70B Q4 (para el Distill 32B). Los números son del hardware real — sin estimaciones inventadas. Para el Distill 14B las cifras son estimaciones derivadas de interpolación y se marcan como tal.

GPU	Distill 8B Q4	Distill 14B Q4	Distill 32B Q4
RTX 3060 12GB	~30 tok/s	~18 tok/s (est.)	offloading (~4 tok/s)
RTX 4070 Ti Super 16GB	~60 tok/s	~35 tok/s (est.)	offloading (~5 tok/s)
RTX 4090 24GB	~95 tok/s	~45 tok/s (est.)	~18 tok/s
RTX 5090 32GB	~155 tok/s	~70 tok/s (est.)	~28 tok/s
RX 7900 XTX 24GB	~80 tok/s	~40 tok/s (est.)	~15 tok/s
M4 Max 36GB	~62 tok/s	~35 tok/s (est.)	~13 tok/s

Expectativas honestas

RTX 3060 + Distill 8B Q4 (~30 tok/s): Respuesta fluida para conversación. El modelo "piensa" en las etiquetas <think> antes de responder — en problemas complejos esto puede tardar 30–60 segundos de razonamiento antes de la respuesta final. Perfectamente usable para día a día.

RTX 4090 + Distill 32B Q4 (~18 tok/s): Para razonamiento profundo, el modelo puede generar 2.000–5.000 tokens de cadena de pensamiento antes de la respuesta. A 18 tok/s eso son 2–5 minutos de espera en problemas muy complejos. Normal y esperado. El resultado suele ser notablemente mejor que saltarse el razonamiento.

La ventaja real sobre ChatGPT o Claude: privacidad total (nada sale de tu máquina), sin costes de API, sin límites de uso, disponible offline. No es instantáneo, pero es tuyo.

GPUs recomendadas para DeepSeek R1

DeepSeek R1 Distill viene en variantes de 8B, 14B y 32B. Elige la GPU según el tamaño que quieras correr:

Affiliate disclosure: esta comparativa incluye enlaces de afiliado a Amazon. Si compras desde ellos, RunAIatHome puede recibir una comisión sin coste extra para ti.

Mejor GPU para DeepSeek R1: comparativa rápida

Si quieres evitar pruebas ciegas, estas tres GPUs cubren los casos reales: entrada barata para Distill 8B, punto dulce para 14B y opción premium para 32B.

Ganador recomendado

RTX 4060 Ti 16GB

Es la recomendación más equilibrada para DeepSeek R1 en casa: suficiente VRAM para Distill 14B, consumo razonable y coste muy inferior a una 4090.

GPU	Mejor para	Rendimiento	Rango	CTA
RTX 4060 Ti 16GB	DeepSeek R1 Distill 14B Q4	~25 tok/s	Gama media	Ver precio en Amazon
RTX 3060 12GB	DeepSeek R1 Distill 8B Q4	~30 tok/s	Budget	Ver precio en Amazon
RTX 4090 24GB	DeepSeek R1 Distill 32B Q4	~18 tok/s	Premium	Ver precio en Amazon

RTX 3060 12GB

Para Distill 8B Q4 · ~30 tok/s

Ver precio en Amazon

RTX 4060 Ti 16GB

Para Distill 14B Q4 · ~25 tok/s

Ver precio en Amazon

RTX 4090 24GB

Para Distill 32B Q4 · ~18 tok/s

Ver precio en Amazon

9. Calcula tu caso exacto

Los números de este artículo son el punto de partida, pero hay variables que cambian el resultado: overhead del contexto, versión exacta del modelo, flash attention activado, RAM disponible para offloading. Para tu combinación específica de GPU + modelo + quantización, usa la calculadora.

Calculadora de VRAM

Selecciona tu GPU y la variante de DeepSeek R1. La calculadora te dice: si cabe en VRAM, cuántos tokens/seg obtendrás, y qué pasa si activas offloading.

Calcular mi GPU ahora →

Hardware recomendado para este modelo

GPUs verificadas para correr DeepSeek R1 en local — actualizado en 2026.

€1799

pro Amazon Prime

RTX 4090 24GB

4.8 (1,200 reviews)

Pros

Única opción para R1 70B en local
24 GB VRAM para modelos 32B
Máxima velocidad de inferencia

Cons

Precio muy elevado

Ver en Amazon

€399

mid Amazon Prime

RTX 4060 Ti 8GB

4.6 (640 reviews)

Pros

Sweet spot para R1 Distill 7B/8B
Consumo eficiente
Precio razonable

Cons

8 GB limita modelos más grandes

Ver en Amazon

€269

budget Amazon Prime

RTX 3060 12GB

4.8 (1,400 reviews)

Pros

12 GB para R1 Distill 8B sin problema
Precio de entrada inmejorable
Gran disponibilidad

Cons

Velocidad inferior a generaciones Ada

Ver en Amazon

Product image

€249

budget Amazon Prime

Intel Arc B580 12GB

4.2 (180 reviews)

Pros

12 GB VRAM a precio muy bajo
Soporte Vulkan/SYCL para Ollama
Bajo consumo energético

Cons

Soporte software menos maduro que NVIDIA

Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

Found this useful? Get guides like this in your inbox every week.

DeepSeek R1 en local: VRAM necesaria, destilaciones y cómo instalarlo

1. La respuesta rápida

2. Qué es DeepSeek R1 y por qué el hype

La arquitectura MoE: por qué 671B no significa lo que crees

El malentendido más común sobre MoE y VRAM

Por qué compite con o1 de OpenAI

3. DeepSeek R1 671B: los requisitos reales

4. Las destilaciones: lo que sí puedes correr en casa

DeepSeek R1 Distill 8B

DeepSeek R1 Distill 14B

DeepSeek R1 Distill 32B

5. Tabla de compatibilidad GPU × modelo

6. Cómo instalarlo con Ollama (paso a paso)

Paso 1: Instalar Ollama

Paso 2: Descarga la variante que cabe en tu VRAM

Paso 3: Ejecutar

Ajustar el contexto (num_ctx)

7. Alternativa: LM Studio

LM Studio

Ollama

Cómo encontrar DeepSeek R1 en LM Studio

8. Benchmarks y velocidad esperada

Expectativas honestas

GPUs recomendadas para DeepSeek R1

Mejor GPU para DeepSeek R1: comparativa rápida

RTX 3060 12GB

RTX 4060 Ti 16GB

RTX 4090 24GB

9. Calcula tu caso exacto

Calculadora de VRAM

Hardware recomendado para este modelo

RTX 4090 24GB

RTX 4060 Ti 8GB

RTX 3060 12GB

Intel Arc B580 12GB

Fuentes