Skip to main content
Guía técnica 12 min de lectura ·

Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.

Divulgación: Este artículo contiene enlaces de afiliado de Amazon. Si compras a través de ellos, recibimos una pequeña comisión sin coste adicional para ti.
Alex Chen AI Hardware Specialist
GitHub: github.com/javier-morales-ia

Mistral 7B en local: instalación con Ollama y cuánta VRAM necesitas

El modelo con mejor ratio calidad/VRAM del mercado. Con 4.5 GB en Q4 corre en prácticamente cualquier GPU gaming moderna. Open-source (Apache 2.0), 32K tokens de contexto, y se instala con un solo comando.

Mistral 7B es el modelo open-source más popular para empezar con IA local, y con razón. Lanzado por Mistral AI en septiembre de 2023, con licencia Apache 2.0 (uso comercial libre), ofrece un rendimiento sorprendente para su tamaño. El dato clave: solo necesitas 4.5 GB de VRAM en Q4 — cabe en cualquier GPU gaming de 8 GB o más. Si acabas de descubrir Ollama y quieres empezar con algo que realmente funcione sin romperte la cabeza con la VRAM, este es tu modelo. Para saber si tu GPU es compatible antes de descargar nada, usa nuestra calculadora de VRAM.

1. ¿Cuánta VRAM necesita Mistral 7B?

La VRAM necesaria depende de la quantización que elijas. Q4 es el estándar recomendado y el que Ollama descarga por defecto. Para entender la diferencia entre quantizaciones, lee nuestro artículo sobre cuánta VRAM necesito para IA local.

Quantización VRAM necesaria Espacio en disco Calidad relativa
FP16 (máxima) 14 GB 14 GB 100%
Q8 (alta) 7 GB 7 GB 99%
Q4 (recomendado) 4.5 GB 4.1 GB 94%
Q2 (mínimo) 2.5 GB 2.2 GB 78%

Q4 es el sweet spot, y los números lo confirman

Q4 consume solo el 32% de la VRAM que necesita FP16, conserva el 94% de la calidad, y es lo que Ollama descarga por defecto. No tienes que configurar nada — simplemente funciona. Solo tiene sentido usar FP16 si haces fine-tuning o investigación; para uso cotidiano, Q4 es siempre la respuesta correcta.

¿Tu GPU tiene suficiente VRAM? Usa nuestra calculadora de VRAM para ver exactamente si Mistral 7B cabe en tu GPU, cuántos tokens/seg obtendrás y si necesitas offloading.

2. Requisitos del sistema

Mínimo (Q4)

  • GPU: 8 GB VRAM (RTX 4060 Ti o equivalente)
  • RAM: 8 GB sistema
  • Disco: 5 GB libres
  • OS: Windows 10+, macOS 12+, Ubuntu 20.04+

Recomendado

  • GPU: 12 GB+ VRAM (RTX 3060 o mejor)
  • RAM: 16 GB sistema
  • Disco: SSD con 10 GB libres
  • Conexión: 50+ Mbps para descarga inicial

Sin GPU dedicada: Mistral 7B también corre en CPU, pero la experiencia es muy diferente — 1–3 tokens/seg en vez de 30–95. Tolerable para pruebas, inutilizable para uso diario. En Apple Silicon, la memoria unificada actúa como VRAM: un M1 Pro con 16 GB es perfectamente viable para Q4.

3. Instalación paso a paso con Ollama

Ollama es la forma más directa de correr Mistral 7B en local. Gestiona la descarga, cuantización y ejecución sin que tengas que tocar nada manualmente. Tiempo total desde cero: menos de 15 minutos (la mayoría es descarga).

Paso 1: Instalar Ollama

Descarga el instalador desde ollama.com para tu sistema operativo:

# Linux / macOS — una línea en terminal
curl -fsSL https://ollama.ai/install.sh | sh

# Windows — descarga el .exe desde ollama.com/download
# (instalador gráfico, no requiere terminal)

Paso 2: Ejecutar Mistral 7B

Un solo comando descarga el modelo (si no está) y abre el chat. Ollama descarga Q4 por defecto — los 4.1 GB del modelo.

# Descarga y arranca Mistral 7B (Q4 por defecto, ~4.1 GB)
ollama run mistral:7b

# Primera pregunta de prueba
>>> ¿Qué puedes hacer?

Tiempo de descarga: ~4.1 GB, entre 5 y 15 minutos según tu conexión. Solo ocurre la primera vez — después el modelo está en caché local.

Primera respuesta: 10–30 segundos para cargar el modelo en VRAM. Las respuestas siguientes son inmediatas — el modelo ya está cargado.

Paso 3: Uso avanzado — API REST y contexto extendido

Ollama levanta automáticamente una API REST en localhost:11434. Compatible con el formato de OpenAI — puedes integrarlo en cualquier app sin cambiar código. Mistral 7B soporta hasta 32K tokens de contexto:

# Contexto extendido a 8K tokens (~+1 GB VRAM adicional)
ollama run mistral:7b --num_ctx 8192

# Para documentos largos — Mistral soporta hasta 32K tokens
ollama run mistral:7b --num_ctx 32768

# La API REST está en localhost:11434
# Compatible con el formato de OpenAI para integraciones

HuggingFace: Si prefieres descargar el modelo manualmente, está disponible en mistralai/Mistral-7B-Instruct-v0.3. Pero para uso con Ollama, el comando de arriba es suficiente — no necesitas HuggingFace.

4. Benchmarks — velocidad en tu GPU

Los tokens/seg de abajo son benchmarks reales medidos con arquitectura transformer equivalente (llama_7b_q4). Mistral 7B usa la misma arquitectura base, por lo que los números son un proxy válido. Ver comparativa completa en /gpu/rtx-3060.

GPU VRAM tok/s (Q4) Banda
RTX 3060 12 GB 30 tok/s Entry value
RTX 4060 Ti 8 GB 35 tok/s Entry
RTX 4060 Ti 16GB 16 GB 35 tok/s Mid-range
RX 7800 XT 16 GB 48 tok/s Mid-range
RTX 3080 10 GB 45 tok/s Upper mid-range
RTX 5070 12 GB 58 tok/s Mid-high
RTX 4070 Ti Super 16 GB 60 tok/s High-end
RX 7900 XT 20 GB 65 tok/s High-end
RTX 5080 16 GB 88 tok/s Premium
RTX 4080 Super 16 GB 72 tok/s Premium
RTX 4090 24 GB 95 tok/s $1.599

Apple Silicon (memoria unificada)

Chip Memoria unificada tok/s (Q4)
M1 Pro 16 GB 22 tok/s
M2 Pro 16 GB 28 tok/s
M3 Pro 18 GB 32 tok/s
M4 Pro 24 GB 45 tok/s
M4 Max 36GB 36 GB 62 tok/s
M4 Ultra 128 GB 110 tok/s

Nota sobre Apple Silicon: La memoria unificada actúa como VRAM para los modelos. Un M1 Pro con 16 GB (22 tok/s) es más lento que una RTX 3060 (30 tok/s) para Mistral 7B, pero no necesitas GPU discreta. Para Mistral 7B Q4 cualquier Mac con 16+ GB de RAM unificada es suficiente.

5. ¿Es suficiente con 8 GB VRAM?

Sí, y con margen. Esta es la situación real por quantización en una GPU de 8 GB:

Q4 — La elección obvia

Recomendado

Mistral 7B Q4 necesita 4.5 GB. En una GPU de 8 GB tienes 3.5 GB de margen libre para el KV cache del contexto. Puedes usar ventanas de 8K–16K tokens sin problemas. La RTX 4060 Ti (8 GB) genera ~35 tok/s — conversación completamente fluida.

Q8 — Con margen mínimo

Posible

Q8 necesita 7 GB. En 8 GB de VRAM solo te quedan 1 GB para el contexto — funciona, pero el contexto efectivo es muy limitado. Para contextos largos, usa Q4.

FP16 — No, necesitas 16 GB

No compatible

FP16 necesita 14 GB de VRAM. La RTX 4060 Ti estándar (8 GB) no puede. Para FP16 necesitas la versión 16 GB o una GPU con 16+ GB. No lo necesitas para uso normal — Q4 tiene el 94% de la calidad de FP16.

Veredicto: 8 GB es suficiente para Mistral 7B Q4 con margen. Q4 tiene calidad 94% y el 94% de Mistral 7B es mejor que muchos modelos completos más grandes. Si tu GPU tiene 8 GB, Mistral 7B en Q4 es tu punto de entrada ideal.

6. Casos de uso de Mistral 7B

Chat personal privado

Todo corre en tu máquina. Ningún dato sale a la nube. Puedes hacer preguntas sobre documentos confidenciales, discutir proyectos sensibles o simplemente tener un asistente sin que nadie entrene con tus conversaciones.

Coding assistant

Mistral 7B Instruct v0.3 tiene función de reasoning activada para código. Maneja bien Python, JavaScript, SQL y bash. No es Sonnet 4.5, pero para snippets, refactoring y debugging es completamente usable y gratuito.

Procesamiento de documentos

Con 32K tokens de contexto (la ventana completa), puedes pasarle contratos, artículos o código entero para análisis. Ideal para documentos que no quieres subir a servicios de terceros.

Prototipado sin costes de API

La API REST de Ollama es compatible con el formato de OpenAI. Puedes prototipar aplicaciones que usen LLMs sin pagar por token. Cuando necesites escalar, migras a una API en la nube cambiando el endpoint.

Dónde se queda corto: Razonamiento matemático complejo, tareas multi-paso que requieren 70B+ parámetros, o instrucciones de rol muy elaboradas. Para eso, considera modelos más grandes si tu VRAM lo permite.

7. Alternativas a considerar

Phi-4 (14B, 8.4 GB Q4)

Más potente, más VRAM

Más nuevo que Mistral 7B, mejor rendimiento en coding y razonamiento. Necesitas 8.4 GB Q4 (el doble de Mistral 7B). Buena opción si tienes 12+ GB de VRAM y quieres un salto de calidad notable.

Mistral 7B Q2 — Si tienes 8 GB justos

Calidad reducida

Si tienes exactamente 6 GB de VRAM, Q2 (2.5 GB) cabe pero la calidad baja a 78%. El modelo puede alucinar más. Mejor opción: busca una GPU con 8+ GB. Usa la calculadora de VRAM para ver tu caso exacto.

Llama 3.1 70B (Q4 — 42 GB)

Mucho más potente

Si la calidad de Mistral 7B no es suficiente para tu caso de uso, Llama 3.1 70B es el siguiente escalón real. Necesitas 42 GB de VRAM en Q4 — solo viable en RTX 4090 + RAM grande con offloading, o Apple M4 Max con 48 GB.

GPUs recomendadas para Mistral 7B

Mistral 7B es ligero — cabe en cualquier GPU con 8+ GB de VRAM. Si quieres margen para contextos largos o modelos más grandes, 12-16 GB es ideal.

RTX 3060 12GB

Mistral 7B Q4 con margen de sobra · ~32 tok/s

Ver precio en Amazon

RTX 4060 Ti 16GB

Mistral 7B + contextos largos + modelos 14B

Ver precio en Amazon

Hardware recomendado

GPUs verificadas para correr modelos en local — actualizado en 2026.

RTX 3060 12GB — Ideal para Mistral 7B

€269

budget Amazon Prime

RTX 3060 12GB — Ideal para Mistral 7B

4.8 (1,400 reviews)

Pros

  • 12 GB VRAM — Mistral 7B a 30+ tok/s
  • GPU ideal para iniciarse en IA local
  • CUDA completo

Cons

  • No apta para modelos 30B+
Ver en Amazon
RTX 4060 8GB — Compacta y eficiente

€299

budget Amazon Prime

RTX 4060 8GB — Compacta y eficiente

4.6 (1,100 reviews)

Pros

  • Mistral 7B Q4 sin problema
  • Solo 115W de consumo
  • Perfecta para equipos pequeños

Cons

  • 8 GB limita modelos grandes
Ver en Amazon
Product image

€249

budget Amazon Prime

Intel Arc B580 12GB — Alternativa económica

4.2 (180 reviews)

Pros

  • 12 GB VRAM a precio de gama baja
  • Mistral 7B corre bien
  • Bajo consumo energético

Cons

  • Sin soporte CUDA nativo
  • Ecosystem menos maduro
Ver en Amazon
RTX 4070 12GB — Para escalar a 13B+

€449

mid Amazon Prime

RTX 4070 12GB — Para escalar a 13B+

4.7 (890 reviews)

Pros

  • 12 GB GDDR6X — 7B y 13B Q4 fluidos
  • Gran salto de velocidad frente a 3060
  • Eficiencia energética excelente

Cons

  • Precio más elevado que RTX 3060
Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

8. Conclusión

Mistral 7B es el punto de entrada ideal a la IA local. Con una GPU gaming moderna de 8 GB o más tienes un asistente privado, potente y completamente gratuito — sin suscripciones, sin datos a la nube, sin límites de uso. Apache 2.0 significa que puedes usarlo incluso en proyectos comerciales. Un comando y en 15 minutos tienes IA local funcionando en tu máquina.

¿Tu GPU puede con Mistral 7B?

Comprueba si Mistral 7B cabe en tu GPU exacta, cuántos tokens/seg obtendrás y si necesitas offloading — en segundos.

Calcular mi GPU ahora →

Fuentes

RTX 4060 — GPU recomendada

Ver mejor precio