Skip to main content
Guía técnica 18 min de lectura ·

Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.

Divulgación: Este artículo contiene enlaces de afiliado de Amazon. Si compras a través de ellos, recibimos una pequeña comisión sin coste adicional para ti.
Alex Chen AI Hardware Specialist
GitHub: github.com/javier-morales-ia

Modelos de IA que puedes correr con 8 GB de VRAM en 2026

8 GB de VRAM no son los nuevos 4 GB. En 2026, con las quantizaciones actuales y modelos cada vez más eficientes, 8 GB te dan acceso a una cantidad sorprendente de modelos: LLMs de hasta 8B parámetros fluidos, generación de imágenes con Stable Diffusion, y transcripción de audio con Whisper. Aquí está todo lo que cabe — y lo que no cabe — con datos reales.

¿Quieres verificar un modelo concreto? Usa la Calculadora VRAM para saber exactamente cuánta memoria necesita cualquier modelo en cualquier quantización.

TL;DR: • Con 8 GB de VRAM (RTX 4060, RTX 3060 Ti) puedes correr modelos hasta 8B parámetros en Q4 a ~35 tok/s • Llama 3.1 8B, Mistral 7B y Stable Diffusion SDXL caben holgadamente en 8 GB • No caben modelos de 13B+ ni Flux.1 — para eso necesitas 12 GB o más

1. ¿Qué puedes hacer con 8 GB de VRAM?

Voy a ser directo: si tienes una GPU con 8 GB de VRAM, no estás limitado. Estás limitado comparado con alguien que tiene 24 GB, claro, pero puedes hacer cosas que hace dos años habrían requerido un servidor en la nube.

Con 8 GB de VRAM en 2026 puedes:

Chatear con LLMs de 7B-8B

Llama 3.1 8B, Mistral 7B, Qwen2.5 7B, DeepSeek R1 Distill 8B — todos corren fluidos a 30-35 tok/s en Q4. Es conversación en tiempo real, sin lag perceptible.

Programar con asistente de código

Qwen2.5-Coder 7B en Q4 ocupa 4.2 GB. Te queda margen de sobra para un IDE abierto. Autocompletado, refactoring, explicación de código — todo local y privado.

Generar imágenes con Stable Diffusion

SD 3 Medium (3 GB), SD 3.5 Medium (5 GB) y SDXL (6 GB) caben perfectamente. Puedes generar imágenes de 512x512 a 1024x1024 sin problemas.

Transcribir audio con Whisper

Whisper Large V3, el modelo más potente de transcripción, ocupa solo 1.5 GB. Puedes transcribir podcasts completos, reuniones de trabajo o vídeos en cualquier idioma.

La clave está en la quantización Q4. Cuando comprimes los pesos de un modelo de 16 bits (FP16) a 4 bits, reduces el consumo de VRAM unas 4 veces. Un modelo que en FP16 ocuparía 16 GB pasa a ocupar ~4-5 GB en Q4. La pérdida de calidad es del 5-7% según benchmarks — para uso general, imperceptible.

Si no tienes claro qué es la quantización o qué variante usar, tenemos una guía completa de VRAM y quantización que lo explica con tablas y ejemplos.

Dato clave: El 80% de los usuarios de IA local usan modelos de 7B-8B parámetros como su modelo principal. Con 8 GB de VRAM, estás en el rango más popular. No es lo ideal — 12 GB te da más margen — pero tampoco es un problema.

2. Tabla maestra: todos los modelos que caben en 8 GB

Esta es la tabla de referencia. Todos los modelos populares de 2026 que caben (o no) en 8 GB de VRAM, con quantización Q4 que es el estándar para uso local. Los datos de velocidad son aproximados y varían según la GPU concreta, pero dan una referencia sólida.

LLMs (chat y código)

Modelo Parámetros VRAM Q4 Velocidad ¿Cabe?
Llama 3.2 1B 1B 0.6 GB ~120 tok/s Sobra
Llama 3.2 3B 3B 1.8 GB ~80 tok/s Sobra
Phi-3 Mini 3.8B 2.5 GB ~70 tok/s Sobra
Gemma 3 4B 4B 2.4 GB ~70 tok/s Sobra
Qwen2.5-Coder 7B 7B 4.2 GB ~35 tok/s Cabe bien
Mistral 7B 7B 4.5 GB ~35 tok/s Cabe bien
Qwen2.5 7B 7B 4.5 GB ~35 tok/s Cabe bien
DeepSeek R1 Distill 8B 8B 4.8 GB ~30 tok/s Cabe bien
Llama 3.1 8B 8B 5 GB ~35 tok/s Cabe bien
Gemma 2 9B 9B 5.5 GB ~30 tok/s Cabe justo
Phi-4 14B 14B 8.4 GB ~15 tok/s* No cabe*

* Phi-4 14B en Q4 ocupa 8.4 GB. Con 8 GB de VRAM no cabe completo — necesita offloading parcial a RAM, lo que baja la velocidad a ~15 tok/s. Técnicamente funciona, pero la experiencia no es fluida. Si te interesa Phi-4, tenemos una guía dedicada a correr Phi-4 en local.

Generación de imágenes

Modelo VRAM Q4 ¿Cabe en 8 GB? Notas
SD 3 Medium Q4 ~3 GB Sobra La opción más ligera con buena calidad
SD 3.5 Medium Q4 ~5 GB Cabe bien Mejor calidad, sigue siendo cómodo
SDXL Q4 ~6 GB Cabe justo Funciona, pero con poco margen
SD 3.5 Large ~10 GB No cabe Necesitas 12 GB mínimo
Flux.1 ~12 GB No cabe Necesitas 16 GB mínimo

Audio (transcripción y TTS)

Modelo VRAM ¿Cabe en 8 GB? Notas
Whisper Tiny ~0.2 GB Sobra Rápido pero menos preciso
Whisper Base ~0.3 GB Sobra Buen balance para transcripciones rápidas
Whisper Small ~0.5 GB Sobra Buena precisión en español
Whisper Medium ~0.8 GB Sobra Muy buena precisión multiidioma
Whisper Large V3 ~1.5 GB Sobra El mejor modelo de transcripción, cabe de sobra

Explora todos estos modelos con datos actualizados en nuestro buscador de modelos.

3. Los mejores modelos por caso de uso

No todos los modelos son iguales aunque tengan parámetros similares. Aquí va mi recomendación para cada caso de uso concreto, priorizando la combinación de calidad + eficiencia en 8 GB.

Chat general y asistente personal

RECOMENDADO Llama 3.1 8B Q4 — 5 GB, ~35 tok/s

El sweet spot indiscutible para 8 GB de VRAM. Llama 3.1 8B en Q4 ocupa 5 GB, te deja 3 GB de margen para el contexto y el sistema, y genera respuestas a 35 tokens por segundo — más rápido de lo que lees. Calidad de respuesta excelente para conversación, razonamiento y tareas generales. Si solo puedes instalar un modelo, que sea este.

Alternativa: Mistral 7B Q4 (4.5 GB, ~35 tok/s). Rendimiento similar, a veces mejor en tareas de razonamiento europeo. Qwen2.5 7B es otra opción sólida si necesitas buen soporte multiidioma.

Para respuestas ultra-rápidas: Llama 3.2 3B Q4 (1.8 GB, ~80 tok/s) o Gemma 3 4B Q4 (2.4 GB, ~70 tok/s). Menos inteligentes, pero perfectos para tareas simples donde la velocidad importa más que la profundidad.

Programación y asistente de código

RECOMENDADO Qwen2.5-Coder 7B Q4 — 4.2 GB, ~35 tok/s

Si programas, este es tu modelo. Qwen2.5-Coder 7B está entrenado específicamente para código y rinde a nivel de modelos mucho más grandes en tareas de programación. En Q4 ocupa solo 4.2 GB — te queda casi la mitad de la VRAM libre. Autocompletado, generación de funciones, debugging, explicación de código, tests unitarios... todo local y privado.

Alternativa: DeepSeek R1 Distill 8B Q4 (4.8 GB, ~30 tok/s). No es específico de código, pero su capacidad de razonamiento paso a paso es excelente para debugging complejo y arquitectura de software. Tenemos una guía de Qwen2.5 Coder en local si quieres profundizar.

Generación de imágenes

RECOMENDADO Stable Diffusion 3.5 Medium Q4 — ~5 GB

El mejor modelo de generación de imágenes que cabe cómodamente en 8 GB. SD 3.5 Medium ofrece una calidad significativamente superior a SD 3 Medium, y en Q4 ocupa ~5 GB — te queda margen suficiente. Si lo tuyo son las imágenes, también puedes usar SDXL (6 GB), aunque va más justo y SD 3.5 Medium ya lo supera en calidad en la mayoría de prompts.

Lo que no puedes hacer: Flux.1 (12 GB) y SD 3.5 Large (10 GB) quedan fuera. Si la generación de imágenes es tu prioridad principal, considera una GPU con más VRAM.

Transcripción de audio

RECOMENDADO Whisper Large V3 — ~1.5 GB

Aquí no hay debate. Whisper Large V3 es el mejor modelo de transcripción disponible y ocupa solo 1.5 GB de VRAM. No tienes que elegir un modelo inferior — el mejor modelo cabe de sobra. Soporte nativo para español y más de 90 idiomas. Transcribe audio a texto con una precisión impresionante, incluso con ruido de fondo o acentos marcados.

Bonus: Como Whisper ocupa tan poco, puedes tenerlo cargado junto con un LLM. Por ejemplo, Whisper Large V3 (1.5 GB) + Llama 3.1 8B Q4 (5 GB) = 6.5 GB. Cabe todo en 8 GB. Transcribes audio y luego le pides al LLM que resuma, traduzca o analice el texto — todo local.

4. Lo que NO cabe en 8 GB (seamos honestos)

No voy a endulzar la realidad. 8 GB tienen límites claros y es mejor que los conozcas antes de frustrarte intentando cargar un modelo que no va a caber. Estos son los muros que vas a encontrar:

Modelo VRAM necesaria ¿Por qué no cabe?
Cualquier modelo 13B+ en Q4 8-9+ GB Incluso en Q4, un 13B ocupa más de 8 GB. El modelo no cabe completo en VRAM.
Llama 3.1 8B Q8 ~8 GB 8 GB justos = sin margen para contexto ni OS. Imposible en la práctica.
Mixtral 8x7B ~26 GB Modelo MoE enorme. Necesitas 24-48 GB de VRAM.
Llama 3.3 70B Q4 ~42 GB Ni de lejos. Necesitas multi-GPU o Apple Silicon con 48+ GB.
Flux.1 (cualquier variante) ~12 GB El modelo de imagen más popular de 2026 no cabe en 8 GB.
SD 3.5 Large ~10 GB 2 GB más de lo que tienes. Usa SD 3.5 Medium en su lugar.

La limitación real de 8 GB: No es que no puedas usar IA — puedes, y muy bien. La limitación es que estás atascado en el rango de 7B-8B parámetros para LLMs. Eso significa que no puedes dar el salto a 13B, que es donde la calidad de razonamiento sube notablemente. Tampoco puedes usar Flux.1 para imágenes, que es el estándar actual de calidad. Si esas limitaciones te importan, 12 GB es el siguiente escalón.

Un apunte sobre el offloading: sí, Ollama y llama.cpp pueden dividir el modelo entre VRAM y RAM del sistema. Puedes cargar un modelo de 10 GB con 8 GB de VRAM poniendo 2 GB en RAM. Pero la velocidad cae en picado — de 35 tok/s a 8-15 tok/s. Para uso puntual vale, para trabajo diario es frustrante. Si quieres entender cómo funciona el offloading, lee nuestra guía de VRAM.

5. Trucos para exprimir más de 8 GB

Cuando cada megabyte cuenta, hay técnicas concretas para sacar el máximo de tus 8 GB. No son hacks oscuros — son configuraciones que la mayoría de usuarios no conoce pero que marcan diferencia real.

Usa Q4_K_M en vez de Q4_0

No todas las quantizaciones Q4 son iguales. Q4_K_M (K-quant Medium) mantiene los pesos más importantes en mayor precisión, con un overhead de VRAM mínimo (~5-10% más que Q4_0). El resultado: mejor calidad de respuesta sin coste significativo de memoria. En Ollama es la variante por defecto para la mayoría de modelos. En llama.cpp, búscala específicamente.

Ejemplo: Llama 3.1 8B Q4_0 = ~4.7 GB | Q4_K_M = ~5.0 GB | Diferencia: 300 MB, calidad notablemente mejor.

Reduce la ventana de contexto

Cada token de contexto consume VRAM adicional para la cache KV. Con 8 GB no puedes permitirte contextos de 8192 tokens en modelos grandes. Reduce a 2048-4096 tokens para liberar entre 500 MB y 1 GB de VRAM.

ollama run llama3.1 --ctx-size 4096

En la mayoría de conversaciones no necesitas más de 4096 tokens de contexto. Si escribes un ensayo largo, sí — para chatear, no.

Cierra Chrome (en serio)

Chrome y los navegadores basados en Chromium usan aceleración por GPU por defecto. Eso significa que consumen VRAM — a veces 300-800 MB dependiendo de cuántas pestañas tengas abiertas. Con 8 GB, eso es la diferencia entre que un modelo quepa o no.

Opción B: Si no quieres cerrar el navegador, desactiva la aceleración por hardware en la configuración de Chrome. Irás un poco más lento navegando, pero liberas VRAM para la IA.

Linux: desactiva el compositor gráfico

En Linux, el compositor del escritorio (Mutter en GNOME, KWin en KDE) reserva VRAM para efectos visuales y composición de ventanas. Desactivarlo o usar un entorno ligero (i3, Sway) libera entre 200-500 MB de VRAM. En Windows, el Desktop Window Manager hace lo mismo pero no se puede desactivar fácilmente.

Truco pro: corre la inferencia desde un TTY (Ctrl+Alt+F2) sin entorno gráfico y tendrás los 8 GB casi íntegros para el modelo.

No cargues dos modelos a la vez

Ollama mantiene el modelo en VRAM después de usarlo (por defecto 5 minutos). Si cambias de modelo, el anterior sigue en memoria hasta que expira. Con 8 GB no puedes permitir dos modelos simultáneos (excepto los muy pequeños). Usa ollama stop <modelo> antes de cargar otro, o configura OLLAMA_KEEP_ALIVE=0 para que libere VRAM inmediatamente después de cada petición.

Si quieres configurar Ollama paso a paso, tenemos una comparativa entre Ollama y LM Studio que cubre la instalación y configuración de ambas herramientas.

6. ¿Merece la pena saltar a 12 GB?

La respuesta honesta depende de tu situación.

Si YA tienes una GPU de 8 GB

No entres en pánico. Puedes correr el 80% de los modelos más usados sin problemas. Llama 3.1 8B, Mistral 7B, Stable Diffusion, Whisper — todo funciona. El salto a 12 GB es un "nice to have", no una necesidad urgente. Gasta ese dinero en otra cosa y exprime tu GPU actual con los trucos de la sección anterior.

La excepción: si intentas correr modelos 13B+ o Flux.1 a diario y el offloading te frustra, entonces sí vale la pena el upgrade.

Si estás comprando GPU nueva

Busca 12 GB. La diferencia de mercado entre una GPU de 8 GB y la RTX 3060 12 GB suele ser contenida (a veces la 3060 es incluso más barata de segunda mano), pero la diferencia en capacidad es enorme: pasas de "hasta 8B" a "hasta 13B cómodo", y te queda margen para contextos largos y modelos futuros que serán más pesados.

La RTX 3060 12 GB suele aparecer en banda de entrada alta en segunda mano. Es la opción de entrada más inteligente para IA local.

Comparativa directa: 8 GB vs 12 GB

Característica 8 GB VRAM 12 GB VRAM
LLMs máximo Hasta 8B Q4 Hasta 13B Q4
Llama 3.1 8B Q4 Cabe con ~3 GB de margen Cabe con ~7 GB de margen
Llama 3.1 8B Q8 No cabe (sin margen) Cabe con 4 GB de margen
Modelos 13B Q4 No caben Caben con margen
Contexto largo (8K+) Muy justo con 7B Cómodo con 8B
Flux.1 (imágenes) No cabe Justo con offload
GPU más popular RTX 4060 (entrada) RTX 3060 (entrada alta usada)

Dato curioso: La RTX 3060 12 GB es a menudo más barata que la RTX 4060 8 GB, especialmente de segunda mano. Sí, leíste bien: más VRAM por menos dinero. La 4060 es más eficiente en consumo (115W vs 170W) y ligeramente más rápida en tok/s, pero para IA la VRAM es el factor dominante. Lee nuestra guía dedicada a la RTX 3060 para IA.

7. Preguntas frecuentes

¿Puedo correr Llama 3.1 8B con 8 GB de VRAM?

Sí, y es la mejor opción para 8 GB. Llama 3.1 8B en Q4 ocupa ~5 GB, dejándote ~3 GB para contexto y sistema. Genera unos 35 tok/s en GPUs tipo RTX 4060 o RTX 3060 Ti. Es fluido, capaz y tiene excelente calidad de respuesta. Si quieres el paso a paso, mira la ficha del modelo Llama 3.1 8B.

¿Qué modelos NO puedo correr con 8 GB?

Cualquier modelo de 13B+ parámetros en Q4, Llama 3.1 8B en Q8 (ocupa 8 GB justos, sin margen), Mixtral 8x7B (26 GB), Flux.1 para imágenes (12 GB) y SD 3.5 Large (10 GB). El límite práctico son modelos de hasta 8B-9B parámetros en quantización Q4. Para 13B necesitas al menos 10-12 GB.

¿Puedo generar imágenes con Stable Diffusion en 8 GB?

Sí. SD 3 Medium Q4 (~3 GB), SD 3.5 Medium Q4 (~5 GB) y SDXL Q4 (~6 GB) caben perfectamente. Lo que no cabe es Flux.1 (~12 GB) ni SD 3.5 Large (~10 GB). Para generación de imágenes estándar, 8 GB son suficientes. Para la calidad punta de Flux.1, necesitas al menos 12-16 GB.

¿Merece la pena el offloading a RAM con 8 GB de VRAM?

Depende de tu paciencia. El offloading divide el modelo entre VRAM y RAM del sistema. Funciona, pero la velocidad cae drásticamente: de ~35 tok/s a ~8-15 tok/s con un modelo que no cabe del todo. Para uso puntual (una consulta rápida a un modelo 13B) puede valer. Para trabajo diario es frustrante. Mi recomendación: quédate con modelos que caben enteros en tus 8 GB y disfruta de la velocidad completa.

¿Cómo sé exactamente cuánta VRAM libre tengo?

En NVIDIA: nvidia-smi en terminal te muestra la VRAM usada y libre en tiempo real. En AMD: rocm-smi o radeontop. En Windows también puedes ver la VRAM en uso desde el Administrador de Tareas, pestaña Rendimiento, GPU. Recuerda que el sistema operativo, el escritorio y el navegador consumen VRAM antes de que cargues ningún modelo — normalmente entre 300 MB y 1 GB, a veces más.

8. GPUs con 8 GB de VRAM: opciones y precios

Si ya tienes una de estas GPUs, ya sabes lo que puedes hacer. Si estás pensando en comprar, aquí va el panorama de lo que hay disponible con 8 GB de VRAM en marzo de 2026. Precios orientativos del mercado europeo.

GPU VRAM Banda TDP Notas para IA
RTX 4060 8 GB GDDR6X Entrada 115W Eficiente, silenciosa, buen soporte CUDA. La más nueva del lote.
RTX 3070 8 GB GDDR6 Entrada 220W Más bandwidth que la 4060 (448 GB/s). Más rápida en tok/s pero más caliente.
RTX 3070 Ti 8 GB GDDR6X Entrada alta 290W Ligeramente más rápida que la 3070 pero consume mucho más. No suele valer la pena.
RTX 3060 Ti 8 GB GDDR6 Entrada usada 200W Buen precio/rendimiento de segunda mano. 200W es razonable.
RX 7600 8 GB GDDR6 Entrada 165W AMD: funciona con ROCm en Linux. Soporte mejorado en 2026, pero CUDA sigue siendo más estable.
Arc A750 8 GB GDDR6 Entrada usada 225W Intel: la más barata, pero el soporte para IA local es limitado. Solo para experimentar.

Mi recomendación sincera: Si vas a comprar una GPU específicamente para IA local, no compres 8 GB. Por el mismo precio (o menos) puedes conseguir una RTX 3060 12 GB de segunda mano en banda razonable. Esos 4 GB extra te abren la puerta a modelos 13B y te dan margen real. Si ya tienes una 8 GB, úsala sin remordimiento — es capaz. Pero si compras hoy, compra inteligente.

Compara las especificaciones de cualquier GPU para IA en nuestro comparador de GPUs.

9. Conclusión

8 GB de VRAM en 2026 no es el escenario ideal para IA local, pero tampoco es un drama. Es un punto de entrada perfectamente funcional que te permite correr la mayoría de modelos de 7B-8B parámetros sin compromiso de velocidad, generar imágenes con Stable Diffusion y transcribir audio con Whisper Large — todo en tu propia máquina, sin depender de la nube.

Las limitaciones son claras y las has visto en esta guía: nada de modelos 13B+, nada de Flux.1, y poco margen para contextos muy largos. Pero eso no invalida lo que sí puedes hacer, que es mucho.

Si tienes 8 GB: exprime tu hardware con los trucos que hemos visto, usa Q4_K_M, controla tu VRAM y disfruta de la IA local. Si vas a comprar: 12 GB (RTX 3060) en banda usada razonable es la jugada inteligente. Pero no dejes que la VRAM te paralice — empieza con lo que tienes y ya verás lo lejos que llegas.

¿No sabes si tu modelo favorito cabe en tu GPU?

Usa nuestra calculadora de VRAM para verificar exactamente cuánta memoria necesita cada modelo en cada quantización. Sin adivinar — datos reales.

Productos recomendados

Selección verificada con ASINs reales — actualizada en 2026.

NVIDIA GeForce RTX 4060 8GB

€299

budget Amazon Prime

NVIDIA GeForce RTX 4060 8GB

4.6 (1,100 reviews)

Pros

  • Ada Lovelace — eficiencia excepcional
  • 8 GB VRAM — perfecto para modelos 7B-8B
  • Silencioso y bajo consumo

Cons

  • 8 GB limita modelos 13B+
Ver en Amazon
NVIDIA GeForce RTX 3060 12GB

€269

budget Amazon Prime

NVIDIA GeForce RTX 3060 12GB

4.8 (1,400 reviews)

Pros

  • 12 GB VRAM — salta la barrera 8 GB
  • Llama 8B a ~30 tok/s
  • Precio de entrada <300€

Cons

  • Amplio bus pero arquitectura Ampere
Ver en Amazon
NVIDIA GeForce RTX 3060 Ti 8GB

€269

mid Amazon Prime

NVIDIA GeForce RTX 3060 Ti 8GB

4.6 (420 reviews)

Pros

  • Rápida para modelos 7B-8B Q4
  • Mayor bandwidth que RTX 4060 8GB
  • Buena relación precio/rendimiento

Cons

  • 8 GB iguales — mismo límite de modelos
Ver en Amazon
Product image

€249

budget Amazon Prime

Intel Arc B580 12GB

4.2 (180 reviews)

Pros

  • 12 GB VRAM a precio de 8 GB NVIDIA
  • Alternativa interesante en Linux
  • Buena para imagen generativa

Cons

  • Soporte de drivers menos maduro
  • Fricción con algunos frameworks
Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

Fuentes

RTX 4060 — GPU recomendada

Ver mejor precio