Skip to main content
Guía técnica 12 min de lectura ·

Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.

Divulgación: Este artículo contiene enlaces de afiliado de Amazon. Si compras a través de ellos, recibimos una pequeña comisión sin coste adicional para ti.
Alex Chen AI Hardware Specialist
GitHub: github.com/javier-morales-ia

RTX 3060 para inteligencia artificial: qué modelos puedes correr en 2026

Con 12 GB de VRAM, la RTX 3060 es la GPU de consumidor más popular para IA local. En segunda mano suele entrar en una banda muy competitiva y ofrece una de las mejores relaciones VRAM/mercado para quien no quiere dar el salto a una GPU más cara. Aquí están los números reales.

RTX 3060 12GB para IA local: 30 tok/s con Llama 3 8B Q4, 360 GB/s bandwidth, compatible con modelos hasta 13B Q4. Especificaciones y compatibilidad de modelos.
RTX 3060 12 GB · Benchmark: Llama 3 8B Q4 · llama.cpp 0.2.x · CUDA 12 · Datos marzo 2026

¿No sabes qué cabe en tu GPU? Usa nuestra calculadora de VRAM — te dice exactamente qué modelos puedes correr, a qué velocidad y si necesitas offloading.

TL;DR: • La RTX 3060 ofrece 12 GB de VRAM por ~200–280 € de segunda mano • Genera ~30 tok/s con Llama 8B Q4 y soporta modelos hasta 13B parámetros • La mejor relación VRAM/precio del mercado de entrada para IA doméstica

1. Specs de la RTX 3060 para IA

Antes de hablar de modelos, los números que importan para inferencia. No los specs de gaming — los specs que determinan a qué velocidad genera tokens tu LLM. Ver también: landing técnica de la RTX 3060.

Spec Valor Por qué importa para IA
VRAM 12 GB GDDR6 El factor limitante: qué tamaño de modelo cabe
Memory bandwidth 360 GB/s Determina tokens/seg — más bandwidth = más rápido
FP16 / Tensor TFLOPS 12.7 TFLOPS Capacidad de cómputo para inferencia
CUDA / Tensor Cores 3584 / 112 Tensor cores aceleran operaciones de matrices en LLMs
TDP 170W Consumo bajo vs GPUs más rápidas (4090: 450W)
Llama 3.1 8B Q4 ~30 tok/s Benchmark real, Ollama, Ubuntu 22.04
Stable Diffusion 512px ~7.0 seg/imagen Usable para imagen, no es la GPU de imagen ideal
Precio actual Entrada alta usada Mejor VRAM/mercado en su segmento

Por qué el bandwidth importa más que los TFLOPS para inferencia: Un LLM genera tokens leyendo todos los pesos del modelo en cada paso. Con Llama 8B Q4 (~5 GB), el modelo lee 5 GB por token generado. Con 360 GB/s de bandwidth, la RTX 3060 puede leer esos 5 GB en ~14ms — lo que se traduce en ~30 tok/s. El RTX 4090 (1.008 GB/s) hace el mismo ciclo en ~5ms: ~95 tok/s. Los TFLOPS son menos relevantes aquí; el bandwidth es el cuello de botella.

2. Qué modelos puedes correr con la RTX 3060 (tabla completa)

Regla de cálculo: VRAM usada = tamaño_modelo_GB × factor_quantización + overhead_sistema. Con 12 GB disponibles, el límite práctico son modelos que necesiten hasta ~10-11 GB (el sistema operativo y el driver NVIDIA consumen ~1-2 GB adicionales). ¿No estás seguro de qué cabe? La calculadora de VRAM hace el cálculo exacto por modelo y quantización.

Modelo Params Cuantización VRAM usada Velocidad Resultado
Llama 3.1 8B 8B Q4 ~5 GB ~30 tok/s ✅ SÍ — con margen
Mistral 7B 7B Q4 ~4.5 GB ~32 tok/s ✅ SÍ — rápido
DeepSeek-R1 7B 7B Q4 ~5 GB ~28 tok/s ✅ SÍ
Llama 3.1 8B 8B Q8 ~9 GB ~22 tok/s ✅ SÍ — ajustado
Llama 3.1 13B 13B Q4 ~8.5 GB ~18 tok/s ✅ SÍ — ajustado
Llama 3.1 13B 13B Q8 ~14 GB ❌ NO — supera 12 GB
Mixtral 8x7B 47B eff. Q4 ~26 GB ❌ NO — necesita 24+ GB
Llama 3.1 70B 70B Q4 ~42 GB ❌ NO — necesita A100 o multi-GPU

Lo que SÍ funciona bien

  • Todos los modelos 7B-8B en Q4 o Q8
  • Modelos 13B en Q4 (ajustado pero funciona)
  • Generación de imágenes 512px con SD
  • Coding assistants (Codellama 7B, Qwen2.5-Coder 7B)

Lo que NO funciona

  • Modelos 70B (necesitan 42 GB en Q4)
  • Modelos 13B en Q8 (supera 12 GB)
  • Mixtral 8x7B (26 GB en Q4)
  • Generación de video (VRAM insuficiente)

Nota sobre "ajustado": Llama 3.1 8B en Q8 (~9 GB) y 13B en Q4 (~8.5 GB) caben, pero con poco margen para el contexto. Si usas ventanas de contexto largas (más de 4096 tokens), el overhead puede superar los 12 GB. Para uso conversacional normal funciona bien. Para contextos de 8K+, mejor quedarse en Q4 con los modelos 7B.

3. Ollama + RTX 3060: setup en 10 minutos

Ollama es la forma más rápida de empezar. Un comando instala todo — los drivers CUDA se detectan automáticamente si tienes los drivers NVIDIA actualizados. Si prefieres interfaz gráfica, también hablo de LM Studio al final de esta sección. Para una comparativa detallada, ver el artículo Ollama vs LM Studio.

Paso 1: Instalar Ollama

bash
curl -fsSL https://ollama.com/install.sh | sh

Paso 2: Verificar que detecta la GPU

bash
nvidia-smi

Si ves tu RTX 3060 en la salida con ~12 GB de memoria, estás listo. Si no aparece, comprueba que tienes los drivers NVIDIA instalados (nvidia-driver-535 o superior).

Paso 3: Descargar y correr un modelo

bash
ollama pull llama3.1:8b
ollama run llama3.1:8b

La descarga es ~4.7 GB. La primera carga tarda ~5-10 segundos mientras los pesos se copian a VRAM. A partir de ahí, respuestas a ~30 tok/s.

Configuración para 12 GB de VRAM

Por defecto Ollama detecta tu VRAM y ajusta automáticamente las capas en GPU. Para modelos que están cerca del límite de 12 GB, puedes ajustar el número de capas con la variable OLLAMA_GPU_LAYERS. El número óptimo depende del modelo y de tu configuración de sistema — empieza sin la variable y Ollama lo gestiona solo.

bash — verificar que el modelo está en GPU
ollama ps

¿Prefieres interfaz gráfica?

LM Studio ofrece una UI visual con historial de chats, gestión de modelos y comparativa side-by-side. Funciona bien con la RTX 3060 en Windows y Linux. El rendimiento es equivalente a Ollama — ambos usan llama.cpp por debajo. Diferencia real: Ollama es mejor para headless/API, LM Studio para uso personal con interfaz.

4. Cómo optimizar el rendimiento de la RTX 3060 para IA

Q4 vs Q8: el trade-off que importa

La elección de quantización afecta tres cosas: VRAM, velocidad y calidad. Para la RTX 3060 con 12 GB, el impacto es especialmente relevante porque estás cerca del límite. El artículo ¿Cuánta VRAM necesito para IA? explica las quantizaciones en detalle — aquí los números para la RTX 3060 específicamente:

Q4 — El estándar para 12 GB Recomendado
Llama 8B~5 GB · 30 tok/s
Pérdida calidad~5-7%
Modelos 13BCaben (~8.5 GB)
Q8 — Más calidad, menos margen Solo si tienes margen de VRAM
Llama 8B~9 GB · 22 tok/s
Pérdida calidad~1-2%
Modelos 13BNO caben (14 GB)

Veredicto para 12 GB: Q4 es la elección correcta. La pérdida de calidad del 5-7% es imperceptible en uso conversacional normal, y te permite correr modelos 13B que con Q8 quedarían fuera. Q8 solo tiene sentido si solo usas modelos 7B y quieres la máxima calidad posible.

Ajustes de sistema que hacen diferencia

  • 1.
    Cerrar Chrome y apps antes de modelos grandes. Chrome puede consumir 1-2 GB de VRAM con aceleración GPU activa. Con Llama 13B Q4 (~8.5 GB), ese overhead puede marcar la diferencia entre que cargue o haga offloading.
  • 2.
    Usar modelos Q4_K_M en vez de Q4. La variante Q4_K_M aplica quantización mixta — pesos críticos en mayor precisión. Mejor calidad que Q4 puro con la misma VRAM. Ollama la usa automáticamente si está disponible.
  • 3.
    Contexto razonable. Una ventana de contexto de 8K tokens consume más VRAM que una de 2K. Si no necesitas contextos largos, reducir a 2048 libera VRAM para el modelo.

5. ¿Vale la pena comprar una RTX 3060 para IA en 2026?

La respuesta honesta depende de tu presupuesto y qué modelos quieres correr. Aquí la comparativa real — sin omitir las trampas que hay en el mercado.

GPU VRAM Banda Para IA Veredicto
RTX 3060 12GB 12 GB Entrada alta usada 7B-13B en Q4, 8B en Q8 ✅ Sweet spot <300€
RTX 3060 Ti 8 GB Entrada usada Solo modelos 7B Q4 ❌ EVITAR — menos VRAM
RTX 4060 8 GB Entrada Solo modelos 7B Q4 ❌ EVITAR — mismo problema
RTX 3070 Ti 8 GB Entrada alta usada Solo modelos 7B Q4 ❌ TRAMPA — menos VRAM, más caro
RTX 4060 Ti 16GB 16 GB Gama media 7B-14B con soltura, SD más rápido ✅ Mejor opción si llegas

La trampa de las 8 GB que hay que saber

La RTX 3060 Ti, la RTX 4060 y la RTX 3070 Ti tienen todas 8 GB de VRAM, no 12 GB. El nombre "3060 Ti" suena a mejor GPU que "3060", y lo es para gaming — pero para IA es peor. Tiene menos VRAM que la 3060 base. El "Ti" significa más CUDA cores y más potencia de cómputo, no más memoria. Para inferencia de LLMs, la memoria es lo que importa. Comprar una 3060 Ti o una 4060 en banda de entrada cuando puedes tener una 3060 12GB por una banda similar es un error que mucha gente comete.

Conclusión directa: si tu presupuesto está en la banda de entrada, la RTX 3060 12GB es una de las elecciones más racionales para IA local. Cualquier otra GPU en ese rango suele quedarse en 8 GB de VRAM — y 8 GB son un límite real que notarás en seguida.

6. FAQ

¿Es la RTX 3060 buena para IA local?

Sí, especialmente por el precio. Con 12 GB de VRAM genera ~30 tokens/segundo con Llama 3.1 8B en Q4 y puede correr modelos de hasta 13B. No es la GPU más rápida, pero es la mejor relación precio/VRAM por menos de 300€. La competencia directa (RTX 4060, RTX 3060 Ti) tiene solo 8 GB y cuesta igual o más.

¿Qué modelos de IA puedo correr con 12 GB de VRAM?

Con 12 GB puedes correr cómodamente cualquier modelo 7B-8B en Q4 o Q8, y modelos 13B en Q4. Los más populares: Llama 3.1 8B (~30 tok/s), Mistral 7B (~32 tok/s), DeepSeek-R1 7B (~28 tok/s), y Llama 3.1 13B Q4 (~18 tok/s). Los modelos 70B necesitan 42+ GB — fuera de alcance con 12 GB. Usa la calculadora de VRAM para ver exactamente qué cabe con tu configuración.

¿Cuántos tokens por segundo saca la RTX 3060 con Llama 3?

Con Llama 3.1 8B en Q4, usando Ollama en Ubuntu 22.04: aproximadamente 30 tokens/segundo. Con Q8 del mismo modelo: ~22 tok/s (más calidad, más VRAM, más lento). Con Mistral 7B Q4: ~32 tok/s (modelo más pequeño, más rápido). Con Llama 3.1 13B Q4: ~18 tok/s. Estos son benchmarks con el modelo 100% en VRAM — sin offloading.

¿RTX 3060 o RTX 4060 para inteligencia artificial?

RTX 3060 12GB, sin duda. La RTX 4060 solo tiene 8 GB de VRAM — 4 GB menos. Para IA local, la VRAM es el factor limitante más importante: determina qué modelos caben y si necesitas offloading. Con 8 GB estás limitado a modelos 7B-8B. Con 12 GB llegas a los 13B. La única razón para elegir la RTX 4060 sobre la RTX 3060 sería si necesitas las mejoras arquitecturales Ada Lovelace para un caso de uso muy específico — pero para inferencia de LLMs, la VRAM gana.

Dónde comprar la RTX 3060 12GB

Si has decidido que la RTX 3060 12GB es tu GPU, aquí tienes enlaces directos para comparar precios. También incluimos la RTX 4060 Ti 16GB para quien pueda estirar el presupuesto.

RTX 3060 12GB

Sweet spot <300€ — 12 GB VRAM, ~30 tok/s con Llama 8B Q4

Ver precio en Amazon

RTX 4060 Ti 16GB

Mejor opción si llegas a ~400€ — 16 GB VRAM, modelos 14B con soltura

Ver precio en Amazon

7. Conclusión

1

La RTX 3060 12GB es el sweet spot para menos de 300€. No hay otra GPU en ese rango de precio con 12 GB de VRAM. Cualquier alternativa cercana tiene 8 GB y es un paso atrás para IA.

2

~30 tok/s con Llama 8B Q4 es perfectamente usable. Para conversación, coding, resúmenes y uso general, 30 tokens/segundo es más que suficiente. No es un RTX 4090, pero para el precio hace el trabajo.

3

Si puedes estirar el presupuesto a ~400€, la RTX 4060 Ti 16GB es mejor. 16 GB de VRAM te abre los modelos 14B con margen, y el salto de ~220€ a ~400€ puede valer si planeas correr modelos más grandes a largo plazo.

¿Qué modelos puedes correr exactamente con tu GPU?

La calculadora de VRAM toma tu GPU, el modelo que quieres correr y la quantización, y te dice si cabe, a qué velocidad y si necesitarás offloading.

Calcula exactamente qué modelos puedes correr con tu GPU →

Siguientes pasos recomendados

Productos recomendados

Selección verificada con ASINs reales — actualizada en 2026.

NVIDIA GeForce RTX 3060 12GB

€269

budget Amazon Prime

NVIDIA GeForce RTX 3060 12GB

4.8 (1,400 reviews)

Pros

  • 12 GB VRAM — el doble que RTX 4060
  • Llama 8B a ~30 tok/s
  • Precio de entrada <300€

Cons

  • Arquitectura Ampere vs Ada en nuevas
Ver en Amazon
NVIDIA GeForce RTX 3060 Ti 8GB

€269

mid Amazon Prime

NVIDIA GeForce RTX 3060 Ti 8GB

4.6 (420 reviews)

Pros

  • Mayor rendimiento rasterización
  • Buena segunda mano
  • Mismo ecosistema Ampere

Cons

  • 8 GB VRAM — mitad que RTX 3060 12GB
Ver en Amazon
NVIDIA GeForce RTX 4060 8GB

€299

budget Amazon Prime

NVIDIA GeForce RTX 4060 8GB

4.6 (1,100 reviews)

Pros

  • Ada Lovelace — eficiencia superior
  • Muy silenciosa y bajo consumo
  • Modelos 7B-8B en Q4 cómodo

Cons

  • 8 GB frente a 12 GB de la 3060
Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

Fuentes

RTX 3060 12GB

Ver mejor precio