RTX 3060 para IA: qué modelos puedes correr

Q: ¿Es la RTX 3060 buena para IA local?

Sí. La RTX 3060 con 12 GB de VRAM es una de las mejores opciones para IA local en su rango de precio. Genera ~30 tokens/seg con Llama 3.1 8B en Q4 y puede correr modelos de hasta 13B parámetros en Q4. Su mayor ventaja frente a alternativas como la RTX 4060 (8 GB) o la RTX 3060 Ti (8 GB) es precisamente esa: tiene 12 GB de VRAM cuando las otras se quedan en 8 GB.

Q: ¿Qué modelos de IA puedo correr con 12 GB de VRAM?

Con 12 GB de VRAM puedes correr cómodamente: Llama 3.1 8B en Q4 (5 GB, ~30 tok/s), Mistral 7B en Q4 (4.5 GB, ~32 tok/s), DeepSeek-R1 7B en Q4 (5 GB, ~28 tok/s), Llama 3.1 8B en Q8 (9 GB, ~22 tok/s) y Llama 3.1 13B en Q4 (~8.5 GB, ~18 tok/s). Los modelos de 70B en cualquier quantización no caben — necesitas más de 40 GB de VRAM.

Q: ¿Cuántos tokens por segundo saca la RTX 3060 con Llama 3?

La RTX 3060 12GB genera aproximadamente 30 tokens/segundo con Llama 3.1 8B en Q4, usando Ollama en Ubuntu 22.04. Con Q8 del mismo modelo baja a ~22 tok/s por el mayor uso de VRAM y bandwidth. Con Mistral 7B Q4 sube ligeramente a ~32 tok/s por el menor tamaño del modelo. Estos números son con el modelo 100% en VRAM — sin offloading a RAM.

Q: ¿RTX 3060 o RTX 4060 para inteligencia artificial?

RTX 3060 12GB, sin duda. La RTX 4060 solo tiene 8 GB de VRAM — 4 GB menos que la 3060. Para IA local, la VRAM es el factor limitante más importante. Con 8 GB puedes correr modelos 7B-8B, pero no tienes margen para contextos largos ni para modelos 13B. La RTX 3060 suele entrar mejor en segunda mano y te da acceso a modelos 13B en Q4. La RTX 4060 solo elegiría si tienes un caso de uso que requiere las mejoras de arquitectura Ada Lovelace.

1. Specs de la RTX 3060 para IA

Antes de hablar de modelos, los números que importan para inferencia. No los specs de gaming — los specs que determinan a qué velocidad genera tokens tu LLM. Ver también: landing técnica de la RTX 3060.

Spec	Valor	Por qué importa para IA
VRAM	12 GB GDDR6	El factor limitante: qué tamaño de modelo cabe
Memory bandwidth	360 GB/s	Determina tokens/seg — más bandwidth = más rápido
FP16 / Tensor TFLOPS	12.7 TFLOPS	Capacidad de cómputo para inferencia
CUDA / Tensor Cores	3584 / 112	Tensor cores aceleran operaciones de matrices en LLMs
TDP	170W	Consumo bajo vs GPUs más rápidas (4090: 450W)
Llama 3.1 8B Q4	~30 tok/s	Benchmark real, Ollama, Ubuntu 22.04
Stable Diffusion 512px	~7.0 seg/imagen	Usable para imagen, no es la GPU de imagen ideal
Precio actual	Entrada alta usada	Mejor VRAM/mercado en su segmento

Por qué el bandwidth importa más que los TFLOPS para inferencia: Un LLM genera tokens leyendo todos los pesos del modelo en cada paso. Con Llama 8B Q4 (~5 GB), el modelo lee 5 GB por token generado. Con 360 GB/s de bandwidth, la RTX 3060 puede leer esos 5 GB en ~14ms — lo que se traduce en ~30 tok/s. El RTX 4090 (1.008 GB/s) hace el mismo ciclo en ~5ms: ~95 tok/s. Los TFLOPS son menos relevantes aquí; el bandwidth es el cuello de botella.

Product image

Amazon

0.0 (0 reviews)

View undefined on Amazon →

2. Qué modelos puedes correr con la RTX 3060 (tabla completa)

Regla de cálculo: VRAM usada = tamaño_modelo_GB × factor_quantización + overhead_sistema. Con 12 GB disponibles, el límite práctico son modelos que necesiten hasta ~10-11 GB (el sistema operativo y el driver NVIDIA consumen ~1-2 GB adicionales). ¿No estás seguro de qué cabe? La calculadora de VRAM hace el cálculo exacto por modelo y quantización.

Modelo	Params	Cuantización	VRAM usada	Velocidad	Resultado
Llama 3.1 8B	8B	Q4	~5 GB	~30 tok/s	✅ SÍ — con margen
Mistral 7B	7B	Q4	~4.5 GB	~32 tok/s	✅ SÍ — rápido
DeepSeek-R1 7B	7B	Q4	~5 GB	~28 tok/s	✅ SÍ
Llama 3.1 8B	8B	Q8	~9 GB	~22 tok/s	✅ SÍ — ajustado
Llama 3.1 13B	13B	Q4	~8.5 GB	~18 tok/s	✅ SÍ — ajustado
Llama 3.1 13B	13B	Q8	~14 GB	—	❌ NO — supera 12 GB
Mixtral 8x7B	47B eff.	Q4	~26 GB	—	❌ NO — necesita 24+ GB
Llama 3.1 70B	70B	Q4	~42 GB	—	❌ NO — necesita A100 o multi-GPU

Lo que SÍ funciona bien

• Todos los modelos 7B-8B en Q4 o Q8
• Modelos 13B en Q4 (ajustado pero funciona)
• Generación de imágenes 512px con SD
• Coding assistants (Codellama 7B, Qwen2.5-Coder 7B)

Lo que NO funciona

• Modelos 70B (necesitan 42 GB en Q4)
• Modelos 13B en Q8 (supera 12 GB)
• Mixtral 8x7B (26 GB en Q4)
• Generación de video (VRAM insuficiente)

Nota sobre "ajustado": Llama 3.1 8B en Q8 (~9 GB) y 13B en Q4 (~8.5 GB) caben, pero con poco margen para el contexto. Si usas ventanas de contexto largas (más de 4096 tokens), el overhead puede superar los 12 GB. Para uso conversacional normal funciona bien. Para contextos de 8K+, mejor quedarse en Q4 con los modelos 7B.

3. Ollama + RTX 3060: setup en 10 minutos

Ollama es la forma más rápida de empezar. Un comando instala todo — los drivers CUDA se detectan automáticamente si tienes los drivers NVIDIA actualizados. Si prefieres interfaz gráfica, también hablo de LM Studio al final de esta sección. Para una comparativa detallada, ver el artículo Ollama vs LM Studio.

Paso 1: Instalar Ollama

bash

curl -fsSL https://ollama.com/install.sh | sh

Paso 2: Verificar que detecta la GPU

bash

nvidia-smi

Si ves tu RTX 3060 en la salida con ~12 GB de memoria, estás listo. Si no aparece, comprueba que tienes los drivers NVIDIA instalados (nvidia-driver-535 o superior).

Paso 3: Descargar y correr un modelo

bash

ollama pull llama3.1:8b
ollama run llama3.1:8b

La descarga es ~4.7 GB. La primera carga tarda ~5-10 segundos mientras los pesos se copian a VRAM. A partir de ahí, respuestas a ~30 tok/s.

Configuración para 12 GB de VRAM

Por defecto Ollama detecta tu VRAM y ajusta automáticamente las capas en GPU. Para modelos que están cerca del límite de 12 GB, puedes ajustar el número de capas con la variable OLLAMA_GPU_LAYERS. El número óptimo depende del modelo y de tu configuración de sistema — empieza sin la variable y Ollama lo gestiona solo.

bash — verificar que el modelo está en GPU

ollama ps

¿Prefieres interfaz gráfica?

LM Studio ofrece una UI visual con historial de chats, gestión de modelos y comparativa side-by-side. Funciona bien con la RTX 3060 en Windows y Linux. El rendimiento es equivalente a Ollama — ambos usan llama.cpp por debajo. Diferencia real: Ollama es mejor para headless/API, LM Studio para uso personal con interfaz.

4. Cómo optimizar el rendimiento de la RTX 3060 para IA

Q4 vs Q8: el trade-off que importa

La elección de quantización afecta tres cosas: VRAM, velocidad y calidad. Para la RTX 3060 con 12 GB, el impacto es especialmente relevante porque estás cerca del límite. El artículo ¿Cuánta VRAM necesito para IA? explica las quantizaciones en detalle — aquí los números para la RTX 3060 específicamente:

Q4 — El estándar para 12 GB Recomendado

Llama 8B~5 GB · 30 tok/s

Pérdida calidad~5-7%

Modelos 13BCaben (~8.5 GB)

Q8 — Más calidad, menos margen Solo si tienes margen de VRAM

Llama 8B~9 GB · 22 tok/s

Pérdida calidad~1-2%

Modelos 13BNO caben (14 GB)

Veredicto para 12 GB: Q4 es la elección correcta. La pérdida de calidad del 5-7% es imperceptible en uso conversacional normal, y te permite correr modelos 13B que con Q8 quedarían fuera. Q8 solo tiene sentido si solo usas modelos 7B y quieres la máxima calidad posible.

Ajustes de sistema que hacen diferencia

1.
Cerrar Chrome y apps antes de modelos grandes. Chrome puede consumir 1-2 GB de VRAM con aceleración GPU activa. Con Llama 13B Q4 (~8.5 GB), ese overhead puede marcar la diferencia entre que cargue o haga offloading.
2.
Usar modelos Q4_K_M en vez de Q4. La variante Q4_K_M aplica quantización mixta — pesos críticos en mayor precisión. Mejor calidad que Q4 puro con la misma VRAM. Ollama la usa automáticamente si está disponible.
3.
Contexto razonable. Una ventana de contexto de 8K tokens consume más VRAM que una de 2K. Si no necesitas contextos largos, reducir a 2048 libera VRAM para el modelo.

5. ¿Vale la pena comprar una RTX 3060 para IA en 2026?

La respuesta honesta depende de tu presupuesto y qué modelos quieres correr. Aquí la comparativa real — sin omitir las trampas que hay en el mercado.

GPU	VRAM	Banda	Para IA	Veredicto
RTX 3060 12GB	12 GB	Entrada alta usada	7B-13B en Q4, 8B en Q8	✅ Sweet spot <300€
RTX 3060 Ti	8 GB	Entrada usada	Solo modelos 7B Q4	❌ EVITAR — menos VRAM
RTX 4060	8 GB	Entrada	Solo modelos 7B Q4	❌ EVITAR — mismo problema
RTX 3070 Ti	8 GB	Entrada alta usada	Solo modelos 7B Q4	❌ TRAMPA — menos VRAM, más caro
RTX 4060 Ti 16GB	16 GB	Gama media	7B-14B con soltura, SD más rápido	✅ Mejor opción si llegas

La trampa de las 8 GB que hay que saber

La RTX 3060 Ti, la RTX 4060 y la RTX 3070 Ti tienen todas 8 GB de VRAM, no 12 GB. El nombre "3060 Ti" suena a mejor GPU que "3060", y lo es para gaming — pero para IA es peor. Tiene menos VRAM que la 3060 base. El "Ti" significa más CUDA cores y más potencia de cómputo, no más memoria. Para inferencia de LLMs, la memoria es lo que importa. Comprar una 3060 Ti o una 4060 en banda de entrada cuando puedes tener una 3060 12GB por una banda similar es un error que mucha gente comete.

Conclusión directa: si tu presupuesto está en la banda de entrada, la RTX 3060 12GB es una de las elecciones más racionales para IA local. Cualquier otra GPU en ese rango suele quedarse en 8 GB de VRAM — y 8 GB son un límite real que notarás en seguida.

6. FAQ

¿Es la RTX 3060 buena para IA local?

Sí, especialmente por el precio. Con 12 GB de VRAM genera ~30 tokens/segundo con Llama 3.1 8B en Q4 y puede correr modelos de hasta 13B. No es la GPU más rápida, pero es la mejor relación precio/VRAM por menos de 300€. La competencia directa (RTX 4060, RTX 3060 Ti) tiene solo 8 GB y cuesta igual o más.

¿Qué modelos de IA puedo correr con 12 GB de VRAM?

Con 12 GB puedes correr cómodamente cualquier modelo 7B-8B en Q4 o Q8, y modelos 13B en Q4. Los más populares: Llama 3.1 8B (~30 tok/s), Mistral 7B (~32 tok/s), DeepSeek-R1 7B (~28 tok/s), y Llama 3.1 13B Q4 (~18 tok/s). Los modelos 70B necesitan 42+ GB — fuera de alcance con 12 GB. Usa la calculadora de VRAM para ver exactamente qué cabe con tu configuración.

¿Cuántos tokens por segundo saca la RTX 3060 con Llama 3?

Con Llama 3.1 8B en Q4, usando Ollama en Ubuntu 22.04: aproximadamente 30 tokens/segundo. Con Q8 del mismo modelo: ~22 tok/s (más calidad, más VRAM, más lento). Con Mistral 7B Q4: ~32 tok/s (modelo más pequeño, más rápido). Con Llama 3.1 13B Q4: ~18 tok/s. Estos son benchmarks con el modelo 100% en VRAM — sin offloading.

¿RTX 3060 o RTX 4060 para inteligencia artificial?

RTX 3060 12GB, sin duda. La RTX 4060 solo tiene 8 GB de VRAM — 4 GB menos. Para IA local, la VRAM es el factor limitante más importante: determina qué modelos caben y si necesitas offloading. Con 8 GB estás limitado a modelos 7B-8B. Con 12 GB llegas a los 13B. La única razón para elegir la RTX 4060 sobre la RTX 3060 sería si necesitas las mejoras arquitecturales Ada Lovelace para un caso de uso muy específico — pero para inferencia de LLMs, la VRAM gana.

Dónde comprar la RTX 3060 12GB

Si has decidido que la RTX 3060 12GB es tu GPU, aquí tienes enlaces directos para comparar precios. También incluimos la RTX 4060 Ti 16GB para quien pueda estirar el presupuesto.

RTX 3060 12GB

Sweet spot <300€ — 12 GB VRAM, ~30 tok/s con Llama 8B Q4

Ver precio en Amazon

RTX 4060 Ti 16GB

Mejor opción si llegas a ~400€ — 16 GB VRAM, modelos 14B con soltura

Ver precio en Amazon

7. Conclusión

La RTX 3060 12GB es el sweet spot para menos de 300€. No hay otra GPU en ese rango de precio con 12 GB de VRAM. Cualquier alternativa cercana tiene 8 GB y es un paso atrás para IA.

~30 tok/s con Llama 8B Q4 es perfectamente usable. Para conversación, coding, resúmenes y uso general, 30 tokens/segundo es más que suficiente. No es un RTX 4090, pero para el precio hace el trabajo.

Si puedes estirar el presupuesto a ~400€, la RTX 4060 Ti 16GB es mejor. 16 GB de VRAM te abre los modelos 14B con margen, y el salto de ~220€ a ~400€ puede valer si planeas correr modelos más grandes a largo plazo.

¿Qué modelos puedes correr exactamente con tu GPU?

La calculadora de VRAM toma tu GPU, el modelo que quieres correr y la quantización, y te dice si cabe, a qué velocidad y si necesitarás offloading.

Calcula exactamente qué modelos puedes correr con tu GPU →

Siguientes pasos recomendados

Herramientas

GPUs relacionadas

Productos recomendados

Selección verificada con ASINs reales — actualizada en 2026.

€269

budget Amazon Prime

NVIDIA GeForce RTX 3060 12GB

4.8 (1,400 reviews)

Pros

12 GB VRAM — el doble que RTX 4060
Llama 8B a ~30 tok/s
Precio de entrada <300€

Cons

Arquitectura Ampere vs Ada en nuevas

Ver en Amazon

€269

mid Amazon Prime

NVIDIA GeForce RTX 3060 Ti 8GB

4.6 (420 reviews)

Pros

Mayor rendimiento rasterización
Buena segunda mano
Mismo ecosistema Ampere

Cons

8 GB VRAM — mitad que RTX 3060 12GB

Ver en Amazon

€299

budget Amazon Prime

NVIDIA GeForce RTX 4060 8GB

4.6 (1,100 reviews)

Pros

Ada Lovelace — eficiencia superior
Muy silenciosa y bajo consumo
Modelos 7B-8B en Q4 cómodo

Cons

8 GB frente a 12 GB de la 3060

Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

RTX 3060 para inteligencia artificial: qué modelos puedes correr en 2026

1. Specs de la RTX 3060 para IA

2. Qué modelos puedes correr con la RTX 3060 (tabla completa)

Lo que SÍ funciona bien

Lo que NO funciona

3. Ollama + RTX 3060: setup en 10 minutos

Paso 1: Instalar Ollama

Paso 2: Verificar que detecta la GPU

Paso 3: Descargar y correr un modelo

Configuración para 12 GB de VRAM

¿Prefieres interfaz gráfica?

4. Cómo optimizar el rendimiento de la RTX 3060 para IA

Q4 vs Q8: el trade-off que importa

Ajustes de sistema que hacen diferencia

5. ¿Vale la pena comprar una RTX 3060 para IA en 2026?

La trampa de las 8 GB que hay que saber

6. FAQ

¿Es la RTX 3060 buena para IA local?

¿Qué modelos de IA puedo correr con 12 GB de VRAM?

¿Cuántos tokens por segundo saca la RTX 3060 con Llama 3?

¿RTX 3060 o RTX 4060 para inteligencia artificial?

Dónde comprar la RTX 3060 12GB

RTX 3060 12GB

RTX 4060 Ti 16GB

7. Conclusión

¿Qué modelos puedes correr exactamente con tu GPU?

Siguientes pasos recomendados

Herramientas

GPUs relacionadas

Productos recomendados

NVIDIA GeForce RTX 3060 12GB

NVIDIA GeForce RTX 3060 Ti 8GB

NVIDIA GeForce RTX 4060 8GB

Fuentes