Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.
RTX 3060 para inteligencia artificial: qué modelos puedes correr en 2026
Con 12 GB de VRAM, la RTX 3060 es la GPU de consumidor más popular para IA local. En segunda mano suele entrar en una banda muy competitiva y ofrece una de las mejores relaciones VRAM/mercado para quien no quiere dar el salto a una GPU más cara. Aquí están los números reales.
¿No sabes qué cabe en tu GPU? Usa nuestra calculadora de VRAM — te dice exactamente qué modelos puedes correr, a qué velocidad y si necesitas offloading.
TL;DR: • La RTX 3060 ofrece 12 GB de VRAM por ~200–280 € de segunda mano • Genera ~30 tok/s con Llama 8B Q4 y soporta modelos hasta 13B parámetros • La mejor relación VRAM/precio del mercado de entrada para IA doméstica
1. Specs de la RTX 3060 para IA
Antes de hablar de modelos, los números que importan para inferencia. No los specs de gaming — los specs que determinan a qué velocidad genera tokens tu LLM. Ver también: landing técnica de la RTX 3060.
| Spec | Valor | Por qué importa para IA |
|---|---|---|
| VRAM | 12 GB GDDR6 | El factor limitante: qué tamaño de modelo cabe |
| Memory bandwidth | 360 GB/s | Determina tokens/seg — más bandwidth = más rápido |
| FP16 / Tensor TFLOPS | 12.7 TFLOPS | Capacidad de cómputo para inferencia |
| CUDA / Tensor Cores | 3584 / 112 | Tensor cores aceleran operaciones de matrices en LLMs |
| TDP | 170W | Consumo bajo vs GPUs más rápidas (4090: 450W) |
| Llama 3.1 8B Q4 | ~30 tok/s | Benchmark real, Ollama, Ubuntu 22.04 |
| Stable Diffusion 512px | ~7.0 seg/imagen | Usable para imagen, no es la GPU de imagen ideal |
| Precio actual | Entrada alta usada | Mejor VRAM/mercado en su segmento |
Por qué el bandwidth importa más que los TFLOPS para inferencia: Un LLM genera tokens leyendo todos los pesos del modelo en cada paso. Con Llama 8B Q4 (~5 GB), el modelo lee 5 GB por token generado. Con 360 GB/s de bandwidth, la RTX 3060 puede leer esos 5 GB en ~14ms — lo que se traduce en ~30 tok/s. El RTX 4090 (1.008 GB/s) hace el mismo ciclo en ~5ms: ~95 tok/s. Los TFLOPS son menos relevantes aquí; el bandwidth es el cuello de botella.
2. Qué modelos puedes correr con la RTX 3060 (tabla completa)
Regla de cálculo: VRAM usada = tamaño_modelo_GB × factor_quantización + overhead_sistema.
Con 12 GB disponibles, el límite práctico son modelos que necesiten hasta ~10-11 GB
(el sistema operativo y el driver NVIDIA consumen ~1-2 GB adicionales).
¿No estás seguro de qué cabe? La calculadora de VRAM hace
el cálculo exacto por modelo y quantización.
| Modelo | Params | Cuantización | VRAM usada | Velocidad | Resultado |
|---|---|---|---|---|---|
| Llama 3.1 8B | 8B | Q4 | ~5 GB | ~30 tok/s | ✅ SÍ — con margen |
| Mistral 7B | 7B | Q4 | ~4.5 GB | ~32 tok/s | ✅ SÍ — rápido |
| DeepSeek-R1 7B | 7B | Q4 | ~5 GB | ~28 tok/s | ✅ SÍ |
| Llama 3.1 8B | 8B | Q8 | ~9 GB | ~22 tok/s | ✅ SÍ — ajustado |
| Llama 3.1 13B | 13B | Q4 | ~8.5 GB | ~18 tok/s | ✅ SÍ — ajustado |
| Llama 3.1 13B | 13B | Q8 | ~14 GB | — | ❌ NO — supera 12 GB |
| Mixtral 8x7B | 47B eff. | Q4 | ~26 GB | — | ❌ NO — necesita 24+ GB |
| Llama 3.1 70B | 70B | Q4 | ~42 GB | — | ❌ NO — necesita A100 o multi-GPU |
Lo que SÍ funciona bien
- • Todos los modelos 7B-8B en Q4 o Q8
- • Modelos 13B en Q4 (ajustado pero funciona)
- • Generación de imágenes 512px con SD
- • Coding assistants (Codellama 7B, Qwen2.5-Coder 7B)
Lo que NO funciona
- • Modelos 70B (necesitan 42 GB en Q4)
- • Modelos 13B en Q8 (supera 12 GB)
- • Mixtral 8x7B (26 GB en Q4)
- • Generación de video (VRAM insuficiente)
Nota sobre "ajustado": Llama 3.1 8B en Q8 (~9 GB) y 13B en Q4 (~8.5 GB) caben, pero con poco margen para el contexto. Si usas ventanas de contexto largas (más de 4096 tokens), el overhead puede superar los 12 GB. Para uso conversacional normal funciona bien. Para contextos de 8K+, mejor quedarse en Q4 con los modelos 7B.
3. Ollama + RTX 3060: setup en 10 minutos
Ollama es la forma más rápida de empezar. Un comando instala todo — los drivers CUDA se detectan automáticamente si tienes los drivers NVIDIA actualizados. Si prefieres interfaz gráfica, también hablo de LM Studio al final de esta sección. Para una comparativa detallada, ver el artículo Ollama vs LM Studio.
Paso 1: Instalar Ollama
curl -fsSL https://ollama.com/install.sh | sh Paso 2: Verificar que detecta la GPU
nvidia-smi
Si ves tu RTX 3060 en la salida con ~12 GB de memoria, estás listo. Si no aparece, comprueba
que tienes los drivers NVIDIA instalados (nvidia-driver-535 o superior).
Paso 3: Descargar y correr un modelo
ollama pull llama3.1:8b
ollama run llama3.1:8b La descarga es ~4.7 GB. La primera carga tarda ~5-10 segundos mientras los pesos se copian a VRAM. A partir de ahí, respuestas a ~30 tok/s.
Configuración para 12 GB de VRAM
Por defecto Ollama detecta tu VRAM y ajusta automáticamente las capas en GPU.
Para modelos que están cerca del límite de 12 GB, puedes ajustar el número de capas
con la variable OLLAMA_GPU_LAYERS.
El número óptimo depende del modelo y de tu configuración de sistema — empieza sin
la variable y Ollama lo gestiona solo.
ollama ps ¿Prefieres interfaz gráfica?
LM Studio ofrece una UI visual con historial de chats, gestión de modelos y comparativa side-by-side. Funciona bien con la RTX 3060 en Windows y Linux. El rendimiento es equivalente a Ollama — ambos usan llama.cpp por debajo. Diferencia real: Ollama es mejor para headless/API, LM Studio para uso personal con interfaz.
4. Cómo optimizar el rendimiento de la RTX 3060 para IA
Q4 vs Q8: el trade-off que importa
La elección de quantización afecta tres cosas: VRAM, velocidad y calidad. Para la RTX 3060 con 12 GB, el impacto es especialmente relevante porque estás cerca del límite. El artículo ¿Cuánta VRAM necesito para IA? explica las quantizaciones en detalle — aquí los números para la RTX 3060 específicamente:
Veredicto para 12 GB: Q4 es la elección correcta. La pérdida de calidad del 5-7% es imperceptible en uso conversacional normal, y te permite correr modelos 13B que con Q8 quedarían fuera. Q8 solo tiene sentido si solo usas modelos 7B y quieres la máxima calidad posible.
Ajustes de sistema que hacen diferencia
- 1. Cerrar Chrome y apps antes de modelos grandes. Chrome puede consumir 1-2 GB de VRAM con aceleración GPU activa. Con Llama 13B Q4 (~8.5 GB), ese overhead puede marcar la diferencia entre que cargue o haga offloading.
- 2. Usar modelos Q4_K_M en vez de Q4. La variante Q4_K_M aplica quantización mixta — pesos críticos en mayor precisión. Mejor calidad que Q4 puro con la misma VRAM. Ollama la usa automáticamente si está disponible.
- 3. Contexto razonable. Una ventana de contexto de 8K tokens consume más VRAM que una de 2K. Si no necesitas contextos largos, reducir a 2048 libera VRAM para el modelo.
5. ¿Vale la pena comprar una RTX 3060 para IA en 2026?
La respuesta honesta depende de tu presupuesto y qué modelos quieres correr. Aquí la comparativa real — sin omitir las trampas que hay en el mercado.
| GPU | VRAM | Banda | Para IA | Veredicto |
|---|---|---|---|---|
| RTX 3060 12GB | 12 GB | Entrada alta usada | 7B-13B en Q4, 8B en Q8 | ✅ Sweet spot <300€ |
| RTX 3060 Ti | 8 GB | Entrada usada | Solo modelos 7B Q4 | ❌ EVITAR — menos VRAM |
| RTX 4060 | 8 GB | Entrada | Solo modelos 7B Q4 | ❌ EVITAR — mismo problema |
| RTX 3070 Ti | 8 GB | Entrada alta usada | Solo modelos 7B Q4 | ❌ TRAMPA — menos VRAM, más caro |
| RTX 4060 Ti 16GB | 16 GB | Gama media | 7B-14B con soltura, SD más rápido | ✅ Mejor opción si llegas |
La trampa de las 8 GB que hay que saber
La RTX 3060 Ti, la RTX 4060 y la RTX 3070 Ti tienen todas 8 GB de VRAM, no 12 GB. El nombre "3060 Ti" suena a mejor GPU que "3060", y lo es para gaming — pero para IA es peor. Tiene menos VRAM que la 3060 base. El "Ti" significa más CUDA cores y más potencia de cómputo, no más memoria. Para inferencia de LLMs, la memoria es lo que importa. Comprar una 3060 Ti o una 4060 en banda de entrada cuando puedes tener una 3060 12GB por una banda similar es un error que mucha gente comete.
Conclusión directa: si tu presupuesto está en la banda de entrada, la RTX 3060 12GB es una de las elecciones más racionales para IA local. Cualquier otra GPU en ese rango suele quedarse en 8 GB de VRAM — y 8 GB son un límite real que notarás en seguida.
6. FAQ
¿Es la RTX 3060 buena para IA local?
Sí, especialmente por el precio. Con 12 GB de VRAM genera ~30 tokens/segundo con Llama 3.1 8B en Q4 y puede correr modelos de hasta 13B. No es la GPU más rápida, pero es la mejor relación precio/VRAM por menos de 300€. La competencia directa (RTX 4060, RTX 3060 Ti) tiene solo 8 GB y cuesta igual o más.
¿Qué modelos de IA puedo correr con 12 GB de VRAM?
Con 12 GB puedes correr cómodamente cualquier modelo 7B-8B en Q4 o Q8, y modelos 13B en Q4. Los más populares: Llama 3.1 8B (~30 tok/s), Mistral 7B (~32 tok/s), DeepSeek-R1 7B (~28 tok/s), y Llama 3.1 13B Q4 (~18 tok/s). Los modelos 70B necesitan 42+ GB — fuera de alcance con 12 GB. Usa la calculadora de VRAM para ver exactamente qué cabe con tu configuración.
¿Cuántos tokens por segundo saca la RTX 3060 con Llama 3?
Con Llama 3.1 8B en Q4, usando Ollama en Ubuntu 22.04: aproximadamente 30 tokens/segundo. Con Q8 del mismo modelo: ~22 tok/s (más calidad, más VRAM, más lento). Con Mistral 7B Q4: ~32 tok/s (modelo más pequeño, más rápido). Con Llama 3.1 13B Q4: ~18 tok/s. Estos son benchmarks con el modelo 100% en VRAM — sin offloading.
¿RTX 3060 o RTX 4060 para inteligencia artificial?
RTX 3060 12GB, sin duda. La RTX 4060 solo tiene 8 GB de VRAM — 4 GB menos. Para IA local, la VRAM es el factor limitante más importante: determina qué modelos caben y si necesitas offloading. Con 8 GB estás limitado a modelos 7B-8B. Con 12 GB llegas a los 13B. La única razón para elegir la RTX 4060 sobre la RTX 3060 sería si necesitas las mejoras arquitecturales Ada Lovelace para un caso de uso muy específico — pero para inferencia de LLMs, la VRAM gana.
Dónde comprar la RTX 3060 12GB
Si has decidido que la RTX 3060 12GB es tu GPU, aquí tienes enlaces directos para comparar precios. También incluimos la RTX 4060 Ti 16GB para quien pueda estirar el presupuesto.
RTX 4060 Ti 16GB
Mejor opción si llegas a ~400€ — 16 GB VRAM, modelos 14B con soltura
Ver precio en Amazon7. Conclusión
La RTX 3060 12GB es el sweet spot para menos de 300€. No hay otra GPU en ese rango de precio con 12 GB de VRAM. Cualquier alternativa cercana tiene 8 GB y es un paso atrás para IA.
~30 tok/s con Llama 8B Q4 es perfectamente usable. Para conversación, coding, resúmenes y uso general, 30 tokens/segundo es más que suficiente. No es un RTX 4090, pero para el precio hace el trabajo.
Si puedes estirar el presupuesto a ~400€, la RTX 4060 Ti 16GB es mejor. 16 GB de VRAM te abre los modelos 14B con margen, y el salto de ~220€ a ~400€ puede valer si planeas correr modelos más grandes a largo plazo.
¿Qué modelos puedes correr exactamente con tu GPU?
La calculadora de VRAM toma tu GPU, el modelo que quieres correr y la quantización, y te dice si cabe, a qué velocidad y si necesitarás offloading.
Calcula exactamente qué modelos puedes correr con tu GPU →Siguientes pasos recomendados
Herramientas
GPUs relacionadas
Productos recomendados
Selección verificada con ASINs reales — actualizada en 2026.
€269
NVIDIA GeForce RTX 3060 12GB
Pros
- 12 GB VRAM — el doble que RTX 4060
- Llama 8B a ~30 tok/s
- Precio de entrada <300€
Cons
- Arquitectura Ampere vs Ada en nuevas
€269
NVIDIA GeForce RTX 3060 Ti 8GB
Pros
- Mayor rendimiento rasterización
- Buena segunda mano
- Mismo ecosistema Ampere
Cons
- 8 GB VRAM — mitad que RTX 3060 12GB
€299
NVIDIA GeForce RTX 4060 8GB
Pros
- Ada Lovelace — eficiencia superior
- Muy silenciosa y bajo consumo
- Modelos 7B-8B en Q4 cómodo
Cons
- 8 GB frente a 12 GB de la 3060
Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.
Fuentes
- NVIDIA RTX 3060 — Especificaciones oficiales del fabricante (12 GB GDDR6, 192-bit bus)
- TechPowerUp GPU Specs RTX 3060 — Especificaciones técnicas completas y métricas de rendimiento
- Ollama Model Library — Requisitos de VRAM por modelo en Q4 y otras quantizaciones
- Tom's Hardware GPU Benchmark — Comparativas de rendimiento en cargas de trabajo reales