AI Decision Engine

AI Model Selector by Use Case

Answer 4 quick questions and get your top 3 AI model recommendations matched to your GPU, use case, and quality preferences.

Javier Morales Especialista en Hardware e IA Local — 8 años de experiencia Actualizado 2026-03-31

GitHub: github.com/javier-morales-ia

Cómo usar el selector de modelos de IA

El selector de modelos de IA analiza tu caso de uso y la VRAM de tu GPU para recomendarte los tres modelos más adecuados de la biblioteca. En lugar de perderte en una lista de docenas de opciones, el selector filtra por lo que realmente importa: qué puede ejecutar tu hardware y qué modelo produce los mejores resultados para tu tarea específica.

El proceso son cuatro preguntas: tu caso de uso principal, el tamaño de VRAM disponible, el nivel de calidad que buscas (más velocidad vs más precisión) y si prefieres un modelo ligero y rápido o uno completo y más capaz. Con esas respuestas, el algoritmo puntúa cada modelo de la base de datos y te muestra los tres mejores, con datos de VRAM necesaria y enlaces para descargarlos.

Guía de casos de uso: qué modelo elegir según tu tarea

Asistente de chat y productividad Para uso general en español e inglés, los mejores modelos son Mistral 7B Instruct, Llama 3.1 8B y Qwen2.5 7B. Todos caben en GPUs de 8 GB con Q4 y ofrecen respuestas fluidas y coherentes para redacción, resúmenes y respuestas a preguntas.
Programación y asistencia de código Qwen2.5-Coder 7B y 14B son la elección principal. Soportan Python, JavaScript, TypeScript, Rust, Go y muchos otros lenguajes. Para proyectos complejos, DeepSeek-Coder V2 Lite (16B) es excelente si tienes 12+ GB de VRAM.
Razonamiento y matemáticas DeepSeek R1 Distill 8B y 14B son los reyes de las tareas que requieren razonamiento paso a paso. Son especialmente útiles para problemas matemáticos, lógica formal y análisis de argumentos. El modelo muestra su proceso de pensamiento antes de responder.
Generación de imágenes Para imágenes de alta calidad con 8 GB de VRAM, Stable Diffusion XL es la opción. Con 12+ GB, Flux.1 Schnell ofrece generación muy rápida y Flux.1 Dev, generación fotorrealista. Para resoluciones altas o batch processing, 16–24 GB son recomendables.
Transcripción de voz Whisper large-v3 de OpenAI (disponible en local con faster-whisper) es el estándar de facto. Solo necesita 2–4 GB de VRAM y ofrece transcripción precisa en más de 99 idiomas incluyendo español con distintos acentos.

Comparativa de modelos por relación calidad/VRAM

Si tienes que elegir un solo modelo para empezar con tu GPU, estas son las mejores opciones por nivel de VRAM disponible:

VRAM	Modelo recomendado	Uso ideal
6–8 GB	Qwen2.5 7B Q4 / Mistral 7B Q4	Chat, código básico
10–12 GB	Phi-4 14B Q4 / Qwen2.5 14B Q4	Razonamiento, código
16 GB	Mistral Small 3 24B Q4 / Gemma 3 27B Q4	Calidad GPT-3.5, multilingüe
24 GB	Llama 3.1 70B Q2 / Qwen2.5 32B Q8	Máximo rendimiento consumer

Hardware compatible por nivel de VRAM

Enlace de afiliado — Los precios y disponibilidad pueden cambiar. Si compras a través de este enlace recibimos una pequeña comisión sin coste adicional para ti.

RTX 4060 Ti

8 GB VRAM · value

Ver disponibilidad

RTX 5070

12 GB VRAM · mid

Ver disponibilidad

RTX 4090

24 GB VRAM · flagship

Ver disponibilidad

Preguntas frecuentes sobre selección de modelos

¿Puedo correr varios modelos a la vez?

No es posible tener dos modelos grandes cargados simultáneamente en la misma GPU; cada uno ocupa la VRAM de forma exclusiva mientras está en memoria. Sin embargo, herramientas como Ollama permiten cambiar de modelo con un solo comando en segundos: el modelo anterior se descarga y el nuevo se carga automáticamente. Si tienes 16 GB de VRAM puedes cargar un modelo de 7B, descargarlo y cargar uno de 13B sin reiniciar nada.

¿Es mejor Q4 o Q8 para uso diario?

Para la mayoría de tareas cotidianas —chat, resúmenes, código, traducción— Q4 es suficiente y reduce el consumo de VRAM a la mitad respecto a FP16. La pérdida de calidad frente a Q8 es perceptible solo en tareas de razonamiento muy preciso o matemáticas complejas. Si tienes VRAM de sobra para el modelo que quieres correr, Q8 ofrece mejor calidad; si estás al límite de VRAM, Q4 te permite usar modelos más grandes con mejor resultado final.

¿Dónde descargo los modelos recomendados?

La forma más sencilla es con Ollama: basta ejecutar ollama pull nombre-modelo y el modelo se descarga, convierte y configura automáticamente. Para modelos GGUF específicos en cuantizaciones concretas, Hugging Face es la fuente oficial. LM Studio es otra opción con interfaz gráfica que descarga modelos directamente desde HuggingFace en un click.

VRAM Calculator

Check if your GPU fits any model

Model Browser

Browse all 65 AI models

Full Hardware Wizard

Complete hardware assessment