NVIDIA GeForce RTX 4060 Ti
Pros
- 8 GB VRAM — corre modelos 7B–13B en Q4
- Ideal para Llama, Mistral y Gemma localmente
- Buena eficiencia energética para uso diario
RunAIatHome Model Browser: search, filter, and explore AI models you can run locally. See VRAM requirements, quality scores, and links to download.
Modelos como Llama 3.1 8B (5 GB Q4), Mistral 7B (5 GB Q4) o Gemma 2 9B (6 GB Q4) entran en GPUs de gama media. Solo los modelos de 30B o más requieren GPUs de gama alta o setups multi-GPU.
— RunAIatHome Model Browser — análisis de 94 modelos catalogadosFound this useful? Get guides like this in your inbox every week.
Los precios y disponibilidad pueden cambiar. Algunos enlaces son de afiliado.
Pros
Pros
Pros
El buscador de modelos de IA te permite filtrar por categoría (chat, código, imagen, transcripción), tamaño en parámetros y VRAM necesaria. Pero más allá del filtro, es útil entender cómo se relacionan los modelos con el hardware disponible para tomar una decisión informada.
La regla general es simple: cuantos más parámetros tiene un modelo, mayor es su VRAM mínima para poder cargarlo completamente en GPU. Sin embargo, la cuantización rompe esta relación lineal: un modelo de 14B a Q4 puede caber en menos VRAM que uno de 7B a FP16. Por eso el mejor criterio no es el número de parámetros, sino la VRAM necesaria en la cuantización que planeas usar.
<think> para mostrar su proceso de razonamiento antes de dar la respuesta.
Una vez que has elegido el modelo, necesitas una herramienta para ejecutarlo. Las principales opciones para entusiastas de IA local son:
Para la mayoría de tareas profesionales —redacción, resúmenes, código, análisis de texto— los modelos de 7B–14B parámetros en Q4 son suficientes y caben en GPUs con 8–12 GB de VRAM. Los modelos de 30B–70B ofrecen mejor razonamiento pero requieren 16–40 GB de VRAM. En la práctica, un Qwen2.5 14B en Q4 supera a muchas respuestas de GPT-3.5 Turbo en tareas técnicas.
Los modelos base son preentrenados en texto puro y completan texto sin seguir instrucciones; son útiles para fine-tuning. Los modelos instruct (también llamados chat) han sido afinados con RLHF o DPO para seguir instrucciones humanas de forma natural. Para uso cotidiano siempre necesitas la versión instruct; los modelos base requieren prompting especializado para ser útiles.
Sí. Modelos como LLaVA, Llama 3.2 Vision y Qwen2-VL aceptan imágenes como entrada y están disponibles en Ollama. Requieren entre 8 y 24 GB de VRAM según el tamaño. Son útiles para describir imágenes, responder preguntas sobre fotos, o analizar diagramas y capturas de pantalla localmente sin enviar datos a la nube.