Local AI
Glossary
Este glosario de IA local recoge los términos técnicos más importantes para ejecutar modelos de inteligencia artificial en tu propio hardware. Desde conceptos de hardware como VRAM y ancho de banda de memoria, hasta técnicas de software como cuantización, LoRA y RAG.
Cada definición incluye un ejemplo práctico para entender cómo aplica el concepto a tu setup de IA en casa. Consulta también nuestra guía para empezar con IA local y el calculador de VRAM.
Definiciones de términos de IA local
VRAM
La VRAM (Video RAM) es la memoria dedicada de una GPU. En IA local, toda la información del modelo debe caber en VRAM para que la inferencia sea rápida. Si el modelo no cabe, el sistema recurre a RAM del sistema o almacenamiento, lo que reduce la velocidad drásticamente.
Ejemplo
Una GPU con 8 GB VRAM puede correr un modelo 7B cuantizado a Q4 (~4.5 GB), pero no uno de 13B en Q8 (~14 GB).
Cuantización
Técnica que reduce la precisión numérica de los pesos de un modelo para disminuir su uso de VRAM con pérdida mínima de calidad. Los formatos más comunes son Q4 (4 bits), Q8 (8 bits) y FP16 (16 bits). A menor número de bits, menor VRAM necesaria pero también menor calidad.
Ejemplo
Un modelo Llama 3.1 8B ocupa 16 GB en FP16, 8 GB en Q8 y solo 4.5 GB en Q4. Con una GPU de 8 GB puedes usar Q8.
Q4 / Q8 / FP16
Niveles de cuantización. Q4 usa 4 bits por peso (menor calidad, menor VRAM), Q8 usa 8 bits (alta calidad, más VRAM) y FP16 usa 16 bits de punto flotante (calidad máxima, mayor VRAM). Para uso local, Q4 y Q8 son los más comunes.
Ejemplo
Si tienes 12 GB VRAM, puedes correr un modelo 7B en Q8 (8 GB) o un modelo 13B en Q4 (8 GB) con similar calidad.
CUDA
Plataforma de computación paralela de NVIDIA que permite aprovechar la GPU para aceleración de IA. La mayoría de frameworks de IA (PyTorch, llama.cpp, Ollama) usan CUDA por defecto en GPUs NVIDIA. Es el estándar de facto para aceleración GPU en IA.
Ejemplo
Cuando Ollama detecta una GPU NVIDIA con CUDA, carga el modelo en VRAM automáticamente para máxima velocidad.
ROCm
Plataforma de computación de AMD equivalente a CUDA para GPUs Radeon. Permite usar GPUs AMD para aceleración de IA. ROCm tiene buen soporte en Linux, pero en Windows el soporte es más limitado y algunos frameworks requieren configuración adicional.
Ejemplo
Una RX 7900 XTX con ROCm en Ubuntu puede correr Ollama con aceleración GPU comparable a una RTX equivalente.
Tokens por segundo (TPS)
Métrica de velocidad de inferencia que mide cuántos tokens genera el modelo por segundo. Un token equivale aproximadamente a 0.75 palabras. Valores típicos: 5–15 TPS es lento pero usable; 20–50 TPS es bueno para uso diario; 80+ TPS es excelente.
Ejemplo
Una RTX 4090 genera Llama 3.1 8B a ~130 TPS en Q4. Una GPU de 8 GB más básica puede generar 30–50 TPS.
Ventana de contexto
Número máximo de tokens que el modelo puede procesar de una vez, incluyendo el historial de conversación y el texto de entrada. Una ventana mayor permite conversaciones más largas y documentos más extensos, pero requiere más VRAM.
Ejemplo
Llama 3.1 tiene una ventana de contexto de 128K tokens, lo que permite analizar documentos de más de 100 páginas en una sola llamada.
GGUF
Formato de archivo para modelos de lenguaje cuantizados, diseñado para uso eficiente con llama.cpp y Ollama. Reemplazó al formato GGML. Los archivos GGUF contienen el modelo cuantizado, metadatos y configuración en un único archivo portable.
Ejemplo
Al descargar un modelo de Hugging Face para Ollama, busca archivos con extensión .gguf y el nivel de cuantización que necesitas (Q4_K_M es la opción más equilibrada).
Ollama
Herramienta de línea de comandos que simplifica la descarga y ejecución de modelos de lenguaje en local. Gestiona automáticamente los modelos, detecta la GPU disponible y expone una API compatible con OpenAI. Es la forma más sencilla de empezar con IA local.
Ejemplo
Con `ollama run llama3.1:8b` descargas y ejecutas Llama 3.1 8B en segundos, sin configuración adicional.
LM Studio
Aplicación de escritorio con interfaz gráfica para descargar y ejecutar modelos de lenguaje localmente. Ofrece una interfaz de chat similar a ChatGPT, soporte para múltiples modelos y un servidor local compatible con la API de OpenAI.
Ejemplo
LM Studio permite cambiar entre modelos con un clic y ajustar parámetros como temperatura y context length desde la interfaz.
Arquitectura Transformer
Arquitectura de red neuronal que usa mecanismos de atención para procesar secuencias de texto. Es la base de casi todos los modelos de lenguaje modernos (GPT, Llama, Mistral, Gemma). Los transformers procesan el texto completo en paralelo, lo que los hace eficientes con GPU.
Ejemplo
Cuando un modelo "atiende" a diferentes partes del texto para entender el contexto, está usando el mecanismo de atención del transformer.
Parámetros (miles de millones)
Los parámetros son los valores ajustables que definen el comportamiento del modelo, aprendidos durante el entrenamiento. Se expresan en miles de millones (B). Más parámetros generalmente implica más capacidad pero también más VRAM necesaria.
Ejemplo
Un modelo 7B tiene 7 mil millones de parámetros. Cada uno ocupa entre 0.5 y 2 bytes dependiendo de la cuantización.
Fine-tuning
Proceso de continuar el entrenamiento de un modelo pre-entrenado con datos específicos para adaptarlo a una tarea o dominio concreto. Requiere mucha más VRAM que la inferencia y habitualmente se hace en GPU de alta gama o en la nube.
Ejemplo
Puedes hacer fine-tuning de Llama 3.1 8B con tus propios documentos para crear un asistente especializado en tu empresa.
LoRA
Low-Rank Adaptation: técnica de fine-tuning eficiente que añade matrices pequeñas al modelo base en lugar de modificar todos los pesos. Permite adaptar modelos grandes con mucha menos VRAM y tiempo que el fine-tuning completo.
Ejemplo
Con LoRA puedes crear un adaptador para que Llama escriba en tu estilo personal, usando una GPU de 8 GB en lugar de una A100.
RAG (Retrieval-Augmented Generation)
Técnica que combina la generación de texto de un LLM con búsqueda en una base de documentos externa. En lugar de memorizar el conocimiento, el modelo busca información relevante en tiempo real. Permite usar modelos locales con tus propios documentos sin fine-tuning.
Ejemplo
Con RAG puedes preguntarle a un modelo local sobre tus PDFs, emails o base de código, y el modelo responderá basándose en esos documentos específicos.
Embedding
Representación numérica densa de texto que captura su significado semántico. Los embeddings permiten comparar textos por similitud de significado. Son la base de los sistemas RAG y búsqueda semántica. Los modelos de embedding son mucho más pequeños que los LLMs.
Ejemplo
Para RAG, primero conviertes tus documentos a embeddings con un modelo pequeño (nomic-embed-text), luego buscas los más similares a la pregunta del usuario.
Inferencia
Proceso de usar un modelo entrenado para generar texto a partir de una entrada. Es lo que ocurre cuando le haces una pregunta a un modelo local. La inferencia es mucho menos intensiva en recursos que el entrenamiento y puede hacerse en hardware doméstico.
Ejemplo
Cuando escribes un prompt en Ollama y el modelo responde, estás haciendo inferencia. Toda la IA local que haces en casa es inferencia.
Entrenamiento
Proceso de ajustar los parámetros de un modelo para que aprenda patrones a partir de datos. El preentrenamiento de modelos grandes requiere miles de GPUs y cientos de millones de dólares. Es diferente a la inferencia, que es el uso del modelo ya entrenado.
Ejemplo
Meta entrenó Llama 3.1 con más de 15,000 GPUs durante semanas. El modelo resultante es el que tú descargas para hacer inferencia local.
FLOPS
Floating Point Operations Per Second: medida de la potencia de cálculo en punto flotante de una GPU. Para IA, los TFLOPS (teraFLOPS) en FP16 o BF16 son la métrica relevante. Sin embargo, para inferencia local, el ancho de banda de memoria importa tanto o más que los FLOPS.
Ejemplo
La RTX 4090 ofrece 82.6 TFLOPS en FP16. Pero para inferencia LLM, su VRAM de 24 GB y bandwidth de 1008 GB/s son aún más importantes.
Ancho de banda de memoria
Velocidad a la que la GPU puede leer y escribir datos en su VRAM, medida en GB/s. Para inferencia LLM, el ancho de banda de memoria es uno de los factores más determinantes de la velocidad de generación de tokens, especialmente a baja latencia.
Ejemplo
La RTX 4090 tiene 1008 GB/s de bandwidth. La RTX 3060 solo 360 GB/s. Esto explica parte de la diferencia de velocidad en inferencia LLM.
Ancho de banda PCIe
Velocidad de transferencia entre la CPU y la GPU a través del bus PCIe. Para inferencia local con GPU, la mayor parte del procesamiento ocurre dentro de la GPU, por lo que el ancho de banda PCIe importa principalmente cuando el modelo no cabe en VRAM y hay que hacer offloading a RAM.
Ejemplo
PCIe 4.0 x16 ofrece ~32 GB/s de bandwidth. Si tu modelo no cabe en VRAM y haces offloading, PCIe más rápido acelera la transferencia de capas.
¿Listo para empezar?
Ahora que conoces los términos clave, descubre qué GPU necesitas para tu caso de uso con nuestras herramientas gratuitas.