Skip to main content
Por Javier Morales ·
Reference Library v2.4

Local AI
Glossary

Este glosario de IA local recoge los términos técnicos más importantes para ejecutar modelos de inteligencia artificial en tu propio hardware. Desde conceptos de hardware como VRAM y ancho de banda de memoria, hasta técnicas de software como cuantización, LoRA y RAG.

Cada definición incluye un ejemplo práctico para entender cómo aplica el concepto a tu setup de IA en casa. Consulta también nuestra guía para empezar con IA local y el calculador de VRAM.

Definiciones de términos de IA local

VRAM

La VRAM (Video RAM) es la memoria dedicada de una GPU. En IA local, toda la información del modelo debe caber en VRAM para que la inferencia sea rápida. Si el modelo no cabe, el sistema recurre a RAM del sistema o almacenamiento, lo que reduce la velocidad drásticamente.

Ejemplo

Una GPU con 8 GB VRAM puede correr un modelo 7B cuantizado a Q4 (~4.5 GB), pero no uno de 13B en Q8 (~14 GB).

Cuantización

Técnica que reduce la precisión numérica de los pesos de un modelo para disminuir su uso de VRAM con pérdida mínima de calidad. Los formatos más comunes son Q4 (4 bits), Q8 (8 bits) y FP16 (16 bits). A menor número de bits, menor VRAM necesaria pero también menor calidad.

Ejemplo

Un modelo Llama 3.1 8B ocupa 16 GB en FP16, 8 GB en Q8 y solo 4.5 GB en Q4. Con una GPU de 8 GB puedes usar Q8.

Ver también: VRAM GGUF

Q4 / Q8 / FP16

Niveles de cuantización. Q4 usa 4 bits por peso (menor calidad, menor VRAM), Q8 usa 8 bits (alta calidad, más VRAM) y FP16 usa 16 bits de punto flotante (calidad máxima, mayor VRAM). Para uso local, Q4 y Q8 son los más comunes.

Ejemplo

Si tienes 12 GB VRAM, puedes correr un modelo 7B en Q8 (8 GB) o un modelo 13B en Q4 (8 GB) con similar calidad.

CUDA

Plataforma de computación paralela de NVIDIA que permite aprovechar la GPU para aceleración de IA. La mayoría de frameworks de IA (PyTorch, llama.cpp, Ollama) usan CUDA por defecto en GPUs NVIDIA. Es el estándar de facto para aceleración GPU en IA.

Ejemplo

Cuando Ollama detecta una GPU NVIDIA con CUDA, carga el modelo en VRAM automáticamente para máxima velocidad.

Ver también: ROCm Inferencia

ROCm

Plataforma de computación de AMD equivalente a CUDA para GPUs Radeon. Permite usar GPUs AMD para aceleración de IA. ROCm tiene buen soporte en Linux, pero en Windows el soporte es más limitado y algunos frameworks requieren configuración adicional.

Ejemplo

Una RX 7900 XTX con ROCm en Ubuntu puede correr Ollama con aceleración GPU comparable a una RTX equivalente.

Ver también: CUDA Inferencia

Tokens por segundo (TPS)

Métrica de velocidad de inferencia que mide cuántos tokens genera el modelo por segundo. Un token equivale aproximadamente a 0.75 palabras. Valores típicos: 5–15 TPS es lento pero usable; 20–50 TPS es bueno para uso diario; 80+ TPS es excelente.

Ejemplo

Una RTX 4090 genera Llama 3.1 8B a ~130 TPS en Q4. Una GPU de 8 GB más básica puede generar 30–50 TPS.

Ver también: Inferencia VRAM

Ventana de contexto

Número máximo de tokens que el modelo puede procesar de una vez, incluyendo el historial de conversación y el texto de entrada. Una ventana mayor permite conversaciones más largas y documentos más extensos, pero requiere más VRAM.

Ejemplo

Llama 3.1 tiene una ventana de contexto de 128K tokens, lo que permite analizar documentos de más de 100 páginas en una sola llamada.

Ver también: VRAM

GGUF

Formato de archivo para modelos de lenguaje cuantizados, diseñado para uso eficiente con llama.cpp y Ollama. Reemplazó al formato GGML. Los archivos GGUF contienen el modelo cuantizado, metadatos y configuración en un único archivo portable.

Ejemplo

Al descargar un modelo de Hugging Face para Ollama, busca archivos con extensión .gguf y el nivel de cuantización que necesitas (Q4_K_M es la opción más equilibrada).

Ollama

Herramienta de línea de comandos que simplifica la descarga y ejecución de modelos de lenguaje en local. Gestiona automáticamente los modelos, detecta la GPU disponible y expone una API compatible con OpenAI. Es la forma más sencilla de empezar con IA local.

Ejemplo

Con `ollama run llama3.1:8b` descargas y ejecutas Llama 3.1 8B en segundos, sin configuración adicional.

Ver también: GGUF LM Studio

LM Studio

Aplicación de escritorio con interfaz gráfica para descargar y ejecutar modelos de lenguaje localmente. Ofrece una interfaz de chat similar a ChatGPT, soporte para múltiples modelos y un servidor local compatible con la API de OpenAI.

Ejemplo

LM Studio permite cambiar entre modelos con un clic y ajustar parámetros como temperatura y context length desde la interfaz.

Ver también: Ollama GGUF

Arquitectura Transformer

Arquitectura de red neuronal que usa mecanismos de atención para procesar secuencias de texto. Es la base de casi todos los modelos de lenguaje modernos (GPT, Llama, Mistral, Gemma). Los transformers procesan el texto completo en paralelo, lo que los hace eficientes con GPU.

Ejemplo

Cuando un modelo "atiende" a diferentes partes del texto para entender el contexto, está usando el mecanismo de atención del transformer.

Ver también: Inferencia

Parámetros (miles de millones)

Los parámetros son los valores ajustables que definen el comportamiento del modelo, aprendidos durante el entrenamiento. Se expresan en miles de millones (B). Más parámetros generalmente implica más capacidad pero también más VRAM necesaria.

Ejemplo

Un modelo 7B tiene 7 mil millones de parámetros. Cada uno ocupa entre 0.5 y 2 bytes dependiendo de la cuantización.

Fine-tuning

Proceso de continuar el entrenamiento de un modelo pre-entrenado con datos específicos para adaptarlo a una tarea o dominio concreto. Requiere mucha más VRAM que la inferencia y habitualmente se hace en GPU de alta gama o en la nube.

Ejemplo

Puedes hacer fine-tuning de Llama 3.1 8B con tus propios documentos para crear un asistente especializado en tu empresa.

Ver también: LoRA

LoRA

Low-Rank Adaptation: técnica de fine-tuning eficiente que añade matrices pequeñas al modelo base en lugar de modificar todos los pesos. Permite adaptar modelos grandes con mucha menos VRAM y tiempo que el fine-tuning completo.

Ejemplo

Con LoRA puedes crear un adaptador para que Llama escriba en tu estilo personal, usando una GPU de 8 GB en lugar de una A100.

Ver también: Fine-tuning VRAM

RAG (Retrieval-Augmented Generation)

Técnica que combina la generación de texto de un LLM con búsqueda en una base de documentos externa. En lugar de memorizar el conocimiento, el modelo busca información relevante en tiempo real. Permite usar modelos locales con tus propios documentos sin fine-tuning.

Ejemplo

Con RAG puedes preguntarle a un modelo local sobre tus PDFs, emails o base de código, y el modelo responderá basándose en esos documentos específicos.

Embedding

Representación numérica densa de texto que captura su significado semántico. Los embeddings permiten comparar textos por similitud de significado. Son la base de los sistemas RAG y búsqueda semántica. Los modelos de embedding son mucho más pequeños que los LLMs.

Ejemplo

Para RAG, primero conviertes tus documentos a embeddings con un modelo pequeño (nomic-embed-text), luego buscas los más similares a la pregunta del usuario.

Ver también: Inferencia

Inferencia

Proceso de usar un modelo entrenado para generar texto a partir de una entrada. Es lo que ocurre cuando le haces una pregunta a un modelo local. La inferencia es mucho menos intensiva en recursos que el entrenamiento y puede hacerse en hardware doméstico.

Ejemplo

Cuando escribes un prompt en Ollama y el modelo responde, estás haciendo inferencia. Toda la IA local que haces en casa es inferencia.

Ver también: VRAM

Entrenamiento

Proceso de ajustar los parámetros de un modelo para que aprenda patrones a partir de datos. El preentrenamiento de modelos grandes requiere miles de GPUs y cientos de millones de dólares. Es diferente a la inferencia, que es el uso del modelo ya entrenado.

Ejemplo

Meta entrenó Llama 3.1 con más de 15,000 GPUs durante semanas. El modelo resultante es el que tú descargas para hacer inferencia local.

Ver también: Fine-tuning

FLOPS

Floating Point Operations Per Second: medida de la potencia de cálculo en punto flotante de una GPU. Para IA, los TFLOPS (teraFLOPS) en FP16 o BF16 son la métrica relevante. Sin embargo, para inferencia local, el ancho de banda de memoria importa tanto o más que los FLOPS.

Ejemplo

La RTX 4090 ofrece 82.6 TFLOPS en FP16. Pero para inferencia LLM, su VRAM de 24 GB y bandwidth de 1008 GB/s son aún más importantes.

Ancho de banda de memoria

Velocidad a la que la GPU puede leer y escribir datos en su VRAM, medida en GB/s. Para inferencia LLM, el ancho de banda de memoria es uno de los factores más determinantes de la velocidad de generación de tokens, especialmente a baja latencia.

Ejemplo

La RTX 4090 tiene 1008 GB/s de bandwidth. La RTX 3060 solo 360 GB/s. Esto explica parte de la diferencia de velocidad en inferencia LLM.

Ver también: FLOPS VRAM

Ancho de banda PCIe

Velocidad de transferencia entre la CPU y la GPU a través del bus PCIe. Para inferencia local con GPU, la mayor parte del procesamiento ocurre dentro de la GPU, por lo que el ancho de banda PCIe importa principalmente cuando el modelo no cabe en VRAM y hay que hacer offloading a RAM.

Ejemplo

PCIe 4.0 x16 ofrece ~32 GB/s de bandwidth. Si tu modelo no cabe en VRAM y haces offloading, PCIe más rápido acelera la transferencia de capas.

Ver también: VRAM Inferencia

¿Listo para empezar?

Ahora que conoces los términos clave, descubre qué GPU necesitas para tu caso de uso con nuestras herramientas gratuitas.