Skip to main content
Por Javier Morales · · BigCode

Cómo correr StarCoder 2 7B en local con Ollama

Transparencia: Algunos enlaces de hardware son de afiliado (Amazon). Esto no afecta nuestra evaluación.

Correr StarCoder 2 7B en local es más sencillo de lo que parece. Con Ollama puedes tener este modelo de 7B parámetros funcionando en tu PC en menos de 5 minutos. Solo necesitas 4.5 GB de VRAM para la versión Q4 y conexión a internet para la descarga inicial.

En esta guía cubrimos los requisitos exactos de hardware, el proceso de instalación paso a paso, los comandos necesarios y ejemplos de uso para sacarle el máximo partido a StarCoder 2 7B desde tu propio hardware.

Requisitos de hardware para StarCoder 2 7B

Cuantización VRAM necesaria Notas
FP16 (máxima calidad) 14 GB Calidad de referencia. Solo GPUs con mucha VRAM.
Q8 (alta calidad) 7 GB Recomendado si tienes suficiente VRAM.
Q4 (equilibrado) 4.5 GB (recomendado) El mejor equilibrio calidad/VRAM. Recomendado.
Q2 (mínimo) 2.5 GB Solo si tu VRAM es muy limitada. Pérdida notable.

Sin GPU (solo CPU): StarCoder 2 7B puede correr en CPU con velocidad de aproximadamente 8 tokens/segundo en un Intel Core i7. Funcional pero lento para uso intensivo.

Especificaciones de StarCoder 2 7B

7B
Parámetros
4.5 GB
VRAM Q4
16K
Contexto
BigCode
Proveedor
Programación

Paso 1: Instalar Ollama

Ollama es la forma más sencilla de correr StarCoder 2 7B en local. Disponible para Windows, macOS y Linux.

  1. 1 Descarga Ollama desde ollama.com (Windows, macOS o Linux)
  2. 2 Ejecuta el instalador y sigue las instrucciones (tarda menos de 1 minuto)
  3. 3 Verifica la instalación abriendo una terminal y ejecutando: ollama --version

Paso 2: Ejecutar StarCoder 2 7B

Una vez instalado Ollama, abre una terminal y ejecuta el siguiente comando. Ollama descargará el modelo automáticamente la primera vez:

Terminal Descarga automática
ollama run starcoder2:7b

La primera ejecución descargará el modelo (~4.5 GB en Q4). Las ejecuciones posteriores son instantáneas. Una vez descargado, puedes chatear directamente en la terminal o usar la API local.

Paso 3: Ejemplos de uso de StarCoder 2 7B

Uso con la API REST local

Ollama expone una API en http://localhost:11434 compatible con OpenAI:

curl http://localhost:11434/api/generate -d '{ "model": "starcoder2:7b", "prompt": "Explica qué es la IA local en 2 párrafos", "stream": false }'

Integración con Python (API OpenAI)

Si tienes instalado el cliente OpenAI de Python:

from openai import OpenAI client = OpenAI( base_url="http://localhost:11434/v1", api_key="ollama", ) response = client.chat.completions.create( model="starcoder2:7b", messages=[{"role": "user", "content": "Hola, ¿cómo puedes ayudarme?"}] ) print(response.choices[0].message.content)

GPUs compatibles con StarCoder 2 7B

Estas GPUs tienen suficiente VRAM para correr StarCoder 2 7B en cuantización Q4 (4.5 GB):

¿No ves tu GPU? Consulta todas las páginas de compatibilidad en la página del modelo StarCoder 2 7B.

¿No sabes si tu GPU puede correr StarCoder 2 7B?

Usa nuestra calculadora de VRAM para comprobarlo al instante y ver las opciones de cuantización disponibles.

Comprobar compatibilidad

Guías relacionadas