Por Javier Morales · Actualizado: 31 de marzo de 2026 · Google

Cómo correr Gemma 2 9B en local con Ollama

Transparencia: Algunos enlaces de hardware son de afiliado (Amazon). Esto no afecta nuestra evaluación.

Correr Gemma 2 9B en local es más sencillo de lo que parece. Con Ollama puedes tener este modelo de 9B parámetros funcionando en tu PC en menos de 5 minutos. Solo necesitas 5.5 GB de VRAM para la versión Q4 y conexión a internet para la descarga inicial.

En esta guía cubrimos los requisitos exactos de hardware, el proceso de instalación paso a paso, los comandos necesarios y ejemplos de uso para sacarle el máximo partido a Gemma 2 9B desde tu propio hardware.

Requisitos de hardware para Gemma 2 9B

Cuantización	VRAM necesaria	Notas
FP16 (máxima calidad)	18 GB	Calidad de referencia. Solo GPUs con mucha VRAM.
Q8 (alta calidad)	9 GB	Recomendado si tienes suficiente VRAM.
Q4 (equilibrado)	5.5 GB (recomendado)	El mejor equilibrio calidad/VRAM. Recomendado.
Q2 (mínimo)	3.5 GB	Solo si tu VRAM es muy limitada. Pérdida notable.

Especificaciones de Gemma 2 9B

Parámetros

5.5 GB

VRAM Q4

Contexto

Google

Proveedor

Chat general Programación Razonamiento

Paso 1: Instalar Ollama

Ollama es la forma más sencilla de correr Gemma 2 9B en local. Disponible para Windows, macOS y Linux.

1 Descarga Ollama desde ollama.com (Windows, macOS o Linux)
2 Ejecuta el instalador y sigue las instrucciones (tarda menos de 1 minuto)
3 Verifica la instalación abriendo una terminal y ejecutando: ollama --version

Paso 2: Ejecutar Gemma 2 9B

Una vez instalado Ollama, abre una terminal y ejecuta el siguiente comando. Ollama descargará el modelo automáticamente la primera vez:

Terminal Descarga automática


ollama run gemma2:9b

La primera ejecución descargará el modelo (~5.5 GB en Q4). Las ejecuciones posteriores son instantáneas. Una vez descargado, puedes chatear directamente en la terminal o usar la API local.

Paso 3: Ejemplos de uso de Gemma 2 9B

Uso con la API REST local

Ollama expone una API en http://localhost:11434 compatible con OpenAI:

curl http://localhost:11434/api/generate -d '{
  "model": "gemma2:9b",
  "prompt": "Explica qué es la IA local en 2 párrafos",
  "stream": false
}'

Integración con Python (API OpenAI)

Si tienes instalado el cliente OpenAI de Python:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",
)

response = client.chat.completions.create(
    model="gemma2:9b",
    messages=[{"role": "user", "content": "Hola, ¿cómo puedes ayudarme?"}]
)
print(response.choices[0].message.content)