Skip to main content
Por Javier Morales · · Google

Cómo correr Gemma 2 9B en local con Ollama

Transparencia: Algunos enlaces de hardware son de afiliado (Amazon). Esto no afecta nuestra evaluación.

Correr Gemma 2 9B en local es más sencillo de lo que parece. Con Ollama puedes tener este modelo de 9B parámetros funcionando en tu PC en menos de 5 minutos. Solo necesitas 5.5 GB de VRAM para la versión Q4 y conexión a internet para la descarga inicial.

En esta guía cubrimos los requisitos exactos de hardware, el proceso de instalación paso a paso, los comandos necesarios y ejemplos de uso para sacarle el máximo partido a Gemma 2 9B desde tu propio hardware.

Requisitos de hardware para Gemma 2 9B

Cuantización VRAM necesaria Notas
FP16 (máxima calidad) 18 GB Calidad de referencia. Solo GPUs con mucha VRAM.
Q8 (alta calidad) 9 GB Recomendado si tienes suficiente VRAM.
Q4 (equilibrado) 5.5 GB (recomendado) El mejor equilibrio calidad/VRAM. Recomendado.
Q2 (mínimo) 3.5 GB Solo si tu VRAM es muy limitada. Pérdida notable.

Especificaciones de Gemma 2 9B

9B
Parámetros
5.5 GB
VRAM Q4
8K
Contexto
Google
Proveedor
Chat general Programación Razonamiento

Paso 1: Instalar Ollama

Ollama es la forma más sencilla de correr Gemma 2 9B en local. Disponible para Windows, macOS y Linux.

  1. 1 Descarga Ollama desde ollama.com (Windows, macOS o Linux)
  2. 2 Ejecuta el instalador y sigue las instrucciones (tarda menos de 1 minuto)
  3. 3 Verifica la instalación abriendo una terminal y ejecutando: ollama --version

Paso 2: Ejecutar Gemma 2 9B

Una vez instalado Ollama, abre una terminal y ejecuta el siguiente comando. Ollama descargará el modelo automáticamente la primera vez:

Terminal Descarga automática
ollama run gemma2:9b

La primera ejecución descargará el modelo (~5.5 GB en Q4). Las ejecuciones posteriores son instantáneas. Una vez descargado, puedes chatear directamente en la terminal o usar la API local.

Paso 3: Ejemplos de uso de Gemma 2 9B

Uso con la API REST local

Ollama expone una API en http://localhost:11434 compatible con OpenAI:

curl http://localhost:11434/api/generate -d '{ "model": "gemma2:9b", "prompt": "Explica qué es la IA local en 2 párrafos", "stream": false }'

Integración con Python (API OpenAI)

Si tienes instalado el cliente OpenAI de Python:

from openai import OpenAI client = OpenAI( base_url="http://localhost:11434/v1", api_key="ollama", ) response = client.chat.completions.create( model="gemma2:9b", messages=[{"role": "user", "content": "Hola, ¿cómo puedes ayudarme?"}] ) print(response.choices[0].message.content)

GPUs compatibles con Gemma 2 9B

Estas GPUs tienen suficiente VRAM para correr Gemma 2 9B en cuantización Q4 (5.5 GB):

¿No ves tu GPU? Consulta todas las páginas de compatibilidad en la página del modelo Gemma 2 9B.

¿No sabes si tu GPU puede correr Gemma 2 9B?

Usa nuestra calculadora de VRAM para comprobarlo al instante y ver las opciones de cuantización disponibles.

Comprobar compatibilidad

Guías relacionadas