Skip to main content
Guía práctica 18 min de lectura ·

Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.

Divulgación: Este artículo contiene enlaces de afiliado de Amazon. Si compras a través de ellos, recibimos una pequeña comisión sin coste adicional para ti.
Alex Chen AI Hardware Specialist
GitHub: github.com/javier-morales-ia

Whisper en local: transcribir audio con tu GPU gratis [2026]

Whisper es la killer app de la IA local que la mayoría no conoce. Transcribe audio ilimitado, gratis, offline y con calidad que compite con servicios de pago. Ni API keys, ni límites de minutos, ni tu audio subido a ningún servidor. Solo tu máquina, tu GPU (o CPU) y un modelo de OpenAI que funciona sin conexión a internet.

Dato rápido: Whisper Large V3 necesita solo 1.5 GB de VRAM — cualquier GPU moderna lo corre sin problemas. ¿No tienes GPU? También funciona en CPU, solo un poco más lento. Revisa los benchmarks CPU para IA local si vas por esa ruta.

TL;DR: • Whisper Large V3 necesita solo 1.5 GB de VRAM — cualquier GPU moderna lo corre sin problemas • Con RTX 3060, 1 hora de audio se transcribe en ~12 minutos; en CPU tarda ~42 minutos • Completamente gratuito, offline y sin límites: ideal para transcripción privada de reuniones y podcasts

1. ¿Qué es Whisper y por qué usarlo en local?

Whisper es un modelo de reconocimiento de voz creado por OpenAI y publicado como open-source en septiembre de 2022. Fue entrenado con 680.000 horas de audio multilingüe y es capaz de transcribir más de 100 idiomas con una precisión que rivaliza con humanos profesionales. La versión Large V3, publicada en noviembre de 2023, mejoró especialmente en idiomas distintos del inglés — incluyendo español.

Pero aquí viene lo importante: Whisper es completamente gratuito y funciona en tu máquina sin conexión a internet. No necesitas cuenta de OpenAI, no necesitas API key, no pagas por minuto de audio. Descargas el modelo una vez (~3 GB para Large V3) y a partir de ahí, cada transcripción es gratis. Para siempre. Sin límites.

Esto lo convierte en una de las aplicaciones más prácticas y accesibles de la IA local. Mientras que correr un LLM de 70B parámetros necesita una GPU de 1.600€, Whisper Large V3 corre perfectamente en una RTX 3060 de menos de 300€ — o incluso en CPU si no tienes GPU dedicada.

¿Por qué local y no cloud?

  • Privacidad total: tu audio nunca sale de tu máquina. Reuniones confidenciales, grabaciones médicas, notas personales — todo se queda en tu disco.
  • Gratis sin límites: servicios como Google Speech-to-Text cobran $0.006/15 segundos (~$1.44/hora). AWS Transcribe cobra $0.024/minuto ($1.44/hora). Con Whisper local, la hora 1 y la hora 10.000 cuestan lo mismo: cero.
  • Sin conexión: funciona en un avión, en el campo, sin WiFi. El modelo está en tu disco duro.
  • Sin rate limits: necesitas transcribir 500 archivos de audio de una empresa — hazlo. Sin esperar, sin cuotas, sin errores 429.
  • Calidad de élite: Whisper Large V3 tiene un WER (Word Error Rate) de ~5% en español — comparable a servicios premium de suscripción alta.

2. Modelos Whisper: cuál elegir según tu hardware

Whisper viene en 5 tamaños. El truco está en que incluso el modelo más grande es increíblemente ligero comparado con los LLMs de texto. Mientras que Llama 3 8B necesita 6+ GB de VRAM, Whisper Large V3 con 1.5B de parámetros solo necesita 1.5 GB. Esto es porque los modelos de audio son fundamentalmente más compactos.

La regla general: usa el modelo más grande que tu hardware permita sin problemas. Si tienes cualquier GPU con 2+ GB de VRAM, ve directo a Whisper Large V3. Si estás en CPU o con una GPU muy antigua, Whisper Small es tu punto dulce.

Modelo Parámetros VRAM Velocidad (RTX 3060) Calidad
Whisper Tiny 39M 0.2 GB 30x tiempo real Básica — OK para audio claro
Whisper Base 74M 0.25 GB 25x tiempo real Decente
Whisper Small 244M 0.4 GB 15x tiempo real Buena — suficiente para la mayoría
Whisper Medium 769M 0.8 GB 8x tiempo real Muy buena
Whisper Large V3 1.5B 1.5 GB 5x tiempo real Mejor — 100+ idiomas

¿Qué significa "5x tiempo real"? Que un archivo de audio de 1 hora se transcribe en ~12 minutos. "15x tiempo real" significa que esa misma hora tarda solo ~4 minutos. Cuanto mayor el número, más rápido va.

Mi recomendación según tu caso

  • Tienes GPU con 2+ GB VRAM: Whisper Large V3. Sin pensarlo. La calidad es notablemente mejor en español y la VRAM que pide es irrisoria.
  • Solo CPU: Whisper Small. Buen equilibrio calidad/velocidad en CPU. Large V3 en CPU funciona pero es 3-4x más lento.
  • Transcripción en tiempo real / streaming: Whisper Small o Medium en GPU. La baja latencia compensa la ligera pérdida de calidad.
  • Procesar miles de archivos en batch: Whisper Large V3 en GPU. La calidad importa cuando procesas a escala y no vas a revisar cada archivo manualmente.

3. Requisitos de hardware

La buena noticia: Whisper es el modelo de IA más accesible que existe. Si tu ordenador tiene menos de 10 años, puede correr Whisper. La pregunta no es "¿puedo?" sino "¿a qué velocidad?".

Mínimo (funciona)

  • CPU: Cualquier procesador moderno (i5/Ryzen 5 o superior)
  • RAM: 8 GB
  • GPU: No necesaria
  • Disco: 3 GB libres (para Large V3)
  • Velocidad: 1 hora de audio ≈ 40 min (Large V3 en CPU i7)

Recomendado (vuela)

  • GPU: RTX 3060 12GB o superior
  • RAM: 16 GB
  • CPU: i7/Ryzen 7 (para preprocesamiento de audio)
  • Disco: SSD (carga de archivos grandes más rápida)
  • Velocidad: 1 hora de audio ≈ 12 min (Large V3 en RTX 3060)

Un detalle importante: Whisper usa muy poca VRAM pero sí se beneficia mucho del ancho de banda de memoria de la GPU. No necesitas una RTX 4060 por su VRAM (8 GB es absurdamente más de lo que Whisper necesita) sino por su velocidad de cómputo CUDA. De hecho, la RTX 3060 con 12 GB rinde casi igual que la RTX 4060 en Whisper — los modelos de audio no escalan con VRAM como los LLMs de texto.

¿No estás seguro de lo que tu GPU aguanta? La calculadora de VRAM te dice exactamente qué modelos caben en tu tarjeta gráfica.

4. Instalación con faster-whisper (Python)

faster-whisper es la implementación de Whisper más popular para Python. Usa CTranslate2 como backend, lo que la hace hasta 4x más rápida que el Whisper original de OpenAI y consume menos memoria. Si trabajas con Python, esta es tu herramienta.

Paso 1: Instalar faster-whisper

pip install faster-whisper

Si tienes GPU NVIDIA con CUDA, faster-whisper la detecta automáticamente. Para CPU, no necesitas hacer nada extra — funciona out of the box.

Paso 2: Tu primera transcripción (5 líneas)

from faster_whisper import WhisperModel

model = WhisperModel("large-v3", device="cuda", compute_type="float16")

segments, info = model.transcribe("mi_audio.mp3", language="es")

for segment in segments:
    print(f"[{segment.start:.1f}s - {segment.end:.1f}s] {segment.text}")

Eso es todo. La primera vez que ejecutes este código, el modelo se descarga automáticamente (~3 GB para Large V3). Las siguientes ejecuciones cargan desde el cache local — instantáneo.

Si estás en CPU, cambia la línea del modelo a:

model = WhisperModel("large-v3", device="cpu", compute_type="int8")

El compute_type="int8" reduce el uso de memoria y mejora la velocidad en CPU. En GPU usamos float16 porque las GPUs NVIDIA tienen unidades de cómputo optimizadas para ese formato.

Paso 3: Exportar a formato SRT (subtítulos)

from faster_whisper import WhisperModel

model = WhisperModel("large-v3", device="cuda", compute_type="float16")
segments, info = model.transcribe("podcast.mp3", language="es")

with open("podcast.srt", "w", encoding="utf-8") as f:
    for i, segment in enumerate(segments, 1):
        start = segment.start
        end = segment.end
        start_h, start_m = int(start // 3600), int((start % 3600) // 60)
        start_s, start_ms = int(start % 60), int((start % 1) * 1000)
        end_h, end_m = int(end // 3600), int((end % 3600) // 60)
        end_s, end_ms = int(end % 60), int((end % 1) * 1000)
        f.write(f"{i}\n")
        f.write(f"{start_h:02d}:{start_m:02d}:{start_s:02d},{start_ms:03d} --> ")
        f.write(f"{end_h:02d}:{end_m:02d}:{end_s:02d},{end_ms:03d}\n")
        f.write(f"{segment.text.strip()}\n\n")

print(f"Subtítulos guardados en podcast.srt")

Este script genera un archivo .srt que puedes importar directamente en cualquier editor de vídeo, YouTube, o reproductor multimedia. Timestamps precisos incluidos.

Opciones avanzadas de faster-whisper

  • Detección automática de idioma: omite language="es" y Whisper detecta el idioma automáticamente.
  • VAD (Voice Activity Detection): añade vad_filter=True para saltar silencios automáticamente. Acelera la transcripción hasta 2x en audio con muchas pausas.
  • Beam size: beam_size=5 (default) busca las 5 mejores transcripciones posibles. Reducir a 1 es 2x más rápido pero menos preciso. Subir a 10 mejora precisión marginalmente con coste de velocidad.
  • Word-level timestamps: añade word_timestamps=True para obtener timestamps por cada palabra individual, no solo por segmento.

5. Instalación con whisper.cpp (CLI)

whisper.cpp es una reimplementación de Whisper en C/C++ puro creada por Georgi Gerganov (el mismo creador de llama.cpp). Es la opción más rápida en CPU y tiene soporte nativo para CUDA, Metal (Mac) y OpenCL. Si prefieres trabajar desde terminal sin depender de Python, esta es tu herramienta.

Paso 1: Compilar whisper.cpp

# Clonar el repositorio
git clone https://github.com/ggerganov/whisper.cpp.git
cd whisper.cpp

# Compilar con soporte CUDA (GPU NVIDIA)
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

# Si NO tienes GPU, compila solo para CPU:
# cmake -B build
# cmake --build build --config Release -j

Paso 2: Descargar el modelo

# Descargar Whisper Large V3 en formato GGML
bash ./models/download-ggml-model.sh large-v3

Paso 3: Transcribir

# Transcribir un archivo WAV
./build/bin/whisper-cli -m models/ggml-large-v3.bin -f mi_audio.wav -l es

# Exportar como SRT (subtítulos)
./build/bin/whisper-cli -m models/ggml-large-v3.bin -f mi_audio.wav -l es -osrt

# Transcripción en tiempo real desde micrófono
./build/bin/whisper-cli -m models/ggml-large-v3.bin -l es --stream

Un detalle: whisper.cpp espera archivos WAV de 16 kHz mono. Si tienes un MP3 o cualquier otro formato, conviértelo primero con ffmpeg:

ffmpeg -i podcast.mp3 -ar 16000 -ac 1 -c:a pcm_s16le podcast.wav

whisper.cpp vs faster-whisper: whisper.cpp es generalmente más rápido en CPU puro (C++ compilado vs Python). En GPU, faster-whisper con CTranslate2 es comparable o ligeramente más rápido gracias a su optimización de batching. Si tu workflow es Python, usa faster-whisper. Si es CLI/bash, usa whisper.cpp.

6. Usando Whisper con Ollama (método más simple)

Si ya tienes Ollama instalado, puedes usarlo para transcribir audio de forma extremadamente sencilla. Un solo comando y listo.

Instalación y uso

# Si no tienes Ollama instalado:
curl -fsSL https://ollama.com/install.sh | sh

# Descargar y ejecutar Whisper
ollama run whisper

Ollama detecta tu GPU automáticamente y optimiza el modelo para tu hardware. La ventaja de este método es la simplicidad absoluta: no necesitas compilar nada, no necesitas Python, no necesitas configurar CUDA manualmente. La desventaja es que tienes menos control sobre parámetros avanzados como VAD, beam size o formatos de salida.

Para más detalle sobre Ollama vs otras herramientas de IA local, revisa nuestra comparativa Ollama vs LM Studio.

¿Cuándo elegir Ollama para Whisper?

  • Transcripciones puntuales: necesitas transcribir algo rápido, sin montar un pipeline.
  • Ya usas Ollama: si ya lo tienes para LLMs, añadir Whisper es un comando.
  • No quieres tocar Python ni compilar: Ollama es la ruta con menos fricción posible.

6b. WhisperX: transcripción con identificación de hablantes

WhisperX es una extensión de Whisper que añade tres funcionalidades clave que el modelo original no tiene: alineación forzada de timestamps (mucho más precisos), Voice Activity Detection integrada, y lo más importante — speaker diarization. Es decir, identifica quién habla en cada momento.

# Instalar WhisperX
pip install whisperx

# Uso básico con diarization
import whisperx

model = whisperx.load_model("large-v3", device="cuda", compute_type="float16")
audio = whisperx.load_audio("reunion.mp3")
result = model.transcribe(audio, language="es")

# Alinear timestamps con precisión de palabra
model_a, metadata = whisperx.load_align_model(language_code="es", device="cuda")
result = whisperx.align(result["segments"], model_a, metadata, audio, device="cuda")

# Identificar hablantes (requiere token de HuggingFace)
diarize_model = whisperx.DiarizationPipeline(use_auth_token="TU_HF_TOKEN")
diarize_segments = diarize_model(audio)
result = whisperx.assign_word_speakers(diarize_segments, result)

for segment in result["segments"]:
    speaker = segment.get("speaker", "???")
    print(f"[{speaker}] {segment['text']}")

El resultado es algo así:

[SPEAKER_00] Buenos días, hoy vamos a revisar el informe trimestral.
[SPEAKER_01] Perfecto. Yo tengo los números de ventas listos.
[SPEAKER_00] Genial. Empecemos por la región norte.
[SPEAKER_02] Antes de eso, quería comentar un tema de presupuesto.

WhisperX es la opción ideal para transcribir reuniones, entrevistas, podcasts con múltiples participantes, o cualquier audio donde saber quién dijo qué es fundamental. La diarization necesita un poco más de VRAM (~2-3 GB adicionales), pero sigue siendo perfectamente manejable con una GPU de gama media.

7. Benchmarks: velocidad de Whisper por GPU

Estos son datos reales con Whisper Large V3, audio en español, archivo de 1 hora, faster-whisper con float16 y beam_size=5. El RTF (Real-Time Factor) indica qué fracción del tiempo real tarda el procesamiento: RTF 0.2 significa que 1 hora de audio se procesa en 0.2 horas (12 minutos).

GPU / CPU RTF (Whisper Large V3) 1 hora de audio → Precio aprox.
RTX 4090 0.03 ~2 min ~1.600€
RTX 4070 Ti Super 0.15 ~9 min ~700€
RTX 4060 0.2 ~12 min ~300€
RTX 3060 12GB 0.2 ~12 min <300€ ← mejor valor
CPU i7-12700 0.7 ~42 min

La RTX 3060 es la reina del precio/rendimiento para Whisper. Iguala a la RTX 4060 en velocidad de transcripción y cuesta lo mismo o menos. Para Whisper no necesitas arquitectura Ada — Ampere ya sobra de largo. Esto es distinto a los LLMs de texto, donde la 4060 tiene ventaja por su mayor ancho de banda.

Con Whisper Small en vez de Large V3, todas las GPUs son aún más rápidas. En la RTX 3060, 1 hora de audio se transcribe en ~4 minutos con el modelo Small. Para uso casual (notas de voz, audios de WhatsApp, podcasts cortos), Small es más que suficiente y casi instantáneo.

Puedes explorar más datos de rendimiento por GPU en nuestro Model Browser, donde puedes filtrar modelos por tamaño y ver benchmarks por tarjeta gráfica.

8. Casos de uso reales

Whisper local no es un juguete — es una herramienta de productividad seria. Estos son los casos donde más brilla:

Transcribir podcasts completos

Un podcast de 2 horas se transcribe en ~24 minutos con Large V3 en una RTX 3060. El resultado incluye timestamps precisos, lo que permite crear show notes, buscar momentos específicos, o generar subtítulos para publicar en YouTube. Algunos creadores procesan su backlog completo (100+ episodios) en un fin de semana sin pagar un céntimo.

Actas de reuniones automáticas

Graba tu reunión de Zoom/Teams/Meet, pásala por WhisperX con diarization y obtienes una transcripción con nombres de hablantes. Conecta la salida a un LLM local (Llama 3, Mistral) para generar un resumen automático con action items. Todo en tu máquina, nada en la nube. Ideal para reuniones confidenciales donde usar Otter.ai o similares no es opción.

Subtítulos para YouTube

Los subtítulos automáticos de YouTube son mediocres en español. Whisper Large V3 genera subtítulos SRT con timestamps precisos que puedes subir directamente a YouTube Studio. La calidad es notablemente mejor, especialmente con vocabulario técnico, nombres propios y acentos regionales.

Notas de voz a texto

¿Tienes 200 notas de voz en el teléfono que nunca vas a escuchar? Pásalas todas por Whisper Small y tendrás texto buscable en minutos. Un script de 10 líneas en Python procesa una carpeta entera de archivos de audio y genera un archivo de texto por cada uno. Búsqueda instantánea sobre meses de notas de voz.

Transcripción de entrevistas de investigación

Investigadores, periodistas y documentalistas procesan horas de entrevistas. Los servicios de transcripción profesional cobran 1-2€ por minuto de audio. Un proyecto de investigación con 50 horas de entrevistas son 3.000-6.000€ solo en transcripción. Con Whisper local: gratis. Y sin enviar datos sensibles de entrevistados a terceros.

Accesibilidad: audio a texto para personas sordas

Whisper puede generar subtítulos en tiempo real para llamadas, vídeos o cualquier fuente de audio. Con whisper.cpp en modo streaming y una GPU básica, la latencia es lo bastante baja para ser útil en conversaciones. Un caso de uso donde la IA local marca una diferencia real en la vida de las personas.

9. Whisper local vs servicios cloud: comparativa de costes

Los servicios de transcripción cloud cobran por minuto de audio procesado. Parece barato hasta que haces las cuentas con volúmenes reales. Aquí los números:

Servicio Coste / hora de audio 100 horas 1.000 horas
Google Speech-to-Text ~$1.44 Entrada $1.440
AWS Transcribe ~$1.44 Entrada $1.440
OpenAI Whisper API ~$0.36 Muy bajo Gasto anual medio
Otter.ai Pro Suscripcion mensual media (limite 1200 min) Suscripcion anual media Imposible (límite mensual)
Whisper Local (RTX 3060) $0.00 $0.00 $0.00*

* El coste real de Whisper local es la electricidad: una RTX 3060 consume ~170W bajo carga. Transcribir 1.000 horas de audio (~200 horas de GPU) cuesta ~34 kWh ≈ 5-8€ en electricidad en España. El coste de hardware (la GPU) lo amortizas también con otros usos: LLMs, generación de imágenes, gaming.

¿Cuándo SÍ tiene sentido cloud?

  • Volumen bajo + prisa: si necesitas transcribir 1 archivo de 5 minutos una vez al mes, configurar Whisper local no merece el esfuerzo.
  • No tienes hardware: si tu ordenador es un Chromebook o un portátil de 2015, cloud es tu única opción realista.
  • Necesitas speaker diarization comercial: servicios como AssemblyAI tienen diarization más robusta que WhisperX para audio con mucho ruido o muchos hablantes simultáneos.

Para todo lo demás — Whisper local. El breakeven está alrededor de 50 horas de transcripción. Si vas a superar eso en tu vida, la inversión en configurarlo se paga sola.

10. Preguntas frecuentes

¿Necesito GPU para usar Whisper en local?

No. Whisper funciona en CPU sin problemas. La diferencia es solo la velocidad. Con un i7 y Whisper Large V3, 1 hora de audio tarda ~42 minutos. Con una RTX 3060, esos mismos 60 minutos de audio se procesan en ~12 minutos. Para archivos cortos (notas de voz de 2-5 minutos), la diferencia en CPU vs GPU es de segundos — apenas relevante. Si no tienes GPU, revisa nuestra guía de IA local sin GPU.

¿Cuánta VRAM necesita Whisper Large V3?

Solo 1.5 GB. Es absurdamente poco comparado con los LLMs de texto. Una GTX 1050 Ti de 4 GB sobra para correr el modelo más grande de Whisper. Esto significa que si tienes cualquier GPU discreta de los últimos 8 años, puedes correr Whisper Large V3 con GPU acceleration. Puedes verificar tu GPU en nuestra calculadora de VRAM.

¿Es Whisper local tan bueno como los servicios de pago?

Whisper Large V3 tiene un WER (Word Error Rate) de ~5% en español, comparable a servicios premium. Donde puede tener problemas es con audio de muy baja calidad (mucho ruido, múltiples personas hablando a la vez sin micrófono dedicado). Para audio limpio — reuniones por videollamada, podcasts, grabaciones con micrófono decente — la calidad es excelente. Para contenido con vocabulario técnico específico, Whisper suele ser mejor que los servicios genéricos porque fue entrenado con un corpus enorme y diverso.

¿Qué herramienta es mejor: faster-whisper, whisper.cpp u Ollama?

Depende de tu perfil. faster-whisper para Python developers (pip install, 5 líneas y funciona). whisper.cpp para CLI puro y máximo rendimiento en CPU. Ollama para la instalación más simple posible (un comando). WhisperX cuando necesitas saber quién dijo qué (speaker diarization). El modelo subyacente es el mismo — la diferencia es la interfaz y las funcionalidades extra.

¿Puedo transcribir en tiempo real con Whisper?

Sí. whisper.cpp tiene modo streaming nativo (--stream). Con Whisper Small en una GPU, la latencia es lo bastante baja para transcripción en vivo. Para Whisper Large V3 en tiempo real necesitas una GPU rápida (RTX 3060 o superior). En CPU, solo los modelos Tiny y Base son viables para streaming en tiempo real.

11. Hardware recomendado para Whisper local

Whisper no necesita hardware caro, pero una buena GPU marca la diferencia entre "funciona" y "vuela". Estas son las opciones con mejor relación rendimiento/precio para transcripción:

Affiliate disclosure: esta comparativa incluye enlaces de afiliado a Amazon. Si compras desde ellos, RunAIatHome puede recibir una comisión sin coste extra para ti.

Mejor GPU para Whisper local: comparativa rápida

Whisper escala muy bien con GPU. Estas tres opciones separan claramente el caso más rentable, la alternativa eficiente y la bestia premium para lotes grandes.

Ganador recomendado

RTX 3060 12GB

Es la GPU con mejor relación rendimiento/precio para Whisper: acelera Large V3 de forma clara, sigue siendo barata y no exige una fuente ni una caja especiales.

GPU Mejor para Rendimiento Rango CTA
RTX 3060 12GB Whisper Large V3 con presupuesto contenido 1h audio en ~12 min Budget Ver precio en Amazon
RTX 4060 8GB Equipos compactos y bajo consumo 1h audio en ~12 min Gama media Ver precio en Amazon
RTX 4090 24GB Transcripción masiva y colas largas 1h audio en ~2 min Premium Ver precio en Amazon
Mejor valor

RTX 3060 12GB

1h audio → ~12 min

<300€ · 170W

Ver precio en Amazon
Eficiente

RTX 4060 8GB

1h audio → ~12 min

~300€ · 115W

Ver precio en Amazon
Premium

RTX 4090 24GB

1h audio → ~2 min

~1.600€ · 450W

Ver precio en Amazon

Bonus: un buen micrófono marca la diferencia

El modelo más potente del mundo no puede compensar un audio grabado con el micrófono del portátil desde 3 metros. La calidad de la transcripción depende directamente de la calidad del audio de entrada. Un micrófono USB de condensador de 30-50€ mejora dramáticamente los resultados de Whisper — especialmente para el modelo Small o Medium.

Hardware recomendado para Whisper local

GPUs verificadas para transcripción con Whisper — actualizado en 2026.

NVIDIA GeForce RTX 3060 12GB

€269

budget Amazon Prime

NVIDIA GeForce RTX 3060 12GB

4.8 (1,400 reviews)

Pros

  • Whisper Large V3 a ~5× tiempo real
  • 12 GB VRAM — holgura para batches
  • Mejor precio para transcripción

Cons

  • Menos velocidad vs Ada en inferencia
Ver en Amazon
NVIDIA GeForce RTX 4060 8GB

€299

mid Amazon Prime

NVIDIA GeForce RTX 4060 8GB

4.6 (980 reviews)

Pros

  • Whisper Large V3 a ~5× tiempo real
  • Bajo consumo — ideal 24/7
  • Ada Lovelace eficiencia máxima

Cons

  • 8 GB — justo para batches grandes
Ver en Amazon
NVIDIA GeForce RTX 4060 Ti 8GB

€399

mid Amazon Prime

NVIDIA GeForce RTX 4060 Ti 8GB

4.7 (650 reviews)

Pros

  • Whisper Large V3 con margen
  • Mayor bandwidth que RTX 4060
  • Ideal para transcripción + LLMs

Cons

  • Precio algo superior a RTX 4060
Ver en Amazon
NVIDIA GeForce RTX 4090 24GB

€1799

pro Amazon Prime

NVIDIA GeForce RTX 4090 24GB

4.8 (1,200 reviews)

Pros

  • Whisper Large V3 a ~30× tiempo real
  • 24 GB — batches masivos sin problema
  • Transcripción de 1h en ~2 min

Cons

  • Overkill salvo uso profesional masivo
Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

12. Conclusión: Whisper es la killer app de la IA local

Si alguien te pregunta "¿para qué sirve la IA local en la vida real?", la respuesta más clara y directa es Whisper. Transcribir audio ilimitado, gratis, offline, con calidad profesional, desde tu propia máquina. Sin API keys, sin límites de minutos, sin subir tus grabaciones a servidores de terceros.

Los números hablan solos: Whisper Large V3 necesita solo 1.5 GB de VRAM. Cualquier GPU de los últimos 8 años lo corre. Una RTX 3060 de menos de 300€ transcribe 1 hora de audio en 12 minutos. Incluso sin GPU, un procesador i7 lo hace en ~42 minutos. Y el modelo Small (0.4 GB de VRAM) es suficientemente bueno para la mayoría de casos de uso cotidianos.

Si transcribes audio con cierta frecuencia — ya sea para trabajo, estudios, creación de contenido o accesibilidad — configurar Whisper en tu máquina es una de las mejores inversiones de tiempo que puedes hacer. 15 minutos de setup, beneficio de por vida.

¿Tu GPU soporta Whisper Large V3?

Casi seguro que sí — solo necesitas 1.5 GB de VRAM. Pero si quieres confirmar o ver cuánto margen tienes para correr Whisper junto a un LLM de texto, la calculadora de VRAM te da los números exactos.

Verificar mi GPU ahora →

Fuentes

RTX 4060 — GPU recomendada

Ver mejor precio