¿Es Whisper local tan bueno como los servicios de transcripción de pago?

Whisper Large V3 iguala o supera a la mayoría de servicios cloud en calidad de transcripción, especialmente en español. Soporta más de 100 idiomas, detecta el idioma automáticamente y maneja acentos regionales bien. La diferencia principal con servicios como Google Speech-to-Text es que Whisper es completamente gratis, no tiene límites de minutos y funciona sin conexión a internet. Para audio con mucho ruido de fondo, los servicios especializados pueden tener ventaja gracias a modelos de preprocesamiento.

¿Qué herramienta es mejor para Whisper local: faster-whisper, whisper.cpp u Ollama?

Depende de tu perfil. faster-whisper es la mejor opción para Python developers: se instala con pip, es 4x más rápido que el Whisper original de OpenAI y tiene una API limpia. whisper.cpp es ideal si prefieres CLI puro y quieres máximo rendimiento en CPU (compilado en C++). Ollama es la opción más simple: un solo comando para descargar y ejecutar, pero menos configurable. Para proyectos profesionales con speaker diarization, WhisperX es la opción más completa.

¿Puedo transcribir en tiempo real con Whisper local?

Sí, con Whisper Small o Medium en una GPU moderna puedes procesar audio más rápido que en tiempo real (15x y 8x respectivamente en una RTX 3060). Esto permite transcripción en streaming. Herramientas como whisper.cpp tienen modo streaming integrado. Para transcripción en tiempo real de reuniones, el modelo Small ofrece el mejor equilibrio entre latencia y calidad.

Guía práctica 18 min de lectura · Marzo 2026

Por el equipo editorial de RunAIatHome. Benchmarks, compatibilidad y guias basadas en pruebas locales.

Divulgación: Este artículo contiene enlaces de afiliado de Amazon. Si compras a través de ellos, recibimos una pequeña comisión sin coste adicional para ti.

Alex Chen AI Hardware Specialist Actualizado 2026-03-21

GitHub: github.com/javier-morales-ia

Whisper en local: transcribir audio con tu GPU gratis [2026]

Q: ¿Necesito GPU para usar Whisper en local?

No, Whisper funciona perfectamente en CPU. La diferencia es la velocidad: con una RTX 3060 y Whisper Large V3, transcribes 1 hora de audio en ~12 minutos. Con un i7 en CPU, el mismo archivo tarda ~42 minutos. Para archivos cortos (menos de 10 minutos), la diferencia no es tan relevante. Whisper Small en CPU es la opción ideal si no tienes GPU: calidad buena y velocidad aceptable.

Q: ¿Cuánta VRAM necesita Whisper?

Whisper es sorprendentemente ligero. Whisper Tiny necesita solo 0.2 GB de VRAM, Small usa 0.4 GB y el modelo más grande, Large V3 con 1.5B de parámetros, solo necesita 1.5 GB de VRAM. Esto significa que cualquier GPU moderna con al menos 2 GB de VRAM puede correr el mejor modelo de Whisper. Incluso una GTX 1050 Ti de 4 GB sobra.

Whisper es la killer app de la IA local que la mayoría no conoce. Transcribe audio ilimitado, gratis, offline y con calidad que compite con servicios de pago. Ni API keys, ni límites de minutos, ni tu audio subido a ningún servidor. Solo tu máquina, tu GPU (o CPU) y un modelo de OpenAI que funciona sin conexión a internet.

Dato rápido: Whisper Large V3 necesita solo 1.5 GB de VRAM — cualquier GPU moderna lo corre sin problemas. ¿No tienes GPU? También funciona en CPU, solo un poco más lento. Revisa los benchmarks CPU para IA local si vas por esa ruta.

TL;DR: • Whisper Large V3 necesita solo 1.5 GB de VRAM — cualquier GPU moderna lo corre sin problemas • Con RTX 3060, 1 hora de audio se transcribe en ~12 minutos; en CPU tarda ~42 minutos • Completamente gratuito, offline y sin límites: ideal para transcripción privada de reuniones y podcasts

1. ¿Qué es Whisper y por qué usarlo en local?

Whisper es un modelo de reconocimiento de voz creado por OpenAI y publicado como open-source en septiembre de 2022. Fue entrenado con 680.000 horas de audio multilingüe y es capaz de transcribir más de 100 idiomas con una precisión que rivaliza con humanos profesionales. La versión Large V3, publicada en noviembre de 2023, mejoró especialmente en idiomas distintos del inglés — incluyendo español.

Pero aquí viene lo importante: Whisper es completamente gratuito y funciona en tu máquina sin conexión a internet. No necesitas cuenta de OpenAI, no necesitas API key, no pagas por minuto de audio. Descargas el modelo una vez (~3 GB para Large V3) y a partir de ahí, cada transcripción es gratis. Para siempre. Sin límites.

Esto lo convierte en una de las aplicaciones más prácticas y accesibles de la IA local. Mientras que correr un LLM de 70B parámetros necesita una GPU de 1.600€, Whisper Large V3 corre perfectamente en una RTX 3060 de menos de 300€ — o incluso en CPU si no tienes GPU dedicada.

¿Por qué local y no cloud?

• Privacidad total: tu audio nunca sale de tu máquina. Reuniones confidenciales, grabaciones médicas, notas personales — todo se queda en tu disco.
• Gratis sin límites: servicios como Google Speech-to-Text cobran $0.006/15 segundos (~$1.44/hora). AWS Transcribe cobra $0.024/minuto ($1.44/hora). Con Whisper local, la hora 1 y la hora 10.000 cuestan lo mismo: cero.
• Sin conexión: funciona en un avión, en el campo, sin WiFi. El modelo está en tu disco duro.
• Sin rate limits: necesitas transcribir 500 archivos de audio de una empresa — hazlo. Sin esperar, sin cuotas, sin errores 429.
• Calidad de élite: Whisper Large V3 tiene un WER (Word Error Rate) de ~5% en español — comparable a servicios premium de suscripción alta.

2. Modelos Whisper: cuál elegir según tu hardware

Whisper viene en 5 tamaños. El truco está en que incluso el modelo más grande es increíblemente ligero comparado con los LLMs de texto. Mientras que Llama 3 8B necesita 6+ GB de VRAM, Whisper Large V3 con 1.5B de parámetros solo necesita 1.5 GB. Esto es porque los modelos de audio son fundamentalmente más compactos.

La regla general: usa el modelo más grande que tu hardware permita sin problemas. Si tienes cualquier GPU con 2+ GB de VRAM, ve directo a Whisper Large V3. Si estás en CPU o con una GPU muy antigua, Whisper Small es tu punto dulce.

Modelo	Parámetros	VRAM	Velocidad (RTX 3060)	Calidad
Whisper Tiny	39M	0.2 GB	30x tiempo real	Básica — OK para audio claro
Whisper Base	74M	0.25 GB	25x tiempo real	Decente
Whisper Small	244M	0.4 GB	15x tiempo real	Buena — suficiente para la mayoría
Whisper Medium	769M	0.8 GB	8x tiempo real	Muy buena
Whisper Large V3	1.5B	1.5 GB	5x tiempo real	Mejor — 100+ idiomas

¿Qué significa "5x tiempo real"? Que un archivo de audio de 1 hora se transcribe en ~12 minutos. "15x tiempo real" significa que esa misma hora tarda solo ~4 minutos. Cuanto mayor el número, más rápido va.

Mi recomendación según tu caso

• Tienes GPU con 2+ GB VRAM: Whisper Large V3. Sin pensarlo. La calidad es notablemente mejor en español y la VRAM que pide es irrisoria.
• Solo CPU: Whisper Small. Buen equilibrio calidad/velocidad en CPU. Large V3 en CPU funciona pero es 3-4x más lento.
• Transcripción en tiempo real / streaming: Whisper Small o Medium en GPU. La baja latencia compensa la ligera pérdida de calidad.
• Procesar miles de archivos en batch: Whisper Large V3 en GPU. La calidad importa cuando procesas a escala y no vas a revisar cada archivo manualmente.

3. Requisitos de hardware

La buena noticia: Whisper es el modelo de IA más accesible que existe. Si tu ordenador tiene menos de 10 años, puede correr Whisper. La pregunta no es "¿puedo?" sino "¿a qué velocidad?".

Mínimo (funciona)

• CPU: Cualquier procesador moderno (i5/Ryzen 5 o superior)
• RAM: 8 GB
• GPU: No necesaria
• Disco: 3 GB libres (para Large V3)
• Velocidad: 1 hora de audio ≈ 40 min (Large V3 en CPU i7)

4. Instalación con faster-whisper (Python)

faster-whisper es la implementación de Whisper más popular para Python. Usa CTranslate2 como backend, lo que la hace hasta 4x más rápida que el Whisper original de OpenAI y consume menos memoria. Si trabajas con Python, esta es tu herramienta.

Paso 1: Instalar faster-whisper

pip install faster-whisper

Si tienes GPU NVIDIA con CUDA, faster-whisper la detecta automáticamente. Para CPU, no necesitas hacer nada extra — funciona out of the box.

Paso 2: Tu primera transcripción (5 líneas)

from faster_whisper import WhisperModel

model = WhisperModel("large-v3", device="cuda", compute_type="float16")

segments, info = model.transcribe("mi_audio.mp3", language="es")

for segment in segments:
    print(f"[{segment.start:.1f}s - {segment.end:.1f}s] {segment.text}")

Eso es todo. La primera vez que ejecutes este código, el modelo se descarga automáticamente (~3 GB para Large V3). Las siguientes ejecuciones cargan desde el cache local — instantáneo.

Si estás en CPU, cambia la línea del modelo a:

model = WhisperModel("large-v3", device="cpu", compute_type="int8")

El compute_type="int8" reduce el uso de memoria y mejora la velocidad en CPU. En GPU usamos float16 porque las GPUs NVIDIA tienen unidades de cómputo optimizadas para ese formato.

Paso 3: Exportar a formato SRT (subtítulos)

from faster_whisper import WhisperModel

model = WhisperModel("large-v3", device="cuda", compute_type="float16")
segments, info = model.transcribe("podcast.mp3", language="es")

with open("podcast.srt", "w", encoding="utf-8") as f:
    for i, segment in enumerate(segments, 1):
        start = segment.start
        end = segment.end
        start_h, start_m = int(start // 3600), int((start % 3600) // 60)
        start_s, start_ms = int(start % 60), int((start % 1) * 1000)
        end_h, end_m = int(end // 3600), int((end % 3600) // 60)
        end_s, end_ms = int(end % 60), int((end % 1) * 1000)
        f.write(f"{i}\n")
        f.write(f"{start_h:02d}:{start_m:02d}:{start_s:02d},{start_ms:03d} --> ")
        f.write(f"{end_h:02d}:{end_m:02d}:{end_s:02d},{end_ms:03d}\n")
        f.write(f"{segment.text.strip()}\n\n")

print(f"Subtítulos guardados en podcast.srt")

Este script genera un archivo .srt que puedes importar directamente en cualquier editor de vídeo, YouTube, o reproductor multimedia. Timestamps precisos incluidos.

Opciones avanzadas de faster-whisper

• Detección automática de idioma: omite language="es" y Whisper detecta el idioma automáticamente.
• VAD (Voice Activity Detection): añade vad_filter=True para saltar silencios automáticamente. Acelera la transcripción hasta 2x en audio con muchas pausas.
• Beam size: beam_size=5 (default) busca las 5 mejores transcripciones posibles. Reducir a 1 es 2x más rápido pero menos preciso. Subir a 10 mejora precisión marginalmente con coste de velocidad.
• Word-level timestamps: añade word_timestamps=True para obtener timestamps por cada palabra individual, no solo por segmento.

5. Instalación con whisper.cpp (CLI)

whisper.cpp es una reimplementación de Whisper en C/C++ puro creada por Georgi Gerganov (el mismo creador de llama.cpp). Es la opción más rápida en CPU y tiene soporte nativo para CUDA, Metal (Mac) y OpenCL. Si prefieres trabajar desde terminal sin depender de Python, esta es tu herramienta.

Paso 1: Compilar whisper.cpp

# Clonar el repositorio
git clone https://github.com/ggerganov/whisper.cpp.git
cd whisper.cpp

# Compilar con soporte CUDA (GPU NVIDIA)
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j

# Si NO tienes GPU, compila solo para CPU:
# cmake -B build
# cmake --build build --config Release -j

Paso 2: Descargar el modelo

# Descargar Whisper Large V3 en formato GGML
bash ./models/download-ggml-model.sh large-v3

Paso 3: Transcribir

# Transcribir un archivo WAV
./build/bin/whisper-cli -m models/ggml-large-v3.bin -f mi_audio.wav -l es

# Exportar como SRT (subtítulos)
./build/bin/whisper-cli -m models/ggml-large-v3.bin -f mi_audio.wav -l es -osrt

# Transcripción en tiempo real desde micrófono
./build/bin/whisper-cli -m models/ggml-large-v3.bin -l es --stream

Un detalle: whisper.cpp espera archivos WAV de 16 kHz mono. Si tienes un MP3 o cualquier otro formato, conviértelo primero con ffmpeg:

ffmpeg -i podcast.mp3 -ar 16000 -ac 1 -c:a pcm_s16le podcast.wav

whisper.cpp vs faster-whisper: whisper.cpp es generalmente más rápido en CPU puro (C++ compilado vs Python). En GPU, faster-whisper con CTranslate2 es comparable o ligeramente más rápido gracias a su optimización de batching. Si tu workflow es Python, usa faster-whisper. Si es CLI/bash, usa whisper.cpp.

6. Usando Whisper con Ollama (método más simple)

Si ya tienes Ollama instalado, puedes usarlo para transcribir audio de forma extremadamente sencilla. Un solo comando y listo.

Instalación y uso

# Si no tienes Ollama instalado:
curl -fsSL https://ollama.com/install.sh | sh

# Descargar y ejecutar Whisper
ollama run whisper

Ollama detecta tu GPU automáticamente y optimiza el modelo para tu hardware. La ventaja de este método es la simplicidad absoluta: no necesitas compilar nada, no necesitas Python, no necesitas configurar CUDA manualmente. La desventaja es que tienes menos control sobre parámetros avanzados como VAD, beam size o formatos de salida.

Para más detalle sobre Ollama vs otras herramientas de IA local, revisa nuestra comparativa Ollama vs LM Studio.

¿Cuándo elegir Ollama para Whisper?

• Transcripciones puntuales: necesitas transcribir algo rápido, sin montar un pipeline.
• Ya usas Ollama: si ya lo tienes para LLMs, añadir Whisper es un comando.
• No quieres tocar Python ni compilar: Ollama es la ruta con menos fricción posible.

6b. WhisperX: transcripción con identificación de hablantes

WhisperX es una extensión de Whisper que añade tres funcionalidades clave que el modelo original no tiene: alineación forzada de timestamps (mucho más precisos), Voice Activity Detection integrada, y lo más importante — speaker diarization. Es decir, identifica quién habla en cada momento.

# Instalar WhisperX
pip install whisperx

# Uso básico con diarization
import whisperx

model = whisperx.load_model("large-v3", device="cuda", compute_type="float16")
audio = whisperx.load_audio("reunion.mp3")
result = model.transcribe(audio, language="es")

# Alinear timestamps con precisión de palabra
model_a, metadata = whisperx.load_align_model(language_code="es", device="cuda")
result = whisperx.align(result["segments"], model_a, metadata, audio, device="cuda")

# Identificar hablantes (requiere token de HuggingFace)
diarize_model = whisperx.DiarizationPipeline(use_auth_token="TU_HF_TOKEN")
diarize_segments = diarize_model(audio)
result = whisperx.assign_word_speakers(diarize_segments, result)

for segment in result["segments"]:
    speaker = segment.get("speaker", "???")
    print(f"[{speaker}] {segment['text']}")

El resultado es algo así:

[SPEAKER_00] Buenos días, hoy vamos a revisar el informe trimestral.
[SPEAKER_01] Perfecto. Yo tengo los números de ventas listos.
[SPEAKER_00] Genial. Empecemos por la región norte.
[SPEAKER_02] Antes de eso, quería comentar un tema de presupuesto.

WhisperX es la opción ideal para transcribir reuniones, entrevistas, podcasts con múltiples participantes, o cualquier audio donde saber quién dijo qué es fundamental. La diarization necesita un poco más de VRAM (~2-3 GB adicionales), pero sigue siendo perfectamente manejable con una GPU de gama media.

7. Benchmarks: velocidad de Whisper por GPU

Estos son datos reales con Whisper Large V3, audio en español, archivo de 1 hora, faster-whisper con float16 y beam_size=5. El RTF (Real-Time Factor) indica qué fracción del tiempo real tarda el procesamiento: RTF 0.2 significa que 1 hora de audio se procesa en 0.2 horas (12 minutos).

GPU / CPU	RTF (Whisper Large V3)	1 hora de audio →	Precio aprox.
RTX 4090	0.03	~2 min	~1.600€
RTX 4070 Ti Super	0.15	~9 min	~700€
RTX 4060	0.2	~12 min	~300€
RTX 3060 12GB	0.2	~12 min	<300€ ← mejor valor
CPU i7-12700	0.7	~42 min	—

La RTX 3060 es la reina del precio/rendimiento para Whisper. Iguala a la RTX 4060 en velocidad de transcripción y cuesta lo mismo o menos. Para Whisper no necesitas arquitectura Ada — Ampere ya sobra de largo. Esto es distinto a los LLMs de texto, donde la 4060 tiene ventaja por su mayor ancho de banda.

Con Whisper Small en vez de Large V3, todas las GPUs son aún más rápidas. En la RTX 3060, 1 hora de audio se transcribe en ~4 minutos con el modelo Small. Para uso casual (notas de voz, audios de WhatsApp, podcasts cortos), Small es más que suficiente y casi instantáneo.

Puedes explorar más datos de rendimiento por GPU en nuestro Model Browser, donde puedes filtrar modelos por tamaño y ver benchmarks por tarjeta gráfica.

8. Casos de uso reales

Whisper local no es un juguete — es una herramienta de productividad seria. Estos son los casos donde más brilla:

Transcribir podcasts completos

Un podcast de 2 horas se transcribe en ~24 minutos con Large V3 en una RTX 3060. El resultado incluye timestamps precisos, lo que permite crear show notes, buscar momentos específicos, o generar subtítulos para publicar en YouTube. Algunos creadores procesan su backlog completo (100+ episodios) en un fin de semana sin pagar un céntimo.

Actas de reuniones automáticas

Graba tu reunión de Zoom/Teams/Meet, pásala por WhisperX con diarization y obtienes una transcripción con nombres de hablantes. Conecta la salida a un LLM local (Llama 3, Mistral) para generar un resumen automático con action items. Todo en tu máquina, nada en la nube. Ideal para reuniones confidenciales donde usar Otter.ai o similares no es opción.

Subtítulos para YouTube

Los subtítulos automáticos de YouTube son mediocres en español. Whisper Large V3 genera subtítulos SRT con timestamps precisos que puedes subir directamente a YouTube Studio. La calidad es notablemente mejor, especialmente con vocabulario técnico, nombres propios y acentos regionales.

Notas de voz a texto

¿Tienes 200 notas de voz en el teléfono que nunca vas a escuchar? Pásalas todas por Whisper Small y tendrás texto buscable en minutos. Un script de 10 líneas en Python procesa una carpeta entera de archivos de audio y genera un archivo de texto por cada uno. Búsqueda instantánea sobre meses de notas de voz.

Transcripción de entrevistas de investigación

Investigadores, periodistas y documentalistas procesan horas de entrevistas. Los servicios de transcripción profesional cobran 1-2€ por minuto de audio. Un proyecto de investigación con 50 horas de entrevistas son 3.000-6.000€ solo en transcripción. Con Whisper local: gratis. Y sin enviar datos sensibles de entrevistados a terceros.

Accesibilidad: audio a texto para personas sordas

Whisper puede generar subtítulos en tiempo real para llamadas, vídeos o cualquier fuente de audio. Con whisper.cpp en modo streaming y una GPU básica, la latencia es lo bastante baja para ser útil en conversaciones. Un caso de uso donde la IA local marca una diferencia real en la vida de las personas.

9. Whisper local vs servicios cloud: comparativa de costes

Los servicios de transcripción cloud cobran por minuto de audio procesado. Parece barato hasta que haces las cuentas con volúmenes reales. Aquí los números:

Servicio	Coste / hora de audio	100 horas	1.000 horas
Google Speech-to-Text	~$1.44	Entrada	$1.440
AWS Transcribe	~$1.44	Entrada	$1.440
OpenAI Whisper API	~$0.36	Muy bajo	Gasto anual medio
Otter.ai Pro	Suscripcion mensual media (limite 1200 min)	Suscripcion anual media	Imposible (límite mensual)
Whisper Local (RTX 3060)	$0.00	$0.00	$0.00*

* El coste real de Whisper local es la electricidad: una RTX 3060 consume ~170W bajo carga. Transcribir 1.000 horas de audio (~200 horas de GPU) cuesta ~34 kWh ≈ 5-8€ en electricidad en España. El coste de hardware (la GPU) lo amortizas también con otros usos: LLMs, generación de imágenes, gaming.

¿Cuándo SÍ tiene sentido cloud?

• Volumen bajo + prisa: si necesitas transcribir 1 archivo de 5 minutos una vez al mes, configurar Whisper local no merece el esfuerzo.
• No tienes hardware: si tu ordenador es un Chromebook o un portátil de 2015, cloud es tu única opción realista.
• Necesitas speaker diarization comercial: servicios como AssemblyAI tienen diarization más robusta que WhisperX para audio con mucho ruido o muchos hablantes simultáneos.

Para todo lo demás — Whisper local. El breakeven está alrededor de 50 horas de transcripción. Si vas a superar eso en tu vida, la inversión en configurarlo se paga sola.

10. Preguntas frecuentes

¿Necesito GPU para usar Whisper en local?

No. Whisper funciona en CPU sin problemas. La diferencia es solo la velocidad. Con un i7 y Whisper Large V3, 1 hora de audio tarda ~42 minutos. Con una RTX 3060, esos mismos 60 minutos de audio se procesan en ~12 minutos. Para archivos cortos (notas de voz de 2-5 minutos), la diferencia en CPU vs GPU es de segundos — apenas relevante. Si no tienes GPU, revisa nuestra guía de IA local sin GPU.

¿Cuánta VRAM necesita Whisper Large V3?

Solo 1.5 GB. Es absurdamente poco comparado con los LLMs de texto. Una GTX 1050 Ti de 4 GB sobra para correr el modelo más grande de Whisper. Esto significa que si tienes cualquier GPU discreta de los últimos 8 años, puedes correr Whisper Large V3 con GPU acceleration. Puedes verificar tu GPU en nuestra calculadora de VRAM.

¿Es Whisper local tan bueno como los servicios de pago?

Whisper Large V3 tiene un WER (Word Error Rate) de ~5% en español, comparable a servicios premium. Donde puede tener problemas es con audio de muy baja calidad (mucho ruido, múltiples personas hablando a la vez sin micrófono dedicado). Para audio limpio — reuniones por videollamada, podcasts, grabaciones con micrófono decente — la calidad es excelente. Para contenido con vocabulario técnico específico, Whisper suele ser mejor que los servicios genéricos porque fue entrenado con un corpus enorme y diverso.

¿Qué herramienta es mejor: faster-whisper, whisper.cpp u Ollama?

Depende de tu perfil. faster-whisper para Python developers (pip install, 5 líneas y funciona). whisper.cpp para CLI puro y máximo rendimiento en CPU. Ollama para la instalación más simple posible (un comando). WhisperX cuando necesitas saber quién dijo qué (speaker diarization). El modelo subyacente es el mismo — la diferencia es la interfaz y las funcionalidades extra.

¿Puedo transcribir en tiempo real con Whisper?

Sí. whisper.cpp tiene modo streaming nativo (--stream). Con Whisper Small en una GPU, la latencia es lo bastante baja para transcripción en vivo. Para Whisper Large V3 en tiempo real necesitas una GPU rápida (RTX 3060 o superior). En CPU, solo los modelos Tiny y Base son viables para streaming en tiempo real.

11. Hardware recomendado para Whisper local

Whisper no necesita hardware caro, pero una buena GPU marca la diferencia entre "funciona" y "vuela". Estas son las opciones con mejor relación rendimiento/precio para transcripción:

Affiliate disclosure: esta comparativa incluye enlaces de afiliado a Amazon. Si compras desde ellos, RunAIatHome puede recibir una comisión sin coste extra para ti.

Mejor GPU para Whisper local: comparativa rápida

Whisper escala muy bien con GPU. Estas tres opciones separan claramente el caso más rentable, la alternativa eficiente y la bestia premium para lotes grandes.

Ganador recomendado

RTX 3060 12GB

Es la GPU con mejor relación rendimiento/precio para Whisper: acelera Large V3 de forma clara, sigue siendo barata y no exige una fuente ni una caja especiales.

GPU	Mejor para	Rendimiento	Rango	CTA
RTX 3060 12GB	Whisper Large V3 con presupuesto contenido	1h audio en ~12 min	Budget	Ver precio en Amazon
RTX 4060 8GB	Equipos compactos y bajo consumo	1h audio en ~12 min	Gama media	Ver precio en Amazon
RTX 4090 24GB	Transcripción masiva y colas largas	1h audio en ~2 min	Premium	Ver precio en Amazon

Mejor valor

RTX 3060 12GB

1h audio → ~12 min

<300€ · 170W

Ver precio en Amazon

Eficiente

RTX 4060 8GB

1h audio → ~12 min

~300€ · 115W

Ver precio en Amazon

Premium

RTX 4090 24GB

1h audio → ~2 min

~1.600€ · 450W

Ver precio en Amazon

Bonus: un buen micrófono marca la diferencia

El modelo más potente del mundo no puede compensar un audio grabado con el micrófono del portátil desde 3 metros. La calidad de la transcripción depende directamente de la calidad del audio de entrada. Un micrófono USB de condensador de 30-50€ mejora dramáticamente los resultados de Whisper — especialmente para el modelo Small o Medium.

Ver micrófonos en Amazon

Hardware recomendado para Whisper local

GPUs verificadas para transcripción con Whisper — actualizado en 2026.

€269

budget Amazon Prime

NVIDIA GeForce RTX 3060 12GB

4.8 (1,400 reviews)

Pros

Whisper Large V3 a ~5× tiempo real
12 GB VRAM — holgura para batches
Mejor precio para transcripción

Cons

Menos velocidad vs Ada en inferencia

Ver en Amazon

€299

mid Amazon Prime

NVIDIA GeForce RTX 4060 8GB

4.6 (980 reviews)

Pros

Whisper Large V3 a ~5× tiempo real
Bajo consumo — ideal 24/7
Ada Lovelace eficiencia máxima

Cons

8 GB — justo para batches grandes

Ver en Amazon

€399

mid Amazon Prime

NVIDIA GeForce RTX 4060 Ti 8GB

4.7 (650 reviews)

Pros

Whisper Large V3 con margen
Mayor bandwidth que RTX 4060
Ideal para transcripción + LLMs

Cons

Precio algo superior a RTX 4060

Ver en Amazon

€1799

pro Amazon Prime

NVIDIA GeForce RTX 4090 24GB

4.8 (1,200 reviews)

Pros

Whisper Large V3 a ~30× tiempo real
24 GB — batches masivos sin problema
Transcripción de 1h en ~2 min

Cons

Overkill salvo uso profesional masivo

Ver en Amazon

Como asociado de Amazon, ganamos una comisión por compras que cumplan los requisitos. Esto no afecta nuestras recomendaciones.

12. Conclusión: Whisper es la killer app de la IA local

Si alguien te pregunta "¿para qué sirve la IA local en la vida real?", la respuesta más clara y directa es Whisper. Transcribir audio ilimitado, gratis, offline, con calidad profesional, desde tu propia máquina. Sin API keys, sin límites de minutos, sin subir tus grabaciones a servidores de terceros.

Los números hablan solos: Whisper Large V3 necesita solo 1.5 GB de VRAM. Cualquier GPU de los últimos 8 años lo corre. Una RTX 3060 de menos de 300€ transcribe 1 hora de audio en 12 minutos. Incluso sin GPU, un procesador i7 lo hace en ~42 minutos. Y el modelo Small (0.4 GB de VRAM) es suficientemente bueno para la mayoría de casos de uso cotidianos.

Si transcribes audio con cierta frecuencia — ya sea para trabajo, estudios, creación de contenido o accesibilidad — configurar Whisper en tu máquina es una de las mejores inversiones de tiempo que puedes hacer. 15 minutos de setup, beneficio de por vida.

¿Tu GPU soporta Whisper Large V3?

Casi seguro que sí — solo necesitas 1.5 GB de VRAM. Pero si quieres confirmar o ver cuánto margen tienes para correr Whisper junto a un LLM de texto, la calculadora de VRAM te da los números exactos.

Verificar mi GPU ahora →

1. ¿Qué es Whisper y por qué usarlo en local?

¿Por qué local y no cloud?

2. Modelos Whisper: cuál elegir según tu hardware

Mi recomendación según tu caso

3. Requisitos de hardware

Mínimo (funciona)

Recomendado (vuela)

4. Instalación con faster-whisper (Python)

Paso 1: Instalar faster-whisper

Paso 2: Tu primera transcripción (5 líneas)

Paso 3: Exportar a formato SRT (subtítulos)

Opciones avanzadas de faster-whisper

5. Instalación con whisper.cpp (CLI)

Paso 1: Compilar whisper.cpp

Paso 2: Descargar el modelo

Paso 3: Transcribir

6. Usando Whisper con Ollama (método más simple)

Instalación y uso

¿Cuándo elegir Ollama para Whisper?

6b. WhisperX: transcripción con identificación de hablantes

7. Benchmarks: velocidad de Whisper por GPU

8. Casos de uso reales

9. Whisper local vs servicios cloud: comparativa de costes

¿Cuándo SÍ tiene sentido cloud?

10. Preguntas frecuentes

¿Necesito GPU para usar Whisper en local?

¿Cuánta VRAM necesita Whisper Large V3?

¿Es Whisper local tan bueno como los servicios de pago?

¿Qué herramienta es mejor: faster-whisper, whisper.cpp u Ollama?

¿Puedo transcribir en tiempo real con Whisper?

11. Hardware recomendado para Whisper local

Mejor GPU para Whisper local: comparativa rápida

RTX 3060 12GB

RTX 4060 8GB

RTX 4090 24GB

Bonus: un buen micrófono marca la diferencia

Hardware recomendado para Whisper local

NVIDIA GeForce RTX 3060 12GB

NVIDIA GeForce RTX 4060 8GB

NVIDIA GeForce RTX 4060 Ti 8GB

NVIDIA GeForce RTX 4090 24GB

12. Conclusión: Whisper es la killer app de la IA local

¿Tu GPU soporta Whisper Large V3?

Fuentes