FFmpeg 8.0 da un paso gigante: integración de OpenAI Whisper para reconocimiento automático de voz.

Publicado el 14 de agosto de 2025, 9:17

La cuenta atrás para FFmpeg 8.0 sigue sumando expectación… y no es para menos. Cada nueva característica que se anuncia para esta próxima versión parece superar a la anterior. La última en sumarse al paquete es una auténtica joya para quienes trabajan con audio y vídeo: un filtro de audio basado en Whisper, el modelo de reconocimiento de voz desarrollado por OpenAI.

Sí, hablamos de transcripción automática directamente dentro de FFmpeg, sin pasos intermedios ni herramientas externas.

Whisper: el oído afinado de la IA

Para quienes no lo conozcan, Whisper es un modelo de reconocimiento de voz entrenado con un conjunto de datos masivo y diverso, lo que le permite entender y transcribir con una precisión sorprendente incluso en entornos ruidosos o con acentos marcados. No estamos ante una tecnología experimental; es una herramienta probada que ha dejado muy buenas impresiones en proyectos profesionales y personales.

Con FFmpeg 8.0, si tu sistema cuenta con la biblioteca Whisper.cpp, podrás compilarlo con la opción --enable-whisper para activar esta funcionalidad.

Más allá de una simple transcripción

La magia no se limita a convertir audio en texto. FFmpeg, gracias a este nuevo filtro, podrá:

Generar subtítulos en formato SRT de forma directa.
Enviar resultados en JSON a un servicio web HTTP, ideal para integraciones y automatizaciones.
Ajustar la configuración con varios parámetros de sintonización para optimizar velocidad o precisión según las necesidades.
Aprovechar aceleración por GPU en los sistemas compatibles, lo que reduce drásticamente los tiempos de procesamiento.

En otras palabras: si antes tenías que usar varios programas para transcribir y subtitular, ahora podrás hacerlo todo en un solo paso desde la terminal.

Un vistazo al código y lo que viene

El soporte de Whisper se fusionó a FFmpeg durante el fin de semana pasado, y ya está disponible en el repositorio para quienes quieran compilarlo y probarlo antes de su lanzamiento oficial.

Y ojo, porque Whisper no llega solo. FFmpeg 8.0 también traerá:

Mejoras significativas en aceleración Vulkan.
Nuevas optimizaciones para CPU, exprimiendo al máximo el rendimiento en codificación y decodificación.
Un amplio surtido de mejoras y ajustes menores que, como suele ocurrir con FFmpeg, terminan marcando la diferencia en flujos de trabajo exigentes.

El lanzamiento está a la vuelta de la esquina

Si todo sigue el calendario previsto, FFmpeg 8.0 debería ver la luz en cuestión de semanas. Y esta integración con OpenAI Whisper apunta a convertirse en una de las funciones estrella, especialmente para creadores de contenido, periodistas, podcasters, desarrolladores y cualquier persona que trabaje con grandes volúmenes de audio.

Porque no se trata solo de una nueva característica técnica… es una puerta a flujos de trabajo más ágiles, inteligentes y potentes. Y eso, en el mundo del multimedia, siempre se agradece.

Fuente: Phoronix

« Anterior NVIDIA 580 para Linux: más potencia, más fluidez y un mejor Wayland. Bcachefs queda fuera del kernel de Linux tras un choque entre desarrolladores. Siguiente »

Añadir comentario

Comentarios

Todavía no hay comentarios