Transcribe audios con Whisper
Instala Whisper
- Para usar Whisper, vamos a usar Miniconda. Si no tienes Miniconda instalado, lee los pasos
aquí:
https://docs.ingenieria.cc/miniconda
En Windows, anda a Inicio, y busca "anaconda powershell". Entra a Anaconda Powershell Prompt. Primero, crea un environment con cualquier nombre que prefieras y actívalo. En este ejemplo vamos a usar el nombremy-env:(base)$ conda create -n my-env python=3.9 (base)$ conda activate my-env (my-env)$ conda env list - Instala el paquete
openai-whisper:(my-env)$ pip install -U openai-whisper - El siguiente paso es instalar ffmpeg. Mientras tanto, puedes cerrar la ventana de Anaconda Powershell.
Instala ffmpeg
- El siguiente URL contiene los links de descarga de ffmpeg para Microsoft Windows. Anda a la
sección "release builds", y haz clic en
ffmpeg-release-full.7z.
https://www.gyan.dev/ffmpeg/builds/ - Extrae o descomprime el archivo
.7z. Localiza el archivo, que generalmente está en la carpeta de descargas. Clic derecho en el archivo, y coloca el mouse sobre "7-zip" (o tu programa de extracción preferido). En el submenú, selecciona "Extraer aquí". - Cambia el nombre a la carpeta extraída a
ffmpeg. Mueve la carpetaffmpeghacia el discoC. - Anda a Inicio y busca "variables entorno". Escoge la opción "Editar variables de entorno del sistema". Bajo "variables de Usuario", selecciona Path. Clic en Editar. En el menú de la derecha, clic en "Nuevo".
- Agrega
C:\ffmpeg\binal campo vacío y confirma los cambios con "Aceptar" ó OK. Ahora puedes cerrar esa ventana. - Abre una ventana de Símbolo del Sistema (no como administrador, sino como usuario normal) o
una ventana de Anaconda Powershell. Ejecuta el siguiente comando:
Si la primera línea del resultado te muestra la versión de$ ffmpeg -versionffmpeg, eso significa que la instalación de ffmpeg fue satisfactoria.
Usa Whisper
- Abre una ventana de Anaconda Powershell. Ejecuta:
Si la última línea del último resultado empieza con la palabra(base)$ conda env list (base)$ conda activate my-env (base)$ whisper -hthreads, eso significa que Whisper ha sido instalado correctamente. Coloca el archivo de audio en la carpeta que prefieras. En este ejemplo, creamos una carpeta dentro de Documents, dentro del disco C, y el nombre del archivo de ejemplo esmy-audio.ogg. - En Anaconda Powershell:
(my-env) PS C:\Users\Usuario> cd Documents (my-env) PS C:\Users\Usuario\Documents> cd audios (my-env) PS C:\Users\Usuario\Documents\audios> whisper my-audio.ogg --language Spanish - La primera vez que transcribes un audio con ese comando, el programa Whisper necesitará descargar los "archivos del modelo", entonces demorará un poco más de lo normal. Cuando esa descarga termina, comenzarás a ver la transcripción de tu audio en la pantalla de Anaconda Powershell. Cuando Whisper termine de transcribir el audio, puedes cerrar la ventana de Anaconda Powershell.