Transcribe audios con Whisper

Instala Whisper

  1. Para usar Whisper, vamos a usar Miniconda. Si no tienes Miniconda instalado, lee los pasos aquí:
    https://docs.ingenieria.cc/miniconda
    En Windows, anda a Inicio, y busca "anaconda powershell". Entra a Anaconda Powershell Prompt. Primero, crea un environment con cualquier nombre que prefieras y actívalo. En este ejemplo vamos a usar el nombre my-env:
    (base)$ conda create -n my-env python=3.9 
    (base)$ conda activate my-env 
    (my-env)$ conda env list 
    
  2. Instala el paquete openai-whisper:
    (my-env)$ pip install -U openai-whisper
    
  3. El siguiente paso es instalar ffmpeg. Mientras tanto, puedes cerrar la ventana de Anaconda Powershell.

Instala ffmpeg

  1. El siguiente URL contiene los links de descarga de ffmpeg para Microsoft Windows. Anda a la sección "release builds", y haz clic en ffmpeg-release-full.7z.
    https://www.gyan.dev/ffmpeg/builds/
  2. Extrae o descomprime el archivo .7z . Localiza el archivo, que generalmente está en la carpeta de descargas. Clic derecho en el archivo, y coloca el mouse sobre "7-zip" (o tu programa de extracción preferido). En el submenú, selecciona "Extraer aquí".
  3. Cambia el nombre a la carpeta extraída a ffmpeg. Mueve la carpeta ffmpeg hacia el disco C.
  4. Anda a Inicio y busca "variables entorno". Escoge la opción "Editar variables de entorno del sistema". Bajo "variables de Usuario", selecciona Path. Clic en Editar. En el menú de la derecha, clic en "Nuevo".
  5. Agrega C:\ffmpeg\bin al campo vacío y confirma los cambios con "Aceptar" ó OK. Ahora puedes cerrar esa ventana.
  6. Abre una ventana de Símbolo del Sistema (no como administrador, sino como usuario normal) o una ventana de Anaconda Powershell. Ejecuta el siguiente comando:
    $ ffmpeg -version 
    
    Si la primera línea del resultado te muestra la versión de ffmpeg, eso significa que la instalación de ffmpeg fue satisfactoria.

Usa Whisper

  1. Abre una ventana de Anaconda Powershell. Ejecuta:
    (base)$ conda env list 
    (base)$ conda activate my-env 
    (base)$ whisper -h 
    
    Si la última línea del último resultado empieza con la palabra threads, eso significa que Whisper ha sido instalado correctamente. Coloca el archivo de audio en la carpeta que prefieras. En este ejemplo, creamos una carpeta dentro de Documents, dentro del disco C, y el nombre del archivo de ejemplo es my-audio.ogg .
  2. En Anaconda Powershell:
    (my-env) PS C:\Users\Usuario> cd Documents  
    (my-env) PS C:\Users\Usuario\Documents> cd audios  
    (my-env) PS C:\Users\Usuario\Documents\audios> whisper my-audio.ogg --language Spanish  
    
  3. La primera vez que transcribes un audio con ese comando, el programa Whisper necesitará descargar los "archivos del modelo", entonces demorará un poco más de lo normal. Cuando esa descarga termina, comenzarás a ver la transcripción de tu audio en la pantalla de Anaconda Powershell. Cuando Whisper termine de transcribir el audio, puedes cerrar la ventana de Anaconda Powershell.