web-dev-qa-db-fra.com

Application de reconnaissance vocale pour convertir des MP3 en texte?

Est-ce que quelqu'un connaît une application capable de convertir de l'audio en texte? Je suis Ubuntu 12.04 LTS.

27
Kopano

Le logiciel que vous pouvez utiliser est CMUSphinx . Contrairement à ce que suggère une autre réponse, Julius ne convient pas car il nécessite des modèles. Les modèles de reconnaissance vocale à vocabulaire étendu ne sont pas disponibles pour Julius.

Vous pouvez utiliser pochesphinx pour convertir un fichier audio. Ces deux commandes doivent faire le travail. Tout d’abord, vous convertissez le fichier au format requis, puis vous le reconnaissez:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Le run pochesphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Le résultat sera stocké dans result.txt.

21
Nikolay Shmyrev

Je sais que c'est vieux, mais pour développer la réponse de Nikolay et sauver un peu de temps, espérons-le, afin d'obtenir une version à jour de pochesphinx, vous devez le compiler à partir du dépôt github ou sourceforge (pas sûr qui est tenu plus à jour). Notez que -j8 signifie exécuter 8 tâches distinctes en parallèle si possible; si vous avez plus de cœurs de processeur, vous pouvez en augmenter le nombre.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
Sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
Sudo make install
cd ..

Ensuite, depuis: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ téléchargez les dernières versions de cmusphinx-en-us-....tar.gz et en-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Ensuite, vous pouvez enfin passer aux étapes de la réponse de Nikolay:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sphinx fonctionne bien. Je ne m'appuierais pas dessus pour créer une version lisible du texte, mais il suffit que vous puissiez le rechercher si vous recherchez une citation en particulier. Cela fonctionne particulièrement bien si vous utilisez un algorithme de recherche tel que Xapian ( http://www.lesbonscomptes.com/recoll/ ) qui accepte les caractères génériques et ne nécessite pas d’expressions de recherche exacts.

J'espère que cela t'aides.

11

Si vous cherchez à convertir la parole en texte, vous pouvez essayer d’ouvrir votre logiciel Ubuntu Software Center et rechercher Julius

La description

"Julius" est un logiciel de décodeur de reconnaissance vocale continue (LVCSR) de haute performance et à deux passes destiné aux chercheurs et aux développeurs du domaine de la parole.

Ou une autre option qui ne figure pas dans le Centre logiciel est Simon

... est un programme de reconnaissance vocale à code source ouvert qui remplace la souris et le clavier.

Liens de référence

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

11
CoalaWeb

Vous pouvez utiliser le panneau de transcription speechpad.pw

Voir la vidéo d'utilisation de la transcription

1
alexei