API Google speech

Question

Je travaille maintenant sur mon projet et je suis sur le point de créer une application de type Siri pour l'ordinateur de bureau. Je me demande si l'API Google Speech est fiable et précise pour la reconnaissance vocale? Pouvez-vous me suggérer quelle API vocale est la plus précise en termes de reconnaissance vocale? De préférence, une API gratuite. Je vous remercie.

Kevin Junghans · Answer

Bien que l'API Google speech soit gratuite, elle n'est pas une API publique officielle. Certaines personnes l'ont inversé, comme c'est discuté dans ce blog . Si vous envisagez d'accéder directement à l'API pour un produit commercial, je ne le recommanderais pas, car ils peuvent le supprimer ou le modifier sans avertissement, cassant votre produit. Cela est récemment arrivé aux développeurs qui utilisaient Google Weather API . Si vous y accédez via un Chrome utilisant x-webkit-speech d'autre part, vous êtes probablement en sécurité car il est pris en charge par Google. La reconnaissance vocale de Google est là-bas avec un grand nombre des solutions commerciales les plus populaires. Ils ont beaucoup d'expérience avec d'autres projets comme Google Voice et Google 411, aujourd'hui disparu. Ils ont certains des meilleurs spécialistes de la parole qui travaillent pour eux. l'alternative à laquelle je pense est Sphinx qui est un projet open source de l'Université Carnegie Mellon. Courbe d'apprentissage abrupte en utilisant cette solution et si vous voulez qu'elle soit configurée en tant que service, vous devrez la développer vous-même . Nuance est l'autre grand acteur sur le marché de la reconnaissance vocale (je crois que c'est ce que Siri utilise) et ils ont des solutions qui offrent la reconnaissance vocale en tant que service. Mais ils sont chers.

Mise à jour de la réponse des commentaires sur le support linguistique

La reconnaissance vocale Windows prend en charge d'autres langues, comme la plupart des systèmes de reconnaissance vocale. Mais la mise en garde est que vous devez indiquer au système la langue à utiliser et qu'il doit prendre en charge la langue en question. Chaque fournisseur a une liste de langues qu'il prend en charge et elles sont spécifiques à une région. Par exemple, un fournisseur peut prendre en charge l'espagnol mexicain, l'espagnol américain et l'espagnol espagnol; qui ont tous des dialectes légèrement différents. Mais le moteur de reconnaissance vocale ne peut prendre en charge qu'une seule langue/dialecte à la fois par utilisateur. Un utilisateur ne peut pas parler plusieurs langues à un système de reconnaissance vocale sans lui avoir demandé au préalable de passer à cette langue.

Mis à jour le 17/03/2014

Le champ de saisie x-webkit-speech est obsolète en raison du manque de prise en charge dans d'autres navigateurs. Elle sera remplacée par Web Speech API , qui est une API javascript. Vous pouvez trouver un exemple sur la façon de l'utiliser ici .