Tutoriel

Transcription vocale et audio : quelle solution choisir ?

Transcription vocale et audio : quelle solution choisir ?
TABLE DES MATIÈRES

Dans cet article, nous testons plusieurs API Speech-to-Text pré-entraînées. Nous testons ces solutions sur différents cas d'utilisation pertinents.


Qu'est-ce que la reconnaissance vocale ?

Ces dernières années, dans le monde de l'intelligence artificielle (IA), l'une des applications les plus populaires est la reconnaissance vocale. Cette popularité est due à la grande diversité des applications et des besoins : centre d'appels, diffusion, traduction, soins de santé, banque, assistant vocal, etc.

La reconnaissance vocale inclut diverses fonctionnalités :

  • Transposition de la parole en texte : vous permet de transcrire l'audio en texte
  • Synthèse vocale : permet de transcrire un texte en audio
  • Analyse de la parole : permet d'analyser un discours audio afin d'en extraire des informations telles que : le sexe, l'âge, les émotions du locuteur
  • Diarisation vocale : Permet d'identifier et de différencier les différents locuteurs parlant dans le même son (par accents, spécificités, etc.)
  • Traduction vocale : permet de traduire un discours audio d'une langue spécifique en un discours audio d'une autre langue


Cette liste ne constitue pas une liste exhaustive de toutes les fonctionnalités de reconnaissance vocale. De nombreuses solutions reposent sur la combinaison de plusieurs fonctionnalités.

Cet article traite brièvement des API Speech-to-Text préentraînées. L'objectif est de montrer quels problèmes peuvent être résolus avec ce type d'API. Quels sont les principaux fournisseurs du marché ? Quel est le processus optimal lors de l'utilisation d'API pré-entraînées ?


Fournisseurs d'API de reconnaissance vocale

Au cours de notre étude sur les API pré-entraînées Speech-to-Text, nous avons décidé de choisir 6 fournisseurs d'API offrant des performances élevées, selon de nombreux articles de blog et classements.

  • API de synthèse vocale de Google Cloud Platform
  • API AWS Transcribe
  • Services vocaux Microsoft Azure
  • IBM Watson Speech-to-text
  • Rev.ai
  • Assemblage AI

Logos of different Speech to Text providers
Eden AI : fournisseurs de reconnaissance vocale

Voici la liste des API des fournisseurs que nous allons tester. Il est intéressant de noter que d'autres solutions et solutions open source existent.


Cas d'utilisation de la reconnaissance vocale

Comme indiqué précédemment, les API Speech-to-Text sont utilisées dans des centaines de domaines, pour de nombreux cas d'utilisation. Dans cet article, nous allons tester différentes API Speech-to-Text avec différents types d'audios représentant des cas d'utilisation courants.

Nous avons choisi 3 cas d'utilisation avec des intervenants et des discours différents. Pour chaque cas d'utilisation, nous avons testé l'API Speech-to-Text des 6 fournisseurs, avec un son par cas d'utilisation. Bien entendu, pour un projet réel, vous devrez effectuer des tests sur une partie représentative de votre base de données (et pas seulement sur un seul fichier audio) pour avoir une vision correcte des différentes performances.



Tests de reconnaissance vocale

La réponse de l'API n'est qu'une réponse textuelle. Cette réponse (souvent au format json) sera utilisée pour développer des applications. Pour notre exemple, la façon de procéder est la suivante :


1. API Speech-to-Text de référence disponibles sur le marché

  • Recherche de fournisseurs
  • Solutions de test avec quelques échantillons en fonction du projet
  • Analyser les prix


2. Choisissez le fournisseur d'API qui correspond le mieux à votre projet


3. Intégrez l'API finale dans votre projet/logiciel

  • Découvrez comment gérer les API en production
  • Ajoutez le prétraitement et le post-traitement en fonction de votre projet


Le benchmark est le moyen le plus efficace et le plus rapide de trouver et de visualiser les performances de différentes solutions et de déterminer celle qui correspond le mieux au type de son dont vous disposez. Cela dépend de nombreux paramètres tels que la langue, le type de voix, la ponctuation, la vitesse de traitement, la vitesse de la parole, la longueur du son, etc.

Google, IBM, AWS, Azure, Rev.ai et Assembly AI fournissent une API Speech to text performante. Elles fournissent différents paramètres spécifiques et il est intéressant de regarder leurs performances sur différents fichiers audio afin d'identifier rapidement les points faibles et les points forts de chaque API.


Cas d'utilisation n°1 :

Le premier fichier audio à transcrire est une interview d'un jeune homme. Voici le discours exact :

Audio pictogram
Écouter l'audio 1


« Je ne suis pas sûr de la date exacte. C'est pour Comic Relief, un grand événement télévisé où de nombreux comédiens se réunissent pour essayer de faire quelque chose d'amusant pour de l'argent, tel est le slogan. Et les gens se promènent aussi avec le nez rouge et essaient de récolter de l'argent comme ça. Ça peut vraiment être n'importe qui, oui. Il s'agit généralement d'étudiants et d'écoliers principalement, mais cela peut être n'importe qui. »

L'API Eden AI renvoie des réponses pour les API AWS, GCP, IBM et Azure :


Eden AI Speech to Text responses for different providers
Eden AI : conversion de la parole au texte

Réponse de Google Cloud :


« Je ne suis pas sûr de la date exacte. C'est pour Comic Relief, un grand événement télévisé où de nombreux comédiens se réunissent et essaient de faire quelque chose de drôle pour de l'argent. seconde et les gens malade en portant le nez rouge et en essayant de récolter de l'argent comme ça les étudiants chez les écoliers principalement, mais cela peut être n'importe lequel. Je ne suis pas sûre de la date exacte de Comic Relief, un grand événement télévisé où de nombreux comédiens se réunissent et essaient de faire quelque chose d'amusant pour de l'argent. C'est le deuxième événement et des gens malades ont le nez rouge. J'essaie de récolter de l'argent comme ça, généralement pour les étudiants et les écoliers, mais ils m'ont. »


AWS réponse :


« Je ne suis pas sûr de la date exacte. C'est pour Comic Relief, un grand événement télévisé qui réunit de nombreux comédiens sur et essayez de faire quelque chose de drôle pour de l'argent, tel est le slogan Andi. Les gens se promènent aussi avec le nez rouge et essayez et augmenter. MDe l'argent comme ça peut en général sois n'importe qui. Il s'agit généralement d'étudiants et d'écoliers, principalement, mais cela peut être n'importe qui. »


Microsoft Azure réponse :


« Je ne suis pas sûr de la date exacte de Comic Relief. un gros événement télévisé où de nombreux comédiens se réunissent et essaient de faire quelque chose d'amusant pour de l'argent, tel est le slogan et les gens se promènent aussi avec des nez rouges et essayez et collectez des fonds comme ça. Peut en général sois n'importe qui. Oui, ce sont généralement des étudiants et des écoliers principalement, mais cela peut être n'importe qui. »


IBM réponse :


« %HESITATION » Je ne suis pas sûre de la date exacte, c'est « %HESITATION » pour Comic Relief, un grand événement télévisé, « %HESITATION ». relatif les comédiens se réunissent et j'essaie de faire quelque chose de drôle pour de l'argent, à savoir seconde % d'hésitations et de personnes à se déplacer avec le nez rouge pour essayer de récolter des fonds comme ça peut en général être de toute façon il s'agit généralement d'étudiants et d'écoliers principalement, mais cela peut être n'importe qui »


Rev.ai réponse :


« Hum, je ne suis pas sûr de la date exacte est celle de Comic Relief, un grand événement télévisé, euh, où de nombreux comédiens se réunissent pour essayer de faire quelque chose de drôle pour de l'argent, tel est le slogan. Euh, et les gens se promènent aussi avec le nez rouge et essayez et collectez des fonds comme ça. Cela peut vraiment être n'importe qui. Oui. Ce sont généralement des étudiants à l'école, principalement des enfants, mais cela peut être n'importe qui. »


Assemblage AI réponse :


« Je ne suis pas sûr de la date exacte. C'est pour une sortie de comics. Je ne suis pas sûr de la date exacte. C'est pour Comic Relief. Un grand événement télévisé. Un grand événement télévisé. Où beaucoup de comédiens se réunissent et essaient de faire quelque chose de drôle pour de l'argent, tel est le slogan. Où beaucoup de comédiens se réunissent et essaient de faire quelque chose de drôle pour de l'argent, qui est le slogan et les gens devrait se déplacer en portant le nez rouge et essayez et collectez des fonds comme ça. I peut généralement lu n'importe qui. Ce sont généralement des étudiants dans des écoliers principalement, mais cela peut être n'importe qui. Et les gens font aussi le tour avec le nez rouge et essaient de récolter de l'argent comme ça, ça peut généralement être n'importe qui ? Oui, ce sont généralement des élèves, principalement des écoliers, mais ça peut être n'importe qui.»


Bilan du cas d'utilisation n°1 :

Pour ce cas d'utilisation, nous pouvons noter que certaines difficultés d'élocution entraînent des erreurs pour chaque fournisseur. Mais pour ce cas d'utilisation, Rev.ai fournit clairement les meilleures performances. Il n'en demeure pas moins important de noter que Assemblage AI la gestion de la ponctuation est impressionnante. De plus, pour Google et Assemblage AI, nous avons rencontré un problème de répétition de texte qui peut être gênant pour l'intégration du projet. En combinant les résultats de différentes API, en ce qui concerne leurs points forts, il existe un moyen d'obtenir de très hautes performances.


Cas d'utilisation n°2 :

Audio Pictogram
Écouter Audio 2

Ce deuxième fichier audio est un discours d'une femme de 27 secondes sur son moyen de transport personnel :

« En Angleterre, nous utilisons beaucoup la voiture pour nous déplacer. Je vais à l'école à pied ou à vélo. Cependant, pour aller plus loin, j'irais en voiture ou en bus. Pour partir en vacances, je prends l'avion ou le bateau. Cependant, je n'aime pas prendre l'avion parce que j'ai peur des hauteurs. Et je n'aime pas prendre le bateau parce que j'ai le mal de mer. »


L'API Eden renvoie des réponses pour les API AWS, GCP, IBM et Azure :

Eden AI Speech to Text responses for different providers
Eden AI : conversion de la parole au texte

Réponse de Google :


« en Angleterre, nous utilisons cause beaucoup pour voyager je vais à l'école à pied ou à vélo mais pour aller plus loin j'irais en voiture ou en bus pour partir en vacances je prends l'avion aller en bateau mais je n'aime pas prendre l'avion parce que j'ai peur des hauteurs et je n'aime pas y aller en bateau parce que j'ai le mal de mer en Angleterre, nous utilisons beaucoup la cause pour voyager Je vais à l'école à pied ou à vélo, mais pour aller plus loin, j'irais en voiture ou en bus pour partir en vacances Je vais en avion, en bateau, mais je n'aime pas prendre l'avion parce que j'ai le vertige et je n'aime pas y aller en bateau parce que j'ai le mal de mer»


Réponse d'AWS :


« En Angleterre, nous utilisons beaucoup la voiture pour nous déplacer. Je vais à l'école à pied ou à vélo. Cependant, pour aller plus loin, j'irais en voiture ou en bus. tPour partir en vacances. J'y vais en avion ou en bateau. Cependant, je n'aime pas prendre l'avion parce que j'ai peur des hauteurs sur. Et Je n'aime pas prendre le bateau parce que j'ai le mal de mer. »


Réponse de Microsoft Azure :


« En Angleterre, nous utilisons des voitures permis pour voyager. Je vais à l'école à pied ou à vélo. Cependant, pour aller plus loin, j'irais en voiture ou en bus. tPour partir en vacances. J'y vais en avion ou en bateau. Cependant, je n'aime pas prendre l'avion parce que j'ai peur de Hhuit ans et je n'aime pas y aller en bateau parce que j'ai le mal de mer. »


Réponse d'IBM :


en Angleterre, nous utilisons parce que beaucoup pour voyager, je vais à l'école à pied au revoir toutefois il pour y aller a nourri ça J'irais dans le appel ou dans le bus pour partir en vacances je prends l'avion ou le bateau mais je n'aime pas prendre l'avion car j'ai le vertige et je n'aime pas passer tous les deux parce que j'ai le mal de mer


Réponse Rev.ai :


« En Angleterre, nous cause Beaucoup de choses à voyager. Je vais à l'école à pied ou à vélo. Cependant, pour aller plus loin, j'irais en voiture ou en bus. tPour partir en vacances. J'y vais en avion ou en bateau. Cependant, je n'aime pas prendre l'avion parce que j'ai peur de Heights. Et je n'aime pas prendre le bateau parce que j'ai le mal de mer. »


Réponse de l'IA d'assemblage :


« En Angleterre, nous utilisons beaucoup la voiture pour nous déplacer. Je vais à l'école à pied ou à vélo. Cependant, pour aller plus loin, j'irais en voiture ou en bus. tPour partir en vacances, je prends l'avion ou le bateau. Cependant, je n'aime pas prendre l'avion parce que j'ai peur des hauteurs et je n'aime pas prendre le bateau parce que j'ai le mal de mer. »


Bilan du cas d'utilisation n°2 :

Pour ce deuxième cas d'utilisation, nous pouvons constater un énorme écart de performance entre les fournisseurs. Assembly AI fournit un très haut niveau de performance, suivi par Rev.ai un peu moins efficace mais toujours très performant. Derrière, AWS est tout de même plus proche que Microsoft, Google et IBM qui fournit un résultat faible par rapport à Assembly AI et Rev.ai


Cas d'utilisation n°3 :

Audio Pictogram
Écouter Audio 3

Ce troisième cas d'utilisation est un message téléphonique laissé par un homme qui parle de son nouveau téléphone. Nous verrons brièvement les performances avec un fichier audio de qualité téléphonique. Voici le discours :

« Bonjour, c'est encore Paul. Je suis très heureuse d'avoir acheté mon nouvel iPhone aujourd'hui avec le nouveau logiciel. C'est un très très bon téléphone, tout le monde devrait en avoir un. Je l'adore. Il fait beaucoup de choses merveilleuses. Cela me permet de faire mon courrier électronique, ma navigation sur le Web. C'est un téléphone vraiment très chouette. À bientôt. Au revoir ! »


L'API Eden AI renvoie des réponses pour les API AWS, GCP, IBM et Azure :


Eden AI Speech to Text responses for different providers
Eden AI : conversion de la parole au texte

Réponse de Google :


« Bonjour, encore une fois, Paul. Je suis très heureuse d'avoir acheté mon nouvel iPhone aujourd'hui avec le nouveau logiciel. pour très très bon téléphone tout le monde devrait en avoir un Je l'adore il fait plein de choses merveilleuses il me permet de faire mes mails sur ma navigation sur le Web, c'est un téléphone très très chouette, à bientôt au revoir »


Réponse d'AWS :


»Salut. C'est encore Paul. Je suis très enthousiaste. Je suis allé acheter mon nouvel iPhone aujourd'hui avec le nouveau logiciel. C'est un très, très bon téléphone. Tout le monde devrait en avoir un. Je l'adore. Il fait beaucoup de choses merveilleuses. Cela me permet de faire mon courrier électronique, ma navigation sur le Web. C'est un téléphone. Très, très chouette. À bientôt. »


Réponse de Microsoft Azure :


« Bonjour, c'est encore Paul. Je suis très enthousiaste. I serait Je suis allé acheter mon nouvel iPhone aujourd'hui avec le nouveau logiciel. C'est un très très bon téléphone. Tout le monde devrait en avoir un. Je l'adore. Il fait beaucoup de choses merveilleuses. Cela me permet de faire mon courrier électronique, ma navigation sur le Web. C'est un téléphone. Très très chouette. À bientôt. »


Réponse d'IBM :


« Bonjour, c'est encore Paul %HEITATION Je suis Je suis très heureuse d'être allée acheter mon nouvel iPhone aujourd'hui avec le nouveau logiciel. C'est un très très bon téléphone, tout le monde devrait en avoir un. Je l'adore, il fait plein de choses merveilleuses, il me permet de faire mes e-mails sur ma navigation sur le Web, c'est un téléphone très besoins à bientôt »


Réponse Rev.ai :


« Bonjour, c'est Paul. Encore une fois, je suis très enthousiaste. Je suis allé acheter mon nouvel iPhone aujourd'hui avec le nouveau logiciel. C'est un très, très bon téléphone. Tout le monde devrait en avoir un. Je l'adore. Il fait beaucoup de choses merveilleuses. Cela me permet de faire mon courrier électronique, ma navigation sur le Web. C'est un téléphone. C'est très, très chouette. À bientôt. Au revoir. »


Réponse d'AssemblyAI :


« Bonjour, c'est encore Paul, je suis très heureuse. Je suis allé acheter mon nouvel iPhone aujourd'hui avec un nouveau logiciel, c'est un très, très bon téléphone. Tout le monde devrait en avoir un. J'adore, il fait plein de choses merveilleuses. Cela me permet de faire mon courrier électronique. Ma navigation sur le Web c'est un téléphone, c'est très, très chouette. À bientôt. Au revoir. »


Bilan du cas d'utilisation n°3 :

Pour ce troisième cas d'utilisation, tous les fournisseurs offrent des performances élevées. Il est intéressant de noter qu'il existe des fournisseurs qui réussissent malgré certaines difficultés et échouent un autre et vice versa pour d'autres fournisseurs. Mais dans ce genre de cas, le choix de l'API se fait souvent en fonction de la rapidité de traitement ou de la tarification.


Tarification de la reconnaissance vocale

En ce qui concerne les coûts des API, ils sont définis en fonction de seuils de durée avec des prix dégressifs :


A table of Speech to Text providers' pricing
Eden AI : tarification des fournisseurs de reconnaissance vocale

Les prix sont affichés en dollars par seconde. Nous remarquons qu'il s'agit de variations de prix importantes entre les différents prestataires, 3 gammes de prix ressortent du lot. Google et Rev.ai sont les plus chers : pour les volumes supérieurs à 1 million de minutes, Google est 360 % plus cher qu'IBM et Rev.ai 350 %. Viennent ensuite Microsoft et AWS avec des prix similaires. IBM et AssemblyAI sont les moins chers du panel. De plus, la tarification présentée dans ce tableau correspond à des offres standard, elle peut évoluer en fonction de demandes particulières contenant des paramètres spécifiques : par exemple, Google propose des prix plus élevés pour les modèles dédiés aux vidéos et aux appels téléphoniques mais au contraire des prix plus bas lorsque les utilisateurs acceptent de partager leurs données afin d'améliorer les modèles de Google.

Veuillez noter que les prix affichés dans ce tableau peuvent avoir changé selon les fournisseurs au jour de la rédaction de cet article.


Nous avons donc choisi 3 cas d'utilisation aléatoires. Cela montre que la manière de gérer un projet peut être différente pour chaque type de données :

  • Une API très performante
  • Combinaison de résultats de plusieurs API
  • Toutes les API sont vraiment performantes, le choix se fait sur d'autres critères : rapidité de traitement, prix, etc.

Selon le cas d'utilisation, la meilleure façon d'obtenir les meilleures performances est toujours différente. Il est important de noter que Google, AWS, IBM et Microsoft prennent en charge la synthèse vocale dans de nombreuses langues. En comparaison, Assembly AI et Rev.ai ne supportent pour le moment que l'anglais de différents pays, mais ils travaillent actuellement au lancement de modèles dans d'autres langues. Mais autre chose importante à noter : contrairement à IBM et Google, Amazon, Microsoft, Rev.ai et Assembly AI gèrent la ponctuation et c'est une fonctionnalité très importante. Bien entendu, d'autres caractéristiques spécifiques de chaque fournisseur peuvent faire la différence en fonction de votre projet, nous vous recommandons vivement de vérifier tout paramètre optionnel spécifique, cela peut modifier votre choix !

Pourquoi choisir Eden AI ?

Pour GCP, AWS, Azure et Watson, nous n'avons pas besoin d'utiliser directement leur API. En fait, l'API Speech-to-Text Eden AI permet d'obtenir les résultats des API des 4 fournisseurs en une seule demande. En quelques lignes de code, nous pouvons avoir accès aux résultats des 4 fournisseurs. Rev.ai et Assembly AI ne sont pas encore implémentés sur Eden AI, nous utilisons donc directement leur API.

Avec Eden AI, vous pouvez accéder rapidement à divers résultats provenant de différents fournisseurs. Vous pouvez ainsi avoir une meilleure idée de la solution qui vous convient le mieux. D'autres fournisseurs seront ajoutés à Eden AI à l'avenir.

La prise de décision est la suivante :

Tout d'abord, vous analysez vos données sur Eden AI pour comparer les solutions disponibles sur le marché. Trois options s'offrent alors à vous :

  1. Vous trouvez un résultat qui vous pousse à choisir une API adaptée à votre tentative de performance
  2. Différents fournisseurs donnent de très bons résultats mais pas assez. Vous utilisez donc une combinaison de résultats pour rassembler des forces et obtenir un résultat combiné, meilleur que n'importe quel résultat unique d'un fournisseur. Cette opération peut s'avérer fastidieuse pour la synthèse vocale.
  3. Plusieurs fournisseurs offrent des performances très élevées, vous pouvez donc baser votre choix sur d'autres aspects tels que la tarification ou la rapidité de traitement par exemple.

Ce processus vous garantit de faire le bon choix pour réussir votre projet. Eden AI n'est qu'un outil qui permet de réaliser un benchmark très facilement et rapidement. Enfin, il est possible d'utiliser l'API Eden AI pour réaliser l'ensemble du projet en évitant les comptes et les facturations de nombreux fournisseurs, et en conservant la flexibilité de ne pas choisir un seul fournisseur.

Dans le cas des solutions Speech-to-Text, la tarification est un élément important pour la prise de décision, car il existe de fortes différences entre les fournisseurs. Cela est particulièrement vrai lorsqu'il s'agit de volumes importants.

Start Your AI Journey Today

  • Access 100+ AI APIs in a single platform.
  • Compare and deploy AI models effortlessly.
  • Pay-as-you-go with no upfront fees.
Start building FREE

Articles connexes

Essayez Eden AI gratuitement.

Vous pouvez commencer à créer dès maintenant. Si vous avez des questions, n'hésitez pas à discuter avec nous !

CommencezContactez le service commercial
X

Commencez votre parcours IA dès aujourd'hui!

Inscrivez-vous dès maintenant avec des crédits gratuits pour explorer plus de 100 API d'IA.
Obtenir mes crédits maintenant