
Start Your AI Journey Today
- Access 100+ AI APIs in a single platform.
- Compare and deploy AI models effortlessly.
- Pay-as-you-go with no upfront fees.
OpenAI GPT-3 par rapport à d'autres modèles - Les entreprises d'IA devraient-elles vraiment s'inquiéter ?
Dans ce benchmark créé par notre directeur technique et ingénieur en IA Samy Mélaine, vous découvrirez l'état actuel du modèle de langage GPT-3 d'OpenAI par rapport aux autres modèles de langage du marché. Eden AI fournit une API simple et conviviale pour les développeurs qui vous permet d'exécuter de nombreuses technologies d'IA.
L'objectif principal d'OpenAI est de créer une intelligence générale artificielle : « des systèmes hautement autonomes qui surpassent les humains dans les tâches les plus rentables ». Dans le cadre de cet effort, ils ont travaillé sur la combinaison de modèles de texte, d'image et de parole, et ont franchi une étape importante avec la sortie de GPT-3. La question abordée dans cet article est de savoir si GPT-3 peut atteindre des performances de pointe sur n'importe quelle tâche linguistique par rapport à des modèles spécialisés.
L'IA ouverte met ces entreprises au défi (en particulier les modèles NLP) avec leur modèle GPT3. Demandons à ChatGPT (GPT-3 optimisé pour le dialogue) ce qu'est GPT-3 ?
De nombreuses entreprises d'IA forment des modèles spécialisés pour des tâches spécifiques et y donnent accès via des API. Il s'agit notamment de grandes entreprises technologiques telles que Google, Amazon, Microsoft et IBM, ainsi que de petites entreprises qui se concentrent sur des tâches spécifiques, telles que DeepL pour la traduction, Deepgram pour la parole et Clarifia pour la vision.
Les grands modèles de langage tels que GPT-3 devraient être capables de fonctionner correctement sur un large éventail de tâches de traitement du langage naturel sans qu'il soit nécessaire de les affiner, un phénomène connu sous le nom de apprentissage Zero Shot. Vérifions-le !
Pour tester la capacité du GPT-3 à effectuer un apprentissage zéro coup, nous le comparerons à des modèles propriétaires de pointe de différentes entreprises sur quatre tâches : extraction de mots clés, analyse des sentiments, détection de langue, et traduction. Pour ce faire, nous avons utilisé une seule API : Eden AI. Des extraits de code seront fournis pour chaque tâche afin que vous puissiez reproduire vous-même les prédictions sur vos propres données.
Il existe également une version open source d'eDenai que vous pouvez ⭐ trouvez sur GitHub ⭐ en tant que module Python !
La détection de la langue consiste simplement à renvoyer dans quelle langue un texte est écrit.
Nous avons utilisé un ensemble de données intéressant de Hugging Face avec 20 langues : arabe (ar), bulgare (bg), allemand (de), grec moderne (el), anglais (en), espagnol (es), français (fr), hindi (hi), italien (it), japonais (ja), néerlandais (nl), polonais (pl), portugais (pt), russe (ru), swahili (sw), thaï (th), turc (tr), ourdou (ur), vietnamien (vi) et chinois (zh).
Nous avons comparé les performances d'OpenAI à celles de Google, Amazon et IBM sur une série de plusieurs centaines d'exemples, en utilisant la précision comme métrique d'évaluation :
Les résultats sont présentés ci-dessous, OpenAI se classant troisième sur les quatre fournisseurs d'IA que nous avons choisis.
Cette tâche consiste à comprendre le sentiment de l'écrivain lors de la rédaction d'un texte spécifique. Cela peut être Positif, Négatif ou Neutre.
La plupart des ensembles de données que nous avons trouvés n'incluaient pas de sentiment « neutre », à l'exception du Ensemble de données d'analyse des sentiments sur Twitter de Kaggle.
Nous avons comparé Open AI aux API de Google, Amazon et IBM à l'aide de la métrique de précision :
Une fois de plus, OpenAI décroche la 3e place :
L'extraction de mots clés ou de phrases clés consiste à pouvoir extraire les mots ou les phrases qui représentent le plus un texte donné.
Nous avons sélectionné nos ensembles de données dans le référentiel public GitHub Extraction automatique des phrases clés. La plupart des ensembles de données répertoriés étaient trop longs pour la limite de 4 000 jetons d'OpenAI, nous avons donc dû utiliser le jeu de données de résumés Hulth2003.
Étant donné que les différents fournisseurs sont formés pour renvoyer les mots clés et les phrases clés présents dans le texte d'origine, nous avons procédé à un nettoyage pour supprimer tous les mots clés qui n'étaient pas présents dans les résumés. Nous avons obtenu 470 résumés.
Nous avons comparé Open AI à Microsoft, Amazon et IBM et nous avons mesuré leurs performances à l'aide de la métrique de précision moyenne :
Cette fois, le GPT-3 d'OpenAI a été classé dernier :
1. Microsoft 0,6513312046679187
3. IBM 0.6022276518997
2. Amazon 0,4954784007523
4. OpenAI 0.2598775421
La traduction automatique est le processus de conversion d'un texte écrit dans la langue A dans la langue B.
Pour notre jeu de données de test, nous avons sélectionné 500 exemples de traductions entre différentes paires de langues latines (allemand-français, anglais-français, français-italien, allemand-espagnol, allemand-suédois) du Défi de traduction Tatoeba au groupe de recherche sur les technologies linguistiques de l'université d'Helsinki.
Nous avons comparé Open AI à DeepL, ModernMT, NeuralSpace, Amazon et Google. UNE de nombreux indicateurs existent pour l'évaluation automatique de la traduction automatique. Nous avons choisi COMET par Unbabel (wmt21-comet-da) qui est basé sur un modèle d'apprentissage automatique conçu pour obtenir des niveaux de corrélation de pointe avec les jugements humains (en savoir plus sur leur article).
Les scores ne sont pas interprétables mais sont utilisés pour classer les modèles de traduction automatique. Là encore, OpenAI occupe la dernière place dans cette tâche.
Le GPT-3 d'OpenAI a obtenu des résultats impressionnants dans les tâches de traitement du langage naturel, se rapprochant du niveau des modèles multitâches « zero shot » sans aucun réglage précis.
Cependant, pour des tâches spécifiques, GPT-3 n'est peut-être pas actuellement le meilleur choix en tant qu'API en raison de ses performances inférieures à celles des autres modèles et de la limite de jetons d'entrée 4k qui peut rendre difficile le traitement de textes plus longs. Il est important d'évaluer soigneusement les différents modèles et de choisir celui qui convient le mieux à une tâche ou à une application donnée.
Nous devons encore suivre de près les nouveaux modèles sur lesquels OpenAI travaille. Comme Sam Altman en a parlé dans une interview, ils le sont et mettent en œuvre une approche d'apprentissage continu qui permettrait à leur modèle de s'améliorer constamment en l'alimentant sur Internet. Ils prévoient également d'unifier leurs modèles pour gérer plusieurs types d'entrées, ce qui aboutira à un modèle unique capable d'analyser tout type de données.
Lors de la sélection d'un modèle d'intelligence artificielle pré-entraîné et de son API pour une tâche ou une application spécifique, il est essentiel d'évaluer soigneusement les options disponibles et de choisir celle qui est la plus appropriée. Cela implique de prendre en compte les performances et la précision des modèles et des API pour les tâches pertinentes, la taille et la complexité de l'ensemble de données, ainsi que les contraintes relatives aux ressources telles que le temps, la puissance de calcul et le budget.
L'utilisation de l'API unique d'Eden AI est rapide et facile et peut contribuer au succès du projet !
Nous proposons une API unifiée pour tous les fournisseurs : simple et standard à utiliser, avec un switch rapide qui vous permet d'accéder très facilement à toutes les fonctionnalités spécifiques (diarisation, horodatage, filtre de bruit, etc.).
Le format de sortie JSON est le même pour tous les fournisseurs grâce au travail de standardisation d'Eden AI. Les éléments de réponse sont également standardisés grâce aux puissants algorithmes de correspondance d'Eden AI. Cela signifie, par exemple, que la diarisation serait au même format pour chaque appel d'API de synthèse vocale.
Avec Eden AI, vous avez la possibilité d'intégrer une plateforme tierce : nous pouvons développer rapidement des connecteurs. Pour aller plus loin et personnaliser votre demande avec des paramètres spécifiques, consultez notre documentation.
Vous pouvez commencer à créer dès maintenant. Si vous avez des questions, n'hésitez pas à discuter avec nous !
CommencezContactez le service commercial