
Commencez votre aventure avec l’IA dès aujourd’hui
- Accédez à plus de 100 API d’IA sur une seule plateforme.
- Comparez et déployez des modèles d’IA en toute simplicité.
- Paiement à l’usage, sans frais initiaux.
L'analyse des sentiments (ou exploration d'opinions) est une technique de traitement du langage naturel utilisée pour déterminer si les données sont...
Dans cet article, nous allons comparer les performances d'extraction des sentiments entre les moteurs d'analyse des sentiments et les moteurs de classification des textes personnalisés. L'idée est de montrer les avantages et les inconvénients de ces deux types de moteurs sur un jeu de données concret.
L'analyse des sentiments (ou exploration d'opinions) est une technique de traitement du langage naturel utilisée pour déterminer si les données sont positives, négatives ou neutres. L'analyse des sentiments est souvent réalisée sur des données textuelles pour aider les entreprises à suivre l'opinion des clients sur la marque et le produit dans les commentaires des clients et à comprendre leurs besoins.
La classification de texte est une technique d'apprentissage automatique qui attribue un ensemble de catégories prédéfinies à un ensemble de textes. Les classificateurs de texte peuvent être utilisés pour organiser, structurer et classer à peu près n'importe quel type de texte. Il doit être entraîné à l'aide d'un ensemble de textes étiquetés.
Les moteurs d'analyse des sentiments sont des moteurs entraînés, tandis que les moteurs de classification de texte personnalisés sont des moteurs « AutoML » (Automated Machine Learning).
Il est très important de faire la distinction entre les API entraînées et les API AutoML :
Cet article compare les API Trained Sentiment déjà utilisées et les API de classification de texte personnalisées. L'objectif est de vous donner un aperçu de ce qu'il faut choisir en fonction du prix, des performances, de l'intégration, etc.
Au cours de notre étude, nous avons utilisé différents moteurs d'analyse des sentiments et de classification de texte personnalisée. Pour accéder facilement à ces moteurs, nous avons utilisé Eden AI qui centralise plusieurs moteurs NLP provenant de différents fournisseurs.
Pour l'analyse des sentiments, nous avons utilisé :
Pour la classification de texte personnalisée, nous avons utilisé :
C'est l'attraction des API des fournisseurs que nous avons testées. Il est intéressant de noter qu'il existe de nombreuses autres solutions propriétaires et open source. On peut citer Singe Learn, Deux mots, Connexun, etc.
Comme indiqué précédemment, l'analyse des sentiments est utilisée dans des centaines de domaines, pour de nombreux cas d'utilisation. Dans cet article, nous avons choisi un cas d'utilisation très courant :
Vous êtes une entreprise qui souhaite extraire des tweets sur notre support et nos produits. Vous souhaitez extraire le sentiment de ces tweets afin d'analyser les commentaires négatifs et d'améliorer nos services.
Pour illustrer ce cas d'utilisation, la comparaison a été réalisée sur ce jeu de données Kaggle : https://www.kaggle.com/sureshmecad/identify-the-sentiments-analytics-vidhya?select=train.csv
Nous conservons les 1000 dernières lignes de l'ensemble de données d'entraînement en tant que jeu de données de test pour comparer les prévisions issues de l'analyse des sentiments et des moteurs de classification de texte personnalisés. Le reste de l'ensemble de données est utilisé pour entraîner des moteurs de classification de texte personnalisés.
Classification de texte personnalisée
Tout d'abord, nous avons commencé à former des modèles de classification de texte personnalisés avec les moteurs Google Cloud et AWS. Nous avons utilisé directement le Eden AI plateforme qui nous permet d'entraîner à la fois les modèles GCP et AWS sur une plateforme unique :
La création est très simple, il suffit de sélectionner la langue, le type de classification et d'importer notre jeu de données. Une fois le projet créé, nous pouvons entraîner les moteurs GCP et AWS :
Une fois les modèles entraînés, vous pouvez générer des prédictions directement depuis la plateforme à l'aide de notre ensemble de données de test :
API d'analyse des sentiments
Pour la prédiction à l'aide d'API d'analyse des sentiments entraînées, nous utilisons Kit de développement logiciel Eden AI Python. Il nous permet d'utiliser un script unique pour générer des prévisions avec les moteurs GCP, AWS et Azure :
Le code est le même pour les moteurs AWS et Azure, nous avons juste dû changer le paramètre « provider » en « amazon » et « microsoft ».
Voici la précision de nos formations, il ne s'agit que d'une métrique indicative :
Maintenant, nous générons des prédictions avec notre ensemble de données de test (1000 prédictions) et nous calculons la précision.
Après avoir obtenu des performances pour la classification personnalisée des textes, nous répétons la même opération pour les moteurs d'analyse des sentiments.
Les moteurs AWS et Azure utilisent des pourcentages pour les valeurs positives, négatives et neutres (équivalent à une valeur mixte pour AWS). Nous montrons donc ici les résultats lorsque nous conservons des prédictions et des résultats « neutres » et « mixtes » sans les conserver :
Précision (plus de 1000 prédictions par lot) :
La tarification entre les API d'analyse des sentiments et la classification de texte personnalisée est très différente. En fait, pour les API d'analyse des sentiments, vous ne paierez que pour les inférences que vous faites (base de tarification des caractères), alors que pour la classification de texte personnalisée, vous devrez payer pour la formation du modèle, le déployer et effectuer des inférences.
Voici les tarifs :
Il s'agit des prix correspondant à la limite de consommation la plus basse. Avec des volumes plus élevés, vous pouvez obtenir de meilleurs prix.
Le prix de l'inférence est de 1 dollar par million de caractères pour l'analyse des sentiments et de 5 dollars par million de caractères pour la classification personnalisée des textes.
L'API d'analyse des sentiments est 5 fois moins chère que la classification de texte personnalisée, sans tenir compte des coûts de formation et de déploiement.
Les deux solutions sont viables. Le choix entre l'API d'analyse des sentiments et la classification de texte personnalisée doit être fait en fonction des performances attendues et du budget alloué. Vous pouvez certainement obtenir de meilleures performances grâce à la classification de texte personnalisée, mais les performances d'analyse des sentiments restent acceptables. Comme le montre l'article, l'analyse des sentiments est beaucoup moins chère que la classification de texte personnalisée.
Pour conclure, nous pouvons vous conseiller d'essayer d'abord l'analyse des sentiments et d'utiliser une classification de texte personnalisée si vous souhaitez obtenir une meilleure précision.
Vous pouvez commencer à créer dès maintenant. Si vous avez des questions, n'hésitez pas à discuter avec nous !
CommencezContactez le service commercial