Tutoriel

Modélisation prédictive et AutoML : quel fournisseur d'IA choisir ?

Cet article vous est proposé par l'équipe d'Eden AI (www.ai-compare.com). Nous vous permettons de tester et d'utiliser en production un grand nombre d'IA...

Modélisation prédictive et AutoML : quel fournisseur d'IA choisir ?
TABLE DES MATIÈRES

Cet article vous est proposé par l'équipe Eden AI. Nous vous permettons de tester et d'utiliser en production un grand nombre de moteurs d'IA provenant de différents fournisseurs directement via notre API et notre plateforme. Dans cet article, nous testons plusieurs solutions pour générer des modèles prédictifs de classification ou de régression avec deux cas d'utilisation : la prédiction des coûts associés à un assuré (régression) et l'attribution ou non d'un crédit bancaire (classification). Bonne lecture !


Vous êtes fournisseur de solutions et souhaitez intégrer Eden AI, contactez-nous à l'adresse suivante : contact@edenai.co


Bien avant que le terme « intelligence artificielle » ne soit inventé, les mathématiques étaient déjà utilisées pour analyser des données numériques. De nombreuses entreprises se sont intéressées à l'analyse des données à des fins de prévision et d'optimisation. Les méthodes statistiques telles que la régression linéaire sont utilisées depuis longtemps et dans de nombreux domaines.

Cependant, l'essor de l'intelligence artificielle, en particulier de l'apprentissage automatique, a démocratisé l'utilisation de ces méthodes statistiques pour créer des algorithmes d'apprentissage permettant des prédictions précises et automatisées.

Machine Learning Algorithms
Eden AI : Algorithmes d'apprentissage automatique

Régression

Les modèles sont construits, par exemple, sur la base d'une régression pour créer un modèle permettant des prévisions numériques (par exemple, les ventes, la température, le nombre de personnes attendues à un événement, etc.).

Ces modèles sont basés sur une base de données d'entrée qui peut être :

  • caractéristiques,
  • des données historiques (sur plusieurs années),
  • une donnée de sortie correspondant à la variable que vous souhaitez prédire.

Classification

Un autre type de modèle d'apprentissage automatique est la classification. Les algorithmes de classification classeront un individu en fonction des paramètres d'entrée. Voici quelques exemples :

  • prédire la race d'un chien en fonction de ses caractéristiques,
  • prédiction de la validité ou non d'une demande de crédit,
  • prévisions météorologiques (ensoleillé, nuageux ou pluvieux),
  • prédiction de l'état de fonctionnement des machines, etc.

Ainsi, l'utilisation du Machine Learning (classification et régression notamment) s'est démocratisée dans presque tous les domaines : affaires, météo, finance, commerce, marketing, industrie, santé, etc.

Certaines entreprises concentrent leurs stratégies de vente et de gestion sur des algorithmes d'apprentissage automatique.

AutomL

Le succès de l'apprentissage automatique a entraîné une recrudescence des data scientists : des experts en intelligence artificielle, qui élaborent à la fois des modèles mathématiques complexes et développent ses modèles afin de les implémenter.

Récemment, de nombreux fournisseurs d'IA ont réalisé que l'expertise requise pour utiliser l'apprentissage automatique constituait un obstacle à son expansion au sein des entreprises. C'est ainsi qu'est apparu l'Auto Machine Learning (AutoML), conçu pour rendre le Machine Learning accessible au plus grand nombre, notamment aux développeurs n'ayant aucune connaissance en mathématiques.

AutoML (Automated Machine Learning) permet de prendre en charge et d'automatiser de nombreuses étapes du processus de création d'un modèle d'apprentissage automatique :

  • traitement des données (valeurs manquantes, doublons, normalisation)
  • extraction des étiquettes (caractéristiques)
  • sélection d'étiquettes
  • choix de l'algorithme et des paramètres d'optimisation

AutoML permet à une entreprise de réaliser un projet d'apprentissage automatique sans l'expertise d'un data scientist ou d'un fournisseur de services de data science : il induit ainsi une réduction drastique du coût du projet. De plus, toute la question de la production est simplifiée par le fait que les fournisseurs de solutions AutoML assurent l'hébergement du modèle et le stockage des données.

La contrepartie de l'utilisation d'AutoML est le flou qui entoure l'algorithme utilisé. Il existe un effet de « boîte noire », c'est-à-dire que l'utilisateur ne dispose pas de beaucoup d'informations sur l'algorithme détaillé et donc sur l'explication des prédictions.

Bien entendu, l'utilisation d'AutoML n'est pas recommandée pour tous les projets. L'AutoML présente quelques défauts qui obligent à utiliser un algorithme personnalisé :

Table of the pros and cons of AutoML
Eden AI : avantages et inconvénients de l'apprentissage automatique (AutoML)

Notez qu'AutoML n'est pas non plus un outil magique. La majeure partie du travail d'un data scientist, bien que dissociée des mathématiques et du développement informatique, est la collecte et la mise en forme des données. Ce travail fastidieux ne peut être que manuel et nécessite une expertise métier (en fonction du domaine d'application) qu'AutoML ne peut fournir.

En ce qui concerne la tarification, tous les fournisseurs proposent une tarification similaire :

  • un paiement pour la formation des modèles
  • un paiement pour le déploiement du modèle en fonction : de la quantité de données et/ou du nombre de cœurs demandés

Prestataires

Au cours de notre expérience sur AutoML, nous nous sommes projetés dans le rôle d'une entreprise qui souhaite utiliser l'apprentissage automatique pour répondre à des problèmes de prévision des coûts et de classification des crédits. Nous incarnons une entreprise sans expert en IA, souhaitant obtenir un haut niveau de performance à moindre coût, et sans faire appel à un prestataire de services.

La première question qui me vient à l'esprit est donc : « Quel fournisseur choisir ?

Nous avons donc choisi 5 fournisseurs de solutions AutoML :

  • Tableaux AutoML de Google Cloud : https://cloud.google.com/automl-tables
  • Apprentissage automatique Amazon AWS : https://aws.amazon.com/fr/machine-learning
  • Apprentissage automatique automatique Microsoft : https://azure.microsoft.com/en-us/services/machine-learning/automatedml/
  • IBM AutoAI : https://www.ibm.com/cloud/watson-studio/autoai
  • BigML en HTML : https://bigml.com/whatsnew/optiml

Nous avons testé les 4 solutions des plus grands fournisseurs d'IA du marché, et nous voulions également tester une solution d'un plus petit fournisseur : BigML Opti ML.

Cas d'utilisation

Afin d'avoir une vision claire du marché et des différents fournisseurs, nous avons comparé ces 5 solutions sur deux projets différents. Un projet de classification et un projet de régression présentant d'autres différences importantes : taille de la base de données, nombre d'entrées, domaine. Nous allons donc réaliser ces deux projets afin d'analyser les résultats des cinq fournisseurs respectivement sur les deux projets.


Cas d'utilisation de la régression : frais d'assurance

Le premier projet consiste à prévoir la charge financière qu'une personne représentera pour une compagnie d'assurance. En tant que compagnie d'assurance, l'objectif est d'estimer le coût du profil de chaque personne en fonction de paramètres/caractéristiques : âge, sexe, IMC, nombre d'enfants, fumeur/non-fumeur, région. À cette fin, nous disposons d'une base de données de 1 339 personnes composée des entrées mentionnées ci-dessus et de la sortie : charges (coût).

Database of different inputs and an output (charges) for insurance costs

Cas d'utilisation de la classification : validation de crédit

Le second projet vise à prédire si un crédit doit être accepté ou non. Dans ce cas, nous nous plaçons dans la position d'une banque souhaitant développer un modèle automatique de validation ou d'invalidation des demandes de crédit. L'objectif est de prédire oui/non pour chaque demande de crédit en fonction des paramètres suivants : âge, profession, état civil, domaine d'études, crédit en défaut, solde annuel moyen, prêt immobilier, prêt personnel, type de contact, dernier mois de contact de l'année, durée du dernier contact, nombre de contacts établis pendant cette campagne et pour ce client, nombre de jours écoulés depuis la dernière fois que le client a été contacté lors d'une campagne précédente, nombre de réalisée avant cette campagne et pour ce client, résultat de la commercialisation précédente campagne.

Comme pour le premier projet, l'ensemble de données présente à la fois des données catégorielles et numériques.

Nous disposons donc d'une base de données de 45 212 personnes composée des entrées mentionnées ci-dessus et de la sortie : réponse (oui/non).

Database of differents inputs and an output (response) for credit validation

Avantages et inconvénients des solutions

Après avoir appréhendé les 5 solutions sur deux cas d'utilisation distincts, quelques différences sont apparues entre les solutions dans l'approche et dans l'utilisation.

Tout d'abord pour accéder au service de chaque fournisseur, le processus diffère. Chez Google, il vous suffit de vous connecter à la console, d'accéder au service AutoML Tables et de créer un jeu de données. De même, il vous suffit de vous connecter à la console AWS et d'accéder à Amazon Machine Learning. Les affaires Microsoft et IBM sont plus complexes. Pour Microsoft, il est nécessaire de se connecter au portail Azure, puis de créer une nouvelle ressource d'apprentissage automatique. Ensuite, vous devez vous connecter à Microsoft Azure Machine Learning Studio et créer un nouvel environnement d'exécution. Le processus n'est pas très intuitif et plutôt laborieux.

L'accès à AutoML chez IBM n'est pas facile non plus : connectez-vous à Watson Studio, créez un nouveau projet, associez l'expérience AutoAI à ce projet, puis choisissez l'instance de Machine Learning (et la machine associée). L'étape ne semble pas complexe dans l'explication, mais elle est loin d'être intuitive une fois sur la plateforme.

L'utilisation de BigML ne présente aucune difficulté, il suffit de se connecter à son tableau de bord pour pouvoir construire directement son modèle.

Vient ensuite l'étape d'importation de la base de données. Chez Google et Amazon, la première étape consiste à stocker le fichier .csv dans un bucket de leur service Cloud. Il peut ensuite être importé facilement, après la création d'une source de données pour Amazon.

Avec Microsoft, vous devez créer un jeu de données : importer un fichier .csv, afficher le jeu de données importé et éventuellement modifier le type de données. Pour IBM, vous devez ajouter un « actif » au projet, puis importer cet actif dans AutoAI Experiment. L'interface BigML propose simplement d'importer une source de données (notre fichier .csv), puis de la configurer (configurer les colonnes) et de l'importer en tant que jeu de données.

Ensuite, quel que soit le fournisseur, vous devrez choisir la donnée cible, c'est-à-dire la colonne que vous souhaitez prédire.

Enfin, nous arrivons à l'étape clé du processus : la création et le paramétrage de l'entraînement du modèle. Chaque fournisseur restreint ou autorise certains éléments de contrôle sur la réalisation du modèle, à des degrés différents :


Tableaux Google AutoML

Tableaux Google AutoML laisse le choix à l'utilisateur, soit d'utiliser la distribution automatique du split Entraînement/Test, soit de choisir lui-même cette distribution. L'utilisateur a alors différents choix à faire en fonction du type d'algorithme utilisé :

  • Pour une régression, l'utilisateur devra choisir le paramètre d'optimisation sur lequel son modèle sera basé : RMSE (capturer les valeurs les plus extrêmes avec précision), EAM (les valeurs extrêmes auront moins d'impact sur le modèle), RMSLE (pénaliser l'erreur sur la taille relative plutôt que sur la valeur absolue : utile pour les valeurs prédites et réelles très élevées)
  • Pour une classification, l'utilisateur pourra également choisir le paramètre d'optimisation du modèle : AUC ROC (distinguer les classes), Perte logistique (maintenir un niveau élevé de précision des probabilités de prédiction), AUC de la courbe de précision/rappel (maximiser la courbe de précision/rappel pour la classe minoritaire), précision (proportion correctement identifiée d'identifications positives), rappel (proportion correctement identifiée de résultats positifs réels).

Google offre la possibilité d'influencer ses paramètres, mais l'utilisateur peut utiliser les choix par défaut. Pour la classification et la régression, il est nécessaire de définir le nombre de nœuds de lecteur et il est possible d'exclure des colonnes de la base de données.

Google Cloud AutoML Tables
Eden AI : Tableaux AutoML de Google Cloud

Apprentissage automatique AWS

Apprentissage automatique AWS offre à l'utilisateur deux possibilités :

  • Par défaut : si l'utilisateur choisit cette option, il disposera d'un rapport d'entraînement par défaut, de paramètres d'entraînement par défaut, d'une distribution des tests d'entraînement/de l'ensemble de données à 70 %/30 %.
  • Personnalisé : l'utilisateur pourra choisir la taille maximale du modèle (correspondant au nombre de modèles créés par le modèle), le nombre d'itérations (le nombre de fois qu'Amazon ML analysera les données pour trouver des modèles), le type de régularisation (pour éviter le surajustement).

L'utilisateur pourra également choisir s'il souhaite un entraînement/test fractionné automatique (aléatoire ou sur les derniers 30 % du jeu de données) ou un jeu de données de test importé manuellement.

ML model settings
Eden AI : apprentissage automatique AWS


Apprentissage automatique Microsoft Azure

Apprentissage automatique Microsoft Azure utilise les algorithmes de Scikit Learn, il crée donc de nombreux modèles avec différents algorithmes pour trouver celui qui donne les meilleurs résultats. Cette solution permet à l'utilisateur de choisir directement le type d'algorithme correspondant au jeu de données et au problème : classification, régression ou séries temporelles (prévision de séries chronologiques).

Il est possible de choisir la métrique principale pour optimiser le modèle, bloquer certains algorithmes, choisir la durée de l'entraînement, le nombre d'itérations simultanées (modèles simultanés). L'utilisateur peut également exclure des variables ou choisir le type de validation (Monte-Carlo, validation croisée, train de validation fractionné).

Microsoft Azure Machine Learning
Eden AI : Apprentissage automatique sur Microsoft Azure


Expérience IBM Watson AutoAI

Expérience IBM Watson AutoAI propose à l'utilisateur un réglage assez proche de celui de Microsoft. Un choix de la distribution train/test est possible, ainsi que l'exclusion de variables. Pour la prédiction, l'utilisateur peut choisir entre : la régression, la classification binaire et la classification multiclasse. De plus, il est possible de choisir les métriques d'optimisation et d'exclure les algorithmes.

Eden AI : IBM Watson AutoAI

Grand ML

Grand ML fonctionne très simplement mais offre moins de contrôle sur les paramètres du modèle. L'utilisateur peut créer une distribution train/test à 80 %/20 %. Il est possible de choisir la métrique d'optimisation du modèle, d'attribuer des poids aux différentes classes et également de choisir le pourcentage d'échantillons de jeux de données à utiliser pour la construction du modèle.

BigML settings
Eden AI : BigML

Par exemple, IBM et Microsoft proposent un large éventail de paramètres pour personnaliser le modèle. Google propose un peu moins de paramètres mais ils sont bien détaillés et très accessibles. BigML propose peu d'options configurables, tandis qu'Amazon propose un accès à différents paramètres : peu abordable pour les utilisateurs novices qui n'auront pas les connaissances ou l'expérience nécessaires pour capitaliser sur ces paramètres.


Evaluation du modèle

L'évaluation du modèle détermine la fiabilité du modèle en fonction de :

  • des critères de performance représentatifs de la qualité générale du modèle,
  • des critères plus spécifiques en fonction des besoins de l'utilisateur.

Certaines métriques sont communes à tous les fournisseurs : RMSE pour la régression et AUC ROC pour la classification. Ce sont ces métriques que nous allons prendre en compte pour comparer les différentes solutions.

Le RMSE est l'erreur quadratique moyenne. Il s'agit de l'écart type des valeurs résiduelles (erreurs de prédiction). Les valeurs résiduelles sont une mesure de la distance entre les points de données et la droite de régression.

La formule est la suivante :

RMSE formula

Avec :

  • f = prévisions (valeurs attendues ou résultats inconnus),
  • o = valeurs observées (résultats connus)

La courbe AUC — ROC est une mesure de performance pour les problèmes de classification à différents seuils. La ROC est une courbe de probabilité et l'AUC est le degré ou la mesure de séparabilité.

La métrique utilisée est l'aire sous la courbe :

A graph of the AUC - ROC curve


Avec :

TPR / Recall / Sensitivity formula
FPR formula

Google, Microsoft et IBM fournissent une évaluation très complète avec un grand nombre de mesures et une matrice de confusion pour la classification. BigML fournit moins de métriques de résultats, mais cela reste suffisant. D'autre part, Amazon n'affiche qu'une seule métrique concrète : RMSE pour la régression et AUC ROC pour la classification. Bien qu'il s'agisse des indicateurs les plus courants, ils peuvent ne pas être suffisants pour évaluer réellement la qualité du modèle en fonction du problème.

A table comparing the RMSE of different platforms
Eden AI : cas d'utilisation de la régression : frais d'assurance

Plus le RMSE est faible, meilleures sont les performances du modèle. Alors voici : BigML > IBM Watson > Google Cloud > Microsoft Azure > Amazon Web Services

A table comparing the AUC ROC of different platforms
Eden AI : cas d'utilisation de la classification - validation du crédit

Plus l'AUC ROC (aire sous la courbe) est proche de 1, meilleures sont les performances du modèle. Alors voici : IBM Watson > Google Cloud > Microsoft Azure > Amazon Web Services > BigML

Ainsi, pour le projet de prévision des coûts d'assurance, BigML sera privilégié. En revanche, pour le projet de prédiction de validation de crédit, BigML est peu performant et IBM et Google seront privilégiés pour ce projet.


Conclusion

AutoML convient mieux aux développeurs qu'aux data scientists, mais ces solutions présentent tout de même de réels avantages.

Pour chaque projet, chaque cas d'utilisation, une analyse est nécessaire afin d'évaluer les performances et les conditions d'utilisation de chaque solution. Il a été observé au cours de cette étude que chaque cas est spécifique et que nous ne pouvons être sûrs du choix de la solution qu'après avoir testé plusieurs solutions disponibles sur le marché. Certaines solutions peuvent donner de très mauvais résultats, d'autres excellents, et cette logique peut totalement changer pour un autre cas d'utilisation. De plus, selon le projet, la priorité sera donnée aux coûts, aux résultats, aux temps de calcul et au nombre de demandes par seconde, ou à la facilité d'utilisation et de manipulation. Ce sont tous des critères qui peuvent avoir un impact sur la décision, et qui permettent de choisir la solution la mieux adaptée au projet, la solution la plus pertinente.

C'est sur cette base que notre offre Eden AI entre en jeu. Grâce à notre expertise approfondie dans l'utilisation de ces différentes solutions d'intelligence artificielle, nous sommes en mesure de vous fournir la recommandation la plus adaptée à votre problème. N'hésitez pas à nous contacter pour décrire votre besoin : contact@edenai.co


Start Your AI Journey Today

  • Access 100+ AI APIs in a single platform.
  • Compare and deploy AI models effortlessly.
  • Pay-as-you-go with no upfront fees.
Start building FREE

Articles connexes

Essayez Eden AI gratuitement.

Vous pouvez commencer à créer dès maintenant. Si vous avez des questions, n'hésitez pas à discuter avec nous !

CommencezContactez le service commercial
X

Commencez votre parcours IA dès aujourd'hui!

Inscrivez-vous dès maintenant avec des crédits gratuits pour explorer plus de 100 API d'IA.
Obtenir mes crédits maintenant