
Commencez votre aventure avec l’IA dès aujourd’hui
- Accédez à plus de 100 API d’IA sur une seule plateforme.
- Comparez et déployez des modèles d’IA en toute simplicité.
- Paiement à l’usage, sans frais initiaux.
Cet article vous est proposé par l'équipe d'Eden AI. Nous vous permettons de tester et d'utiliser en production un grand nombre de moteurs d'IA de...
Dans cet article, nous expliquons comment l'utilisation d'un pipeline d'IA permet de résoudre facilement des cas d'utilisation complexes nécessitant une OCR et une analyse de texte.
Ces dernières années, dans le monde de l'intelligence artificielle (IA), l'une des applications les plus populaires est la vision par ordinateur. Ce succès s'explique principalement par la grande diversité du marché et des besoins : imagerie médicale, industrie, transport, etc. La vision par ordinateur permet notamment la reconnaissance d'images pour tous les processus de contrôle, la détection d'objets et la détection faciale.
De nombreuses entreprises utilisent détection d'objets pour automatiser les processus de contrôle par exemple. Ils sont alors confrontés à deux choix :
1. En utilisant des modèles pré-entraînés (modèles déjà entraînés pour classer un type spécifique d' « objet ») des principaux fournisseurs d'IA en vision par ordinateur (Google Cloud, Amazon Web Services, IBM Watson, Microsoft Azure, Clarifai, etc.), dans ce cas, l'objet qu'ils souhaitent identifier est automatiquement reconnu par ces modèles.
2. Si aucun modèle pré-entraîné n'est satisfaisant, l'utilisateur devra entraîner un modèle spécifique pour ses propres besoins. Dans ce cas, il a deux possibilités :
La dernière possibilité repose sur une technologie appelée Auto Machine Learning (AutoML) appliquée aux algorithmes de Deep Learning (réseaux de neurones) utilisés en vision. Ce service a été créé pour répondre à la volonté de démocratiser l'IA et pour permettre aux développeurs n'ayant pas de réelles connaissances en matière d'apprentissage automatique de pouvoir entraîner des modèles facilement. Ce service d'IA offre la possibilité d'obtenir des résultats rapides et précis à moindre coût, et sans l'expertise d'un data scientist sur un sujet comme la vision par ordinateur qui utilise des algorithmes très complexes.
Cependant, l'utilisation de la génération automatique du modèle personnalisé signifie également renoncer au contrôle total de la solution technique et des algorithmes sous-jacents au modèle. Bien que de nombreuses techniques utilisées par AutoML soient connues, telles que l'apprentissage par transfert (utilisant des algorithmes de modèles pré-entraînés existants pour détecter des objets similaires) et la recherche d'architecture neuronale (un algorithme permettant de créer des réseaux de neurones à partir de blocs assemblés, supprimés et ajoutés), l'algorithme n'est jamais connu avec précision par l'utilisateur.
Lors de notre étude d'AutoML Vision (nom associé à Google, mais considéré dans cet article comme généraliste), nous nous sommes projetés dans le rôle d'une entreprise qui souhaite développer un projet de classification d'images pour un objet très spécifique. Nous incarnons une entreprise qui ne dispose pas d'un expert en IA et qui souhaite obtenir un haut niveau de performance à moindre coût, donc sans faire appel à un prestataire. La première question qui nous vient à l'esprit est donc : « Quel fournisseur dois-je choisir ? » Un premier constat apparaît après avoir parcouru le marché : seuls quelques fournisseurs proposent un service AutoML Vision. Nous avons décidé d'en tester 4 :
En tant qu'entreprise en phase de démarrage dans le domaine de l'IA, nous avons jeté un coup d'œil au Forester Computer Vision New Wave. Nous avons examiné la plateforme des quatre fournisseurs les mieux classés et vérifié s'ils offraient un service AutoML Vision. Nous aurions pu choisir d'autres fournisseurs comme IBM Watson Visual Recognition ou Vize.ai de Ximilar.
Afin d'avoir une vision claire du marché et des différents fournisseurs, nous avons comparé ces 4 solutions sur deux projets différents. Deux projets de classification d'images présentant de réelles différences : taille de la base de données, libellés, domaine, qualité de la base de données. Nous allons donc réaliser ces deux projets pour analyser les résultats des quatre fournisseurs respectivement sur les deux projets.
Le premier projet consiste en la reconnaissance d'un boîtier spécifique utilisé pour la mise en place d'une connexion Internet de nouvelle génération. L'objectif est la création d'un modèle permettant d'indiquer la présence ou non de cette case sur n'importe quelle photo. Nous disposons d'un ensemble de données de 2586 images étiquetées « boîte » et de 1013 images négatives (sans la boîte).
Le second projet vise à reconnaître le mélanome. L'objectif est de créer un modèle permettant de classer les mélanomes selon qu'ils sont bénins ou malins. Pour ce projet, nous disposons d'un ensemble de données composé de 460 images étiquetées « bénignes » et 462 images étiquetées « malignes ».
Ici, nous avons testé des solutions dans deux domaines différents, avec deux problèmes différents. Cela peut nous montrer s'il est vraiment nécessaire d'effectuer le test pour chaque projet différent.
Après avoir appréhendé et pris en main les 4 solutions sur deux cas d'utilisation distincts, de nombreuses différences sont apparues entre les solutions en termes d'approche et d'utilisation. La première remarque concerne la toute première étape : créer un compte (et obtenir un jeton d'API si vous utilisez une API). Cette étape est laborieuse et prend déjà un certain temps. Cela reste plus chronophage sur Google et Amazon, à supposer que vous n'ayez aucune expérience sur ces plateformes.
Le processus nous amène ensuite à la plateforme AutoML Vision. Cela est évident dans Google et Microsoft. Encore plus intuitif pour Clarifai, qui ne propose que des services de vision. Pour Amazon, en revanche, la tâche est bien plus compliquée : l'accès à leur nouveau service Amazon Rekognition Custom Label reste un mystère. Nous avons utilisé un lien direct vers ce service pour y accéder. Il est facile de s'y perdre, bien plus compliqué d'accéder rapidement à l'interface pour construire un modèle.
Nous arrivons ensuite à l'importation de la base de données (images). Tout d'abord, il est important de préciser qu'Amazon et Google obligent l'utilisateur à stocker la base de données dans son service Cloud afin de pouvoir l'utiliser pour le modèle. En ce qui concerne le format de fichier, les formats d'image classiques (png, jpg) sont acceptés pour tous les fournisseurs. Des formats plus spécifiques peuvent être tolérés (certains uniquement par l'API correspondante). Le problème se situe principalement au niveau de l'étape d'étiquetage. Attribuer à chaque image son ou ses propres libellés peut s'avérer fastidieux :
Toutefois, Microsoft oblige l'utilisateur à dupliquer des images lors de plusieurs importations si vous traitez des images multi-étiquettes.
Notez la disponibilité du service Amazon SageMaker GroundTruth qui vous permettra de faire étiqueter vos données « automatiquement » par AWS.
Veuillez noter que ces remarques concernent uniquement la console de chaque fournisseur, étant donné que cette méthode ne nécessite aucune compétence technique. En utilisant les API, il est évidemment possible de générer une étiquette par groupe d'images via quelques lignes de code, et de faciliter le multi-étiquetage pour toutes les solutions.
En ce qui concerne la tarification, les offres sont les suivantes :
Comme vous pouvez le constater, ces indications de prix rendent l'estimation d'un coût final qui vous sera facturé plus que complexe. Néanmoins, ce tableau donne un aperçu des solutions les plus rentables en fonction de vos besoins.
Si vous souhaitez simplement essayer de former plusieurs modèles de vision personnalisés, Amazon et Clarifai proposeront des coûts raisonnables. Au contraire, si vous êtes une entreprise et que vous souhaitez utiliser votre modèle pour prédire un grand nombre d'images, les coûts de formation sont négligeables. Vous devrez vous concentrer sur les coûts d'utilisation du modèle.
Nous pouvons donc déjà définir une stratégie financière sur le choix du fournisseur, sans même connaître le coût exact des opérations.
Attention toutefois aux frais supplémentaires, notamment pour le stockage des données, qui peuvent coûter sans que vous vous en rendiez compte !
L'étape suivante concerne le lancement de la commande automatique du modèle et les paramètres que l'utilisateur contrôle.
Une fois que le jeu de données a été importé et balisé, il est temps de commencer l'apprentissage du modèle. Les deux paramètres que l'utilisateur peut contrôler sont le temps d'entraînement et la distribution des trains et des ensembles de tests.
Google permet à l'utilisateur de définir le nombre de nœuds pour l'entraînement (8 nœuds ~ 1 heure de calcul), et de définir dans le fichier .csv, pour chaque image, si elle fait partie du train ou du set de test (si l'utilisateur ne renseigne pas la distribution, celle-ci sera définie par défaut par Google : 80 % train, 10 % val, 10 % test).
Clarifai n'autorise aucune intervention de l'utilisateur sur ces paramètres : la distribution automatique est de 80 % train, 20 % test.
Microsoft offre le choix à l'utilisateur soit de définir lui-même le temps de formation, soit de laisser Microsoft le faire pour lui (Quick train/Advanced Train). Cependant, il n'est pas possible de modifier la distribution Train/Test.
Enfin Amazon ne permet pas de définir un temps d'entraînement personnalisé, mais il propose une personnalisation de la distribution train/test assez poussée :
L'une des étapes les plus importantes est l'évaluation du modèle. Cela permet à l'utilisateur de déterminer, selon des critères de performance liés à ses attentes, si le modèle est fiable ou non. Plusieurs indicateurs le permettent. Tous les services testés donnent comme métriques : précision et rappel, et offrent la possibilité de consulter manuellement le jeu de données de test afin d'observer où le modèle était erroné.
La précision répond à la question suivante : quelle proportion d'identifications positives était réellement correcte ?
Le rappel répond à la question suivante : quelle proportion de résultats positifs réels a été correctement identifiée ?
Nous pouvons également utiliser la matrice de confusion, sur le service Google et Clarifai, pour caractériser le type d'erreur du modèle et la proportion.
Dans l'ensemble, Clarifai et Google proposent une évaluation plus approfondie du modèle, avec des mesures et des statistiques intéressantes. Amazon et Microsoft, quant à eux, s'en tiennent au strict minimum en ne mettant en avant que les indicateurs de base.
Tous les fournisseurs fournissent une métrique générale censée représenter la précision générale du modèle, mais cette métrique n'est pas la même pour tous les fournisseurs. De plus, ils n'exposent pas vraiment comment il est calculé. Cela ne semble pas être une bonne référence à utiliser pour comparer les modèles.
Ici, nous pouvons voir que pour le cas d'utilisation de la box Internet, si nous voulons la meilleure précision, nous choisissons Google, si nous voulons le meilleur rappel, nous choisissons Amazon.
Pour le cas d'utilisation du mélanome, nous choisirons Microsoft pour la meilleure précision et Amazon pour le meilleur rappel. Dans le cadre du projet sur le mélanome, nous devons choisir le prestataire le plus connu, car nous voulons un modèle qui ignore le moins possible les mélanomes malins. Dans le projet de box Internet, nous devrions examiner la précision car nous voulons que le modèle ne prédise pas l'existence d'une boîte s'il n'y en a pas.
Comme nous pouvons le constater, en fonction de votre base de données et de votre projet, les fournisseurs ne fonctionnent pas avec la même précision. Tester de nombreux fournisseurs doit être le seul moyen de choisir celui que vous allez utiliser. Tout d'abord, les performances ne sont pas régulières en fonction du projet, vous pouvez rechercher la meilleure précision ou la meilleure mémorisation, et il n'y a jamais de fournisseur qui soit le meilleur pour chaque projet, pour chaque base de données.
Une fois le modèle entraîné, il peut enfin être utilisé. Chaque fournisseur propose des services quelque peu différents. Microsoft et Google vous permettent de tester le modèle en ligne sur la console en important des images individuellement.
Avec Clarifai, nous pouvons créer un flux de travail dans l'Explorateur (console) et utiliser nos modèles pour faire des prévisions. Une demande est limitée à 32 entrées.
Tous les fournisseurs permettent à l'utilisateur d'utiliser la prédiction en ligne via une API REST.
Lors du test de toutes ces solutions, nous avons évidemment rencontré des problèmes spécifiques à notre utilisation en tant qu'utilisateur normal.
La plateforme de Google nous a pris du temps à la maîtriser, mais une fois prise en main, elle est plutôt ergonomique. Le problème avec la gestion des erreurs est qu'une erreur s'est produite pendant la formation et qu'il n'y a aucun moyen d'en connaître la cause. De plus, certaines données n'étaient pas étiquetées comme indiqué dans le fichier .csv. La seule solution à ces erreurs, dont la source est inconnue, est de contacter le support technique, ce qui n'est pas gratuit !
Même constat pour Amazon, quelques problèmes lors de l'importation du jeu de données pour l'apprentissage du modèle, ainsi que des problèmes empêchant de visualiser l'évaluation du modèle, et aucune indication quant à la cause de ces problèmes. Deux solutions, enquêtez vous-même sur ces erreurs au risque de perdre beaucoup de temps, ou contactez à nouveau un support payant. L'absence de contrôle de l'utilisateur sur le seuil nous a également gravement handicapés lorsque nous avons dû évaluer le modèle et le comparer à d'autres.
L'expérience utilisateur de Clarifai a été assez laborieuse. Quelques problèmes de fluidité et de clarté lors de l'importation d'images en particulier ont perturbé le processus, ainsi que le processus lui-même.
que quelques bugs graphiques, notamment au niveau de l'évaluation des résultats. De notre point de vue, il serait préférable que Clarifai les juge sur leur API, qui est beaucoup plus avancée, que sur leur console.
Enfin, Microsoft propose une interface très intuitive. C'est l'interface sur laquelle nous avons passé le moins de temps et n'avons rencontré aucun problème notable. Le côté trop simplifié et accessible est supposé, peut-être un peu trop à notre goût lorsque nous passons à l'évaluation du modèle.
Pour chaque projet, chaque cas d'utilisation, une analyse est nécessaire afin d'évaluer les coûts, les usages et les performances. Il a été observé au cours de cette étude que chaque cas est spécifique et que nous ne pouvons pas être certains du choix de la solution tant que nous n'avons pas testé plusieurs solutions disponibles sur le marché. Certaines solutions peuvent donner de très faibles résultats, d'autres d'excellents, et cette logique peut totalement changer pour un autre cas d'utilisation. De plus, selon le projet, la priorité sera donnée aux coûts, aux résultats, aux temps de calcul et au nombre de requêtes par seconde, ou à la facilité d'utilisation et de manipulation. Ce sont tous des critères qui peuvent influencer la décision, et qui permettent à l'utilisateur de choisir la solution la mieux adaptée au projet, la solution la plus pertinente.
C'est sur cette base que notre Eden AI l'offre entre en jeu. Grâce à notre expertise approfondie dans l'utilisation de ces différentes solutions d'intelligence artificielle, nous sommes en mesure de vous fournir la recommandation la plus adaptée à votre problème et de vous faire économiser beaucoup de temps et d'argent.
Vous êtes fournisseur de solutions et souhaitez intégrer Eden AI, contactez-nous à l'adresse suivante : contact@edenai.co
Cet article vous est proposé par L'équipe Eden AI. Nous vous permettons de tester et d'utiliser en production un grand nombre de moteurs d'IA provenant de différents fournisseurs directement via notre API et notre plateforme.
Vous pouvez commencer à créer dès maintenant. Si vous avez des questions, n'hésitez pas à discuter avec nous !
CommencezContactez le service commercial