Tutoriel

Comment extraire du texte d'une image (OCR) avec JavaScript ?

L'essor de l'IA a favorisé le développement d'un service de vision par ordinateur : la reconnaissance optique de caractères (OCR), communément appelée OCR...

Comment extraire du texte d'une image (OCR) avec JavaScript ?
TABLE DES MATIÈRES

Présentation :

L'essor de l'intelligence artificielle ces dernières années est dû à un phénomène de digitalisation omniprésent dans tous les environnements professionnels. Cette transformation numérique a été initiée par la plupart des entreprises, grandes et petites, et l'un des principaux axes de transformation est la numérisation des données. C'est dans ce but qu'un service de vision par ordinateur a été développé : la reconnaissance optique de caractères (OCR), communément appelée OCR.

L'origine de l'OCR remonte aux années 1950, lorsque David Shepard a fondé Intelligent Machines Research Corporation (IMRC), le premier fournisseur mondial de systèmes OCR exploités par des entreprises privées pour convertir des messages imprimés en langage machine à des fins de traitement informatique.

Aujourd'hui, il n'est plus nécessaire de disposer d'un système conçu pour une police particulière. Les services d'OCR sont intelligents, et l'OCR est même l'une des branches les plus importantes de la vision par ordinateur, et plus généralement de l'intelligence artificielle. Grâce à l'OCR, il est possible d'obtenir un fichier texte à partir de nombreux supports numériques :

  • fichier PDF
  • Image PNG, JPG contenant des écritures
  • Documents manuscrits

L'utilisation de l'OCR pour des documents manuscrits, des images ou des documents PDF peut concerner les entreprises de tous les domaines et activités. Certaines entreprises peuvent avoir un besoin plus critique d'OCR pour la reconnaissance des caractères sur l'écriture manuscrite, combinée au traitement du langage naturel (NLP) : analyse de texte. Par exemple, le secteur bancaire utilise l'OCR pour approuver les chèques (détails, signature, nom, montant, etc.) ou pour vérifier les cartes de crédit (numéro de carte, nom, date d'expiration, etc.). De nombreux autres secteurs d'activité font un usage intensif de l'OCR, tels que la santé (numérisation des dossiers des patients), la police (reconnaissance des plaques d'immatriculation) ou les douanes (extraction des informations de passeport), etc.

Comment fonctionne l'OCR :

La technologie OCR comprend 3 étapes :

  • Étape de prétraitement de l'image, qui consiste à traiter l'image afin qu'elle puisse être exploitée et optimisée pour reconnaître les caractères. Les manipulations de prétraitement incluent : le réalignement, la désinterférence, la binarisation, la suppression de lignes, le zonage, la détection de mots, la reconnaissance de scripts, la segmentation, la normalisation, etc.
  • Extraction des propriétés statistiques de l'image. Il s'agit de l'étape clé pour localiser et identifier les personnages de l'image, ainsi que leurs structures.
  • Étape de post-traitement, qui consiste à reformer l'image telle qu'elle était avant l'analyse, en mettant en évidence les « cadres de délimitation » (rectangles délimitant le texte de l'image) des séquences de caractères identifiées :

A text showing the use of OCR technology

Cet article explique brièvement comment utiliser l'OCR avec JavaScript. Nous verrons dans cet article qu'il existe de nombreuses manières de le faire, notamment les moteurs d'API open source et cloud.

Les moteurs open source sont disponibles gratuitement, vous pouvez souvent trouver ces solutions sur github. Il vous suffit de télécharger la bibliothèque et d'utiliser ces moteurs directement depuis votre machine. Au contraire, les moteurs cloud OCR sont fournis par des fournisseurs d'IA, ils vous vendent des requêtes que vous pouvez traiter via leurs API. Ils peuvent vendre des demandes selon un modèle de licence (vous payez un abonnement mensuel correspondant à un certain nombre de demandes) ou un modèle de paiement à l'utilisation (vous ne payez que pour les demandes que vous envoyez).

Comment choisir entre les moteurs open source et cloud ?

Lorsque vous recherchez un moteur OCR, la première question que vous devez vous poser est la suivante : quel type de moteur vais-je choisir ?

Bien entendu, le principal avantage des moteurs OCR open source est qu'ils sont open source. Cela signifie que son utilisation est gratuite et que vous pouvez utiliser le code comme vous le souhaitez. Il permet de modifier potentiellement le code source, d'hyperparamétrer le modèle. De plus, vous n'aurez aucun problème avec la confidentialité des données car vous devrez héberger le moteur sur votre propre serveur, ce qui signifie également que vous devrez configurer ce serveur, le maintenir et vous assurer que vous disposerez d'une puissance informatique suffisante pour traiter toutes les demandes.

D'autre part, les moteurs OCR dans le cloud sont payants, mais le fournisseur d'IA gérera le serveur pour vous, maintiendra et améliorera le modèle. Dans ce cas, vous devez accepter que vos données soient transférées vers le cloud du fournisseur. En échange, le fournisseur traite des millions de données pour fournir un moteur très performant. Le fournisseur d'OCR dispose également de serveurs capables de prendre en charge des millions de requêtes par seconde sans perte de performance ou de rapidité.

Maintenant que vous connaissez les avantages et les inconvénients des moteurs open source et cloud, considérez qu'il existe une troisième option : créez votre propre moteur d'OCR. Avec cette option, vous pouvez créer le moteur en fonction de vos propres données, ce qui vous garantit de bonnes performances. Vous pourrez également préserver la sécurité et la confidentialité de vos données. Cependant, vous aurez la même contrainte quant à l'hébergement de votre moteur. Bien entendu, cette option ne peut être envisagée que si vous possédez des compétences en science des données dans votre entreprise. Voici un résumé des moments où vous devez choisir entre utiliser des moteurs existants (cloud ou open source) et créer le vôtre :

Moteurs OCR Open Source :

Plusieurs moteurs OCR open source sont disponibles, vous pouvez en trouver la majorité sur github. Voici les plus célèbres :

Tesseract:

Tesseract est un outil de reconnaissance optique de caractères (OCR) pour JavaScript. C'est-à-dire qu'il reconnaîtra et « lira » le texte intégré dans les images.

Il existe un emballage qui permet à Tesseract de fonctionner avec JavaScript. Tesseract possède support Unicode (UTF-8), et peut reconnaître plus de 100 langues « prêt à l'emploi ».

Supports Tesseract différents formats de sortie: texte brut, HOCr (HTML), PDF, PDF en texte invisible uniquement, TSV et ALTO.

Docteur R

DocTR est un OCR de bout en bout fourni par Mindee. Il utilise une approche en deux étapes : la détection de texte (localisation des mots), puis la reconnaissance de texte (identification de tous les caractères du mot). Ainsi, vous pouvez sélectionner l'architecture utilisée pour la détection de texte et celle pour la reconnaissance de texte dans la liste des implémentations disponibles.

Moteurs OCR dans le cloud :

Il existe de nombreux moteurs OCR dans le cloud sur le marché et vous aurez du mal à choisir le bon. Voici les meilleurs fournisseurs du marché :

  • Base 64
  • Immersif dans les nuages
  • Espace OCR
  • Reconnaissance de texte Google Cloud Vision
  • Extrait d'Amazon
  • Microsoft Azure Computer Vision OCR

Tous ces fournisseurs d'OCR peuvent vous fournir de bonnes performances pour votre projet. En fonction de la langue, de la qualité, du format, de la taille de vos documents, le meilleur moteur peut varier entre tous ces fournisseurs. La seule façon de savoir quel fournisseur choisir est de comparer les performances avec vos propres données.

API d'OCR Eden AI :

C'est là qu'Eden AI entre en jeu dans votre processus. L'API OCR Eden AI vous permet d'utiliser les moteurs de tous ces fournisseurs avec une API unique, un jeton unique et une documentation JavaScript simple.

En utilisant Eden AI, vous pourrez comparer tous les fournisseurs avec vos données, changer de fournisseur quand vous le souhaitez et appeler plusieurs fournisseurs en même temps. Vous paierez le même prix par demande que si vous vous étiez abonné directement aux API des fournisseurs et vous ne perdrez pas les performances de latence.

Voici comment utiliser les moteurs d'OCR en JavaScript avec le SDK Eden AI :

Si vous souhaitez appeler un autre fournisseur, il vous suffit de modifier la valeur du paramètre « providers ». Vous pouvez voir tous les fournisseurs disponibles dans la documentation d'Eden AI. Bien entendu, vous pouvez appeler plusieurs fournisseurs dans le cadre d'une même demande afin de les comparer ou de les combiner.

Conclusion

Comme vous pouvez le constater dans cet article, il existe de nombreuses options pour utiliser l'OCR avec JavaScript. Pour les développeurs qui n'ont pas de compétences en science des données ou qui souhaitent utiliser rapidement et simplement les moteurs OCR, de nombreux moteurs open source et cloud sont disponibles. Chaque option présente des avantages et des inconvénients, vous savez que vous avez les indices pour choisir la meilleure option pour vous.

Si vous optez pour un moteur OCR dans le cloud, vous aurez besoin d'aide pour trouver le meilleur moteur en fonction de vos données. De plus, les fournisseurs d'OCR mettent souvent à jour et entraînent leurs modèles. Cela signifie que vous devrez peut-être modifier le choix de votre fournisseur à l'avenir pour continuer à obtenir les meilleures performances pour votre projet. Avec Eden AI, tout ce travail est simplifié et vous pouvez configurer un moteur d'OCR en JavaScript en moins de 5 minutes, et passer au meilleur fournisseur à tout moment.

Vous pouvez créer votre compte Eden AI ici et récupérez votre jeton d'API pour commencer à implémenter un moteur d'OCR en JavaScript !

Commencez votre aventure avec l’IA dès aujourd’hui

  • Accédez à plus de 100 API d’IA sur une seule plateforme.
  • Comparez et déployez des modèles d’IA en toute simplicité.
  • Paiement à l’usage, sans frais initiaux.
Commencez à créer GRATUITEMENT

Articles connexes

Essayez Eden AI gratuitement.

Vous pouvez commencer à créer dès maintenant. Si vous avez des questions, n'hésitez pas à discuter avec nous !

CommencezContactez le service commercial
X

Commencez votre parcours IA dès aujourd'hui!

Inscrivez-vous dès maintenant avec des crédits gratuits pour explorer plus de 100 API d'IA.
Obtenir mes crédits maintenant