Tutoriel

Comment utiliser l'OCR en plus des PDF

TABLE DES MATIÈRES

Dans le monde numérique en évolution rapide d'aujourd'hui, la capacité à extraire et à analyser efficacement les informations des documents est primordiale. Qu'il s'agisse de factures, de reçus, de contrats ou de tout autre type de document, la technologie de reconnaissance optique de caractères (OCR) joue un rôle central dans l'automatisation de l'extraction des données. L'un des acteurs émergents du paysage de l'OCR est Eden AI, qui propose une suite de puissants outils d'OCR pour rationaliser l'analyse des documents.

‍

Dans cet article, nous allons vous montrer comment utiliser l'OCR pour dessiner boîtiers de délimitation sur des fichiers .pdf.

‍

Qu'est-ce que Reconnaissance optique de caractères (OCR) ?

OCR est une technologie qui convertit différents types de documents, tels que des documents papier numérisés, des fichiers PDF ou des images, en données modifiables et consultables. Pour ce faire, il reconnaît les caractères de texte de ces documents (tels que OCR des factures, CV OCR, OCR de chèque bancaire, OCR de carte d'identité, etc.), puis en les transformant en texte lisible par machine.

La technologie OCR n'est pas seulement utilisée pour l'extraction de données, mais également pour rendre les documents numérisés plus accessibles, par exemple pour convertir des livres imprimés en formats numériques ou pour activer synthèse vocale pour les personnes malvoyantes.

‍

Comment fonctionne l'OCR ?

La technologie OCR suit un processus systématique pour convertir les images et les documents numérisés en texte :

Prétraitement des images : Le logiciel OCR analyse et prétraite d'abord l'image d'entrée pour améliorer la qualité de l'extraction du texte. Cela peut impliquer des tâches telles que la correction de l'inclinaison de l'image, la réduction du bruit et le réglage du contraste.
Détection de texte : Les algorithmes d'OCR identifient les zones de l'image contenant du texte, souvent appelées zones de délimitation, afin de se concentrer sur l'extraction du contenu textuel de ces zones.
Reconnaissance des caractères : Le système reconnaît les caractères individuels à l'intérieur des cadres de délimitation et les associe à leurs représentations textuelles correspondantes. En utilisant la plateforme Eden AI, il est également possible de dessiner des cadres de délimitation sur un fichier PDF traité pour mettre en évidence des mots spécifiques dans le document.
Post-traitement : Pour améliorer la précision et la lisibilité, les outils d'OCR utilisent souvent des techniques de post-traitement telles que la vérification orthographique et la mise en forme du texte.

‍

OCR avec Eden AI

Eden AI simplifie l'utilisation et l'intégration des technologies d'IA en fournissant une API unique qui donne accès aux meilleures API d'IA et à une puissante plateforme de gestion. Eden AI couvre un large éventail de technologies d'IA : Image, Texte et PNL, Discours et audio, OCR et analyse de documents, Traduction automatique, Vidéo.

Lorsque vous effectuez un appel pour analyser un document à l'aide de l'API OCR Eden AI, l'API renvoie une réponse standardisée qui inclut le texte extrait de chaque ligne du fichier, ainsi que les cadres de délimitation de chaque mot.

Outre l'obtention des cadres de délimitation, vous pouvez également les dessiner sur le fichier PDF traité, afin de mettre en évidence des mots spécifiques dans le document. Pour illustrer ce processus, nous allons l'implémenter à l'aide du langage de programmation Python.

‍

Étape 1 Extraire les cadres de délimitation

Tout d'abord, vous devrez appeler l'API OCR Eden AI afin d'extraire les morceaux de texte de votre fichier .pdf. Dans notre cas, le fichier .pdf n'est qu'un PDF d'une page contenant des chaînes de texte, comme indiqué ci-dessous dans l'image :

‍

Ci-dessous un exemple de code permettant d'utiliser Eden AI pour extraire des cadres de délimitation de textes à partir d'un PDF :


import fitz
import requests
import json
import os
from settings import API_KEY, COLORS


file_path="test_ocr.pdf"


#Eden ai call
headers = {"Authorization": f"Bearer {API_KEY}"}
url = "https://api.edenai.run/v2/ocr/ocr"
data = {"providers": "amazon", "language": "en"}
files = {"file": open(file_path, "rb")}


response = requests.post(url, data= data, files=files, headers=headers)
if response.status_code >= 400:
   print("Oupps! something went wrong")


result = response.json()
bboxs = result["amazon"]["bounding_boxes"]

‍

Étape 2 Dessinez les cadres de délimitation

Après avoir extrait les cadres de délimitation, vous devez maintenant les dessiner dans le fichier .pdf. Pour ce faire, vous allez utiliser Pymu PDF python library est une bibliothèque Python hautes performances pour l'extraction, l'analyse, la conversion et la manipulation de données de Documents PDF (et autres).


doc = fitz.open(file_path) # open the doc


COLORS_ = [tuple(color_i/255 for color_i in color) for color in COLORS] # change rage from (0-255) to (0-1)
nb_colors = len(COLORS_)


for page in doc:
   box = page.mediabox
   page_width = box.width
   page_height = box.height
   for i, bbox in enumerate(bboxs):
       left = bbox["left"] * page_width
       top = bbox["top"] * page_height
       width = bbox["width"] * page_width
       height = bbox["height"] * page_height
       color = COLORS_[i % nb_colors]
       page.draw_rect([left, top, left + width, top + height], color=color, width=1)


file_name, ext = os.path.splitext(file_path)
doc.save(f"{file_name}_bbox{ext}") # save changes

‍

Ensuite, vous devrez enregistrer un nouveau fichier contenant les cadres de délimitation extraits dessinés sur le PDF d'entrée. Dans notre exemple, nous avons utilisé un ensemble de couleurs multiples pour dessiner chaque cadre de délimitation avec une couleur différente de ses voisines horizontales.

‍

Cas d'utilisation relatifs à l'utilisation de cadres de délimitation sur des PDF

Les cadres de délimitation sont souvent utilisés dans les PDF avec OCR (reconnaissance optique de caractères) à diverses fins. Ces cadres de délimitation sont des rectangles dessinés autour de zones spécifiques de texte ou d'objets dans un document PDF. Voici quelques cas d'utilisation courants de l'utilisation des cadres de délimitation dans l'OCR des PDF :

‍

1. Extraction et reconnaissance de texte

Les cadres de délimitation peuvent être utilisés pour isoler et identifier des mots, des phrases ou des paragraphes individuels dans un document numérisé. Cela est particulièrement utile pour convertir du texte imprimé ou manuscrit en texte numérique modifiable.

‍

2. Analyse de la présentation des documents

Les logiciels d'OCR peuvent utiliser des cadres de sélection pour analyser la mise en page et la structure d'un document. Cela permet de faire la distinction entre les en-têtes, les pieds de page, les légendes, le corps du texte et les autres éléments, ce qui facilite le maintien de la mise en forme d'origine.

‍

3. Extraction de données

Les cadres de délimitation peuvent être appliqués à des tableaux, à des formulaires ou à d'autres données structurées dans un PDF. Le logiciel OCR peut utiliser ces cases pour identifier et extraire des champs de données, tels que des noms, des dates, des adresses et des numéros, en vue d'un traitement ultérieur.

‍

4. Rédaction et anonymisation

Lorsque vous traitez des informations sensibles dans des PDF, des cadres de délimitation peuvent être utilisés pour surligner ou masquer des zones spécifiques à des fins de rédaction ou d'anonymisation. Cela garantit la protection des données confidentielles lors du partage ou de l'archivage de documents.

‍

5. Reconnaissance d'objets d'image

Les cadres de délimitation peuvent être appliqués aux images et aux graphiques d'un PDF. Les outils d'OCR peuvent reconnaître et extraire du texte ou des métadonnées associés à ces images, améliorant ainsi la facilité de recherche et l'accessibilité des documents riches en images.

‍

6. Identification des champs du formulaire

Dans les formulaires PDF interactifs, les cadres de délimitation peuvent être utilisés pour identifier et mapper les champs du formulaire, tels que les champs de texte, les cases à cocher et les boutons radio. L'OCR peut aider à extraire et à traiter les entrées des utilisateurs à partir de ces formulaires.

‍

7. Traduction de texte

Les cadres de délimitation peuvent être utilisés pour sélectionner des segments de texte spécifiques à traduire. L'OCR peut reconnaître le texte contenu dans les zones, puis le traduire dans une autre langue, ce qui permet aux utilisateurs de comprendre le contenu dans leur langue préférée.

‍

8. Récapitulatif du contenu

Les cadres de délimitation peuvent aider à identifier les sections ou paragraphes clés d'un document. L'OCR peut ensuite être utilisée pour extraire et résumer le contenu de ces zones, ce qui permet aux utilisateurs de saisir rapidement les principaux points du document.

‍

9. Classification automatique des documents

Les cadres de délimitation peuvent faciliter la classification automatique des documents en fonction de leur contenu. L'OCR peut être utilisée pour analyser du texte dans des zones spécifiques et classer les documents dans des groupes prédéfinis.

‍

10. Accessibilité et lecteurs d'écran

Pour les personnes malvoyantes, l'OCR avec cadres de délimitation est cruciale pour les applications de lecture d'écran. Les cadres de délimitation aident les lecteurs d'écran à naviguer et à lire à haute voix des sections spécifiques de texte, d'images ou d'autres contenus dans des PDF.

‍

Ces cas d'utilisation démontrent la polyvalence des cadres de délimitation des applications d'OCR PDF, qui contribuent à améliorer le traitement des documents, l'extraction des données, la recherche d'informations et l'accessibilité globale des documents.

‍

Conclusion

Vous êtes prêt !

La plateforme d'Eden AI offre une voie fluide pour intégrer les fonctionnalités d'OCR à vos projets, en fournissant des réponses standardisées qui incluent le texte extrait et les cadres de délimitation, simplifiant ainsi considérablement le processus de gestion et d'analyse des informations !

Créez votre compte sur Eden AI

Articles connexes

Comparatifs d'IA

Comparaison entre Veo 3 et Kling 2.1 Master : comparaison de 2025 générateurs vidéo AI

En 2025, Veo 3 et Kling 2.1 Master sont à la pointe de la création vidéo basée sur l'IA avec des atouts distincts. Veo 3 propose un son natif et un montage facile pour des vidéos rapides et soignées, tandis que Kling excelle en termes de qualité cinématographique et d'animation avancée, mais nécessite un son manuel. Votre choix dépend de votre préférence pour des flux de travail intégrés et rapides ou pour un contrôle de production détaillé.

Comparatifs d'IA

Hailuo AI 2.0 contre Kling AI 2.1 Master — Qui a vraiment gagné ?

Hailuo 2.0 et Kling 2.1 Master seront les principaux générateurs vidéo basés sur l'IA en 2025. Hailuo excelle en termes de rythme visuel, de mouvements naturels et de rentabilité, tandis que Kling propose des commandes cinématiques avancées et une animation de personnages haut de gamme. Le meilleur choix dépend de vos objectifs de production et de votre budget.

Comparatifs d'IA

Veo 3 contre Sora d'OpenAI : une comparaison côte à côte

Veo 3 contre Sora : découvrez comment les principaux outils de génération vidéo basés sur l'IA de 2025 se situent en termes de fonctionnalités, de prix, de contrôle créatif et de qualité de sortie, afin de choisir la meilleure plateforme pour votre prochain projet cinématographique.

Essayez Eden AI gratuitement.

Vous pouvez commencer à créer dès maintenant. Si vous avez des questions, n'hésitez pas à discuter avec nous !

Commencez Contactez le service commercial

Comment utiliser l'OCR en plus des PDF

Qu'est-ce que Reconnaissance optique de caractères (OCR) ?

Comment fonctionne l'OCR ?

OCR avec Eden AI

Étape 1 Extraire les cadres de délimitation

Étape 2 Dessinez les cadres de délimitation