Tutoriel

VIDÉO | Comment créer un flux de travail de web scraping à l'aide de LLM

Automatisez le web scraping et l'extraction de données grâce à la plateforme no-code d'Eden AI. Créez des flux de travail, utilisez des LLM tels que Claude 3.5 et GPT-4o, et intégrez-les de manière fluide, sans aucun codage. Regardez notre tutoriel Youtube et commencez à rationaliser vos recherches dès aujourd'hui !

VIDÉO | Comment créer un flux de travail de web scraping à l'aide de LLM
TABLE DES MATIÈRES

Dans le paysage actuel axé sur les données, l'extraction d'informations clés à partir de divers sites Web est essentielle pour automatiser la recherche, surveiller les tendances et structurer le contenu brut en informations exploitables. Cependant, le grattage et l'analyse manuels du contenu Web peuvent être chronophages et inefficaces.

C'est ici Eden AILa plateforme de flux de travail sans code entre en jeu, permettant aux développeurs de créer facilement des pipelines automatisés pour le web scraping et l'extraction d'informations à l'aide de grands modèles linguistiques (LLM).

Plats à emporter

Dans ce didacticiel, vous allez apprendre à configurer un flux de travail entièrement automatisé sur la plateforme Eden AI pour :

  • Grattez le contenu de plusieurs sites Web ;
  • Extraire automatiquement les informations clés à l'aide de LLM tels que Claude 3.5 ou GPT-4o ;
  • Gérer les URL de secours en cas de panne ;
  • Utilisez les points de terminaison de l'API pour intégrer le flux de travail dans vos propres applications.

À la fin de ce guide, vous disposerez d'une solution complète de bout en bout pour le web scraping et l'extraction d'informations, le tout sans écrire une seule ligne de code.

Concepts

Avant de nous lancer dans la mise en œuvre, clarifions quelques concepts clés :

Scraping sur le Web : Processus d'extraction automatique de données à partir de sites Web.

LLM (grands modèles linguistiques) : Des modèles d'IA capables de comprendre et de générer du texte semblable à celui d'un humain, utilisés ici pour analyser et extraire des informations clés à partir de données extraites.

Plateforme Eden AI: Une plateforme sans code qui simplifie la création et le déploiement de flux de travail d'IA, y compris le web scraping et l'intégration de LLM.

Prérequis

Avant de poursuivre, assurez-vous de disposer des éléments suivants :

  • Un Eden AI compte (inscrivez-vous sur edenai.co) ;
  • Compréhension de base des API et des charges utiles JSON ;
  • Connaissance de FastAPI pour le développement d'API backend (facultatif) ;
  • Installé Python 3.8 et versions ultérieures environnement (si vous utilisez l'implémentation du code) ;

Présentation de la solution

Le flux de travail que nous allons créer comprend les étapes suivantes :

  1. Acceptez les URL et les questions comme entrées.
  2. Raclez le contenu du site Web à partir de l'URL principale.
  3. Utilisez une logique conditionnelle pour revenir à une URL secondaire en cas d'échec du scraping.
  4. Traitez les données extraites via des LLM pour l'extraction des informations.
  5. Renvoie la sortie résumée.
  6. Exposez l'ensemble du pipeline via des points de terminaison d'API pour une intégration fluide.

Guide étape par étape

N'oubliez pas de regarder notre tutoriel détaillé sur le web scraping, dans lequel nous vous proposons un guide visuel étape par étape pour vous aider à mieux comprendre le processus :

Étape 1 : Configuration du flux de travail Eden AI

1. Naviguez jusqu'au Workflows section de votre tableau de bord Eden AI.

2. Cliquez Créer un flux de travail et sélectionnez Workflow de base.

3. Choisissez Partir de zéro.

4. Donnez un nom à votre flux de travail (par exemple, Canalisation de grattage LLM).

Configuration des nœuds d'entrée

  • Ajoutez trois champs de saisie :
    • URL 1 : URL du site Web principal
    • URL 2 : URL du site Web de sauvegarde
    • Question : requête visant à extraire des informations du contenu extrait.

Étape 2 : Nœud de grattage Web

  1. Ajoutez un Web Scraper nœud.
  2. Configurez le scraper pour qu'il accepte les entrées d'URL.
  3. Enregistrez la configuration.

Nœud conditionnel (URL de secours)

  1. Ajoutez un SI nœud pour vérifier si le contenu extrait existe.
  2. Si c'est vrai, passez au nœud LLM.
  3. Si faux, acheminez le processus pour gratter le URL de sauvegarde en utilisant l'URL 2.

Étape 3 : Extraction d'informations avec LLM

  1. Ajoutez le Dialogue LLM nœud.
  2. Configurez le modèle pour Claude 3,5 Sonnet (Primaire) et GPT-4 (Solution de repli).
  3. Réglez la température sur 0,4 pour un équilibre optimal entre créativité et précision.
  4. Transmettez le contenu extrait en tant que contexte.
  5. Utilisez le Action mondiale en matière de chatbot champ contenant l'instruction : »Vous êtes agent de presse. Votre tâche consiste à résumer la réponse à la question posée ».
  1. Insérez la question saisie dans le cadre de l'invite.

Étape 4 : Tester le flux de travail

  1. Naviguez vers Tests en direct sur la plateforme Eden AI.
  2. Entrez :
    • URL 1 (par exemple, article de presse sur Elon Musk)
    • URL 2 (URL de l'article de sauvegarde)
    • Question (par exemple, qu'a dit Elon Musk à propos de la victoire de Trump ?)
  3. Cliquez Workflow de test.
  4. La plateforme va fouiller le site Web, extraire le contenu pertinent et générer une réponse résumée.

Mise en œuvre du code

Si vous préférez l'intégration du backend, vous pouvez utiliser le service basé sur l'API Fast API suivant pour vous connecter à l'API de flux de travail de votre Eden AI :

Code du backend FastAPI


from fastapi import FastAPI, File, UploadFile, Form
import requests
import os

EDEN_API_URL = "https://api.edenai.run/v2/workflow/YOUR_WORKFLOW_ID/execution/"
API_KEY = os.getenv("EDEN_AI_API_KEY")

app = FastAPI()

@app.post("/scrape-and-extract/")
async def scrape_and_extract(url1: str = Form(...), url2: str = Form(...), question: str = Form(...)):
    headers = {"Authorization": f"Bearer {API_KEY}"}
    payload = {"url1": url1, "url2": url2, "question": question}

    response = requests.post(EDEN_API_URL, headers=headers, json=payload)
    return response.json()

Sortie finale

Le flux de travail renverra les informations extraites au format JSON :


{
  "status": "succeeded",
  "answer": "Elon Musk expressed neutrality about Trump's victory, emphasizing free speech."
}

Cas d'utilisation avancés

  • Surveillez les derniers articles d'actualité pour analyser les sentiments ;
  • Automatisez la synthèse des rapports financiers ;
  • Extrayez des avis sur les produits pour les sites Web de commerce électronique.

Conclusion

En tirant parti de la plateforme de flux de travail sans code d'Eden AI, les développeurs peuvent rapidement créer et déployer des pipelines d'extraction de contenu automatisés sans avoir à se plonger dans un code complexe. Cette solution permet non seulement de gagner du temps, mais garantit également une extraction de données cohérente et de haute qualité.

N'oubliez pas de regarder notre tutoriel sur le web scraping pour une explication visuelle plus détaillée. Vous êtes prêt à rationaliser vos tâches de recherche et d'analyse de contenu, commencez à créer votre premier flux de travail sur Eden AI aujourd'hui.

Ressources supplémentaires

Start Your AI Journey Today

  • Access 100+ AI APIs in a single platform.
  • Compare and deploy AI models effortlessly.
  • Pay-as-you-go with no upfront fees.
Start building FREE

Articles connexes

Essayez Eden AI gratuitement.

Vous pouvez commencer à créer dès maintenant. Si vous avez des questions, n'hésitez pas à discuter avec nous !

CommencezContactez le service commercial
X

Commencez votre parcours IA dès aujourd'hui!

Inscrivez-vous dès maintenant avec des crédits gratuits pour explorer plus de 100 API d'IA.
Obtenir mes crédits maintenant