SmartWebScraper-CV/docs/source/introduction/contexte.rst at main · ZIADEA/SmartWebScraper-CV

Contexte Général

Dans un monde où le contenu numérique est massivement généré, stocké et diffusé via des interfaces web, la capacité à extraire, comprendre, organiser et exploiter automatiquement ces informations devient cruciale.

C'est dans cette perspective que s'inscrit ce projet : SmartWebScraper-CV, une application intelligente combinant Computer Vision, OCR, NLP et LLM pour extraire, comprendre et structurer automatiquement le contenu de pages web capturées sous forme d'images.

Problématiques du Scrapping Traditionnel

Le projet trouve son utilité dans les problèmes de scrapping textuel dus à :

Warning

Défis techniques majeurs :

Obfuscation du code HTML : Code intentionnellement rendu illisible
Obfuscation JavaScript lourde : Scripts complexes bloquant l'extraction
Texte rendu sous forme d'image : PDF, images, contenu non-textuel
Interfaces complexes ou graphiques : Structures visuelles non-standards

Solutions Apportées par l'Approche Visuelle

Notre approche par Computer Vision contourne ces limitations en :

Capturant visuellement la page complète
Analysant l'image avec des modèles de détection d'objets
Extrayant le texte via OCR sur les zones pertinentes
Traitant intelligemment le contenu avec NLP et LLM

.. mermaid::

   flowchart TD
       A[Page Web] --> B[Capture d'écran]
       B --> C[Détection Computer Vision]
       C --> D[Zones d'intérêt identifiées]
       D --> E[Extraction OCR]
       E --> F[Traitement NLP]
       F --> G[Analyse intelligente]

Avantages de Cette Approche

.. grid:: 2

   .. grid-item-card:: 🚫 Contournement des Protections

      Évite les blocages anti-bot et l'obfuscation de code

   .. grid-item-card:: 🎯 Précision Contextuelle

      Détecte automatiquement les zones pertinentes (titre, contenu, publicités)

   .. grid-item-card:: 🔄 Adaptabilité

      Fonctionne sur tout type de site sans configuration spécifique

   .. grid-item-card:: 📊 Données Structurées

      Produit des annotations réutilisables pour l'entraînement de modèles

Contexte Académique

Ce projet s'inscrit dans le cadre de la formation IATD-SI (Ingénierie de l'Intelligence Artificielle et des Technologies de la Donnée pour les Systèmes Industriels) à l'ENSAM Meknès.

Il représente une synthèse pratique des compétences acquises en :

Intelligence Artificielle et Machine Learning
Vision par Ordinateur
Traitement du Langage Naturel
Développement d'Applications Web
Gestion de Projets Techniques

Note

Ce travail marque une étape importante de notre formation, mais aussi une base concrète sur laquelle nous comptons bâtir des solutions encore plus ambitieuses au croisement de la vision par ordinateur, du traitement du langage et des systèmes intelligents.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Contexte Général

Problématiques du Scrapping Traditionnel

Solutions Apportées par l'Approche Visuelle

Avantages de Cette Approche

Contexte Académique

FilesExpand file tree

contexte.rst

Latest commit

History

contexte.rst

File metadata and controls

Contexte Général

Problématiques du Scrapping Traditionnel

Solutions Apportées par l'Approche Visuelle

Avantages de Cette Approche

Contexte Académique