Retroweb

Extraction de données sur Internet avec Retroweb

Développé dans le cadre du projet Région Wallonne CETIC-CEIQS, Retroweb est un outil pour l’extraction de données sur Internet. A l’heure où l’Internet est devenu une source inestimable d’informations, ce genre d’outil devient indispensable pour toute entreprise.

Date: 11 mars 2009

Expertises:

Science des données ⊕

A propos du projet: CE-IQS ⊕

L’Internet, une source de données inestimable mais difficile à exploiter

L’Internet est devenu, aujourd’hui, une source incontournable d’informations pour toute entreprise. Cependant, certaines caractéristiques de l’Internet rendent son exploitation difficile et peu efficace. En effet, l’Internet est :

Vaste : face à un besoin précis, nous sommes souvent submergés d’informations qu’il faut ensuite filtrer, trier, réorganiser,... Gérer cette abondance d’information prend du temps !
Bruité : la quantité d’information pertinente sur une page Web est souvent faible par rapport à la quantité globale d’information affichée au sein de la page. En effet, les pages sont fréquemment inondées d’encarts publicitaires ou (plus légitimement) de menus de navigation.
Orienté utilisateur : les pages Web sont rédigées en HTML, un langage de formatage de l’information dont la finalité est d’afficher de manière claire les données à un utilisateur. Ce langage est dépourvu de toute sémantique et est donc difficilement exploitable, de manière automatique, par des programmes.
Mouvant : sur Internet, les données changent très rapidement et, si elle souhaite rester compétitive, l’entreprise doit pouvoir réagir immédiatement à ces changements.

Retroweb, en bref...

Développé dans le cadre du projet Région Wallone CETIC-CEIQS, Retroweb est un outil pour l’extraction de données sur Internet. Avec Retroweb, vous pouvez, très rapidement et de manière visuelle, créer des programmes d’extraction de données. Exécutés de manière périodique, ces programmes peuvent ensuite alimenter votre outil de gestion documentaire ou toute autre base de données interne à votre entreprise.
Retroweb peut être intégré dans des moteurs de recherche, des outils de veille technologique ou être utilisé pour la migration d’un site Web vers une base de données ou un outil de gestion de contenu (Content Management System).


Extraction des données d’un forum avec Retroweb

Quelles autres solutions ?

Retroweb n’est actuellement pas la seule solution proposée pour l’extraction de données sur Internet. Des projets scientifiques et quelques entreprises étudient et mettent en place des solutions comparables. Retroweb se distingue de ses concurrents par différents avantages :

Facilité d’utilisation : l’utilisateur sélectionne les données à extraire directement dans un rendu graphique des pages ; il ne doit donc pas connaître le code HTML des pages pour générer ses propres règles d’extraction.
Flexibilité : seules les données pertinentes sont extraites. De plus, la structure des données extraites est paramétrable de sorte que ces données puissent être utilisées par n’importe quelle application en aval.
Robustesse : les règles d’extraction sont générées à partir d’un échantillon de plusieurs pages afin d’augmenter leur résistance à des changements dans le code HTML des pages.
Interopérabilité : Retroweb est basé sur des standards ouverts définis par le W3C (XML, XPath, XML Schema, ...) afin d’assurer une parfaite interopérabilité avec d’autres outils en amont ou en aval du processus d’extraction.
Portabilité : Retroweb est développé et testé sous MS-Windows et GNU/Linux.

Juste un peu de technique

Retroweb se compose de deux modules complémentaires :

Retroweb-Browser est une interface graphique pour la création des règles d’extraction.
Retroweb-Wrapper utilise les règles pour extraire les données vers un format structuré et interprété. Ce processus peut être répété de manière périodique.

Retroweb-Browser est une application Java 6 basée sur le framework Eclipse-RCP, le moteur de rendu des pages Web est Gecko (également utilisé dans le navigateur Firefox), les règles d’extraction sont basées sur le langage XPath, standard du W3C. L’architecture logicielle de Retroweb est de type Modèle-Vue-Contrôleur (MVC) afin de réduire la taille du code et faciliter le développement de nouvelles fonctionnalités.

Retroweb-Wrapper est un application Java 6 qui peut être exécutée sur un serveur, en ligne de commande. Elle utilise les règles d’extraction générées par Retroweb-Browser afin d’extraire les données en XML, format de données structuré et interprété.

Quel futur pour Retroweb ?

Dans sa forme actuelle, Retroweb remplit efficacement son rôle d’outil d’extraction sur l’Internet. Il est toutefois amené à évoluer avec l’apparition de nouvelles technologies et de nouveaux besoins d’entreprises. Nous travaillons, actuellement, sur les sujets de recherche suivants :

L’interopérabilité avec les langages du Web Sémantique
L’un des grands challenge de l’Internet de demain sera d’être exploitable aussi bien par des êtres humains (en améliorant l’ergonomie des sites, par exemple) que par des machines.
Le Web Sémantique répond à ce dernier objectif en proposant des langages et des techniques pour associer un sens, une signification aux données du Web. En tant qu’outil d’annotation sémantique de pages Web, Retroweb est l’une des briques nécessaires à la transition vers le Web Sémantique.

La réparation automatique des règles d’extraction
Suite à une modification majeure du code HTML d’une page, une règle d’extraction peut ne plus être valide. Dans ce cas, il faut pouvoir détecter l’erreur lors de l’extraction et adapter automatiquement la règle au nouveau cas.

L’intégration de Retroweb dans une architecture de moteur de recherche
Un moteur de recherche traditionnel collecte des documents, en extrait le contenu textuel et le stocke sous la forme d’un index i.e. une représentation compressée des termes et des documents dans lesquels ils apparaissent. Ce processus d’indexation est dit "full-text" car il ne gère que le contenu textuel des documents sans exploiter leur sens et leur structure. A l’inverse, Retroweb-Wrapper permet une indexation sémantique en annotant les données qu’il extrait. Une intégration de Retroweb-Wrapper au sein d’un moteur de recherche apporterait une importante plus-value aux architectures des moteurs de recherche traditionnels.

Conclusion

Pour rester compétitive, une entreprise doit conserver la maîtrise des informations qui la concernent. Il s’agit aussi bien des données qu’elle détient en interne que de celles qui sont publiées sur Internet. Malheureusement, il est difficile d’exploiter, de manière efficace, ces données mouvantes et peu structurées. Retroweb est un outil d’extraction de données vers un format structuré et interprété. Il peut être utilisé dans le cadre de diverses applications : moteur de recherche, veille concurrentielle, migration de sites Internet.