Développé dans le cadre du projet Région Wallonne CETIC-CEIQS, Retroweb est un outil pour l’extraction de données sur Internet. A l’heure où l’Internet est devenu une source inestimable d’informations, ce genre d’outil devient indispensable pour toute entreprise.
L’Internet est devenu, aujourd’hui, une source incontournable d’informations pour toute entreprise. Cependant, certaines caractéristiques de l’Internet rendent son exploitation difficile et peu efficace. En effet, l’Internet est :
Développé dans le cadre du projet Région Wallone CETIC-CEIQS, Retroweb est un outil pour l’extraction de données sur Internet. Avec Retroweb, vous pouvez, très rapidement et de manière visuelle, créer des programmes d’extraction de données. Exécutés de manière périodique, ces programmes peuvent ensuite alimenter votre outil de gestion documentaire ou toute autre base de données interne à votre entreprise.
Retroweb peut être intégré dans des moteurs de recherche, des outils de veille technologique ou être utilisé pour la migration d’un site Web vers une base de données ou un outil de gestion de contenu (Content Management System).
Retroweb n’est actuellement pas la seule solution proposée pour l’extraction de données sur Internet. Des projets scientifiques et quelques entreprises étudient et mettent en place des solutions comparables. Retroweb se distingue de ses concurrents par différents avantages :
Retroweb se compose de deux modules complémentaires :
Retroweb-Browser est une application Java 6 basée sur le framework Eclipse-RCP, le moteur de rendu des pages Web est Gecko (également utilisé dans le navigateur Firefox), les règles d’extraction sont basées sur le langage XPath, standard du W3C. L’architecture logicielle de Retroweb est de type Modèle-Vue-Contrôleur (MVC) afin de réduire la taille du code et faciliter le développement de nouvelles fonctionnalités.
Retroweb-Wrapper est un application Java 6 qui peut être exécutée sur un serveur, en ligne de commande. Elle utilise les règles d’extraction générées par Retroweb-Browser afin d’extraire les données en XML, format de données structuré et interprété.
Dans sa forme actuelle, Retroweb remplit efficacement son rôle d’outil d’extraction sur l’Internet. Il est toutefois amené à évoluer avec l’apparition de nouvelles technologies et de nouveaux besoins d’entreprises. Nous travaillons, actuellement, sur les sujets de recherche suivants :
L’interopérabilité avec les langages du Web Sémantique
L’un des grands challenge de l’Internet de demain sera d’être exploitable aussi bien par des êtres humains (en améliorant l’ergonomie des sites, par exemple) que par des machines.
Le Web Sémantique répond à ce dernier objectif en proposant des langages et des techniques pour associer un sens, une signification aux données du Web. En tant qu’outil d’annotation sémantique de pages Web, Retroweb est l’une des briques nécessaires à la transition vers le Web Sémantique.
La réparation automatique des règles d’extraction
Suite à une modification majeure du code HTML d’une page, une règle d’extraction peut ne plus être valide. Dans ce cas, il faut pouvoir détecter l’erreur lors de l’extraction et adapter automatiquement la règle au nouveau cas.
L’intégration de Retroweb dans une architecture de moteur de recherche
Un moteur de recherche traditionnel collecte des documents, en extrait le contenu textuel et le stocke sous la forme d’un index i.e. une représentation compressée des termes et des documents dans lesquels ils apparaissent. Ce processus d’indexation est dit "full-text" car il ne gère que le contenu textuel des documents sans exploiter leur sens et leur structure. A l’inverse, Retroweb-Wrapper permet une indexation sémantique en annotant les données qu’il extrait. Une intégration de Retroweb-Wrapper au sein d’un moteur de recherche apporterait une importante plus-value aux architectures des moteurs de recherche traditionnels.
Pour rester compétitive, une entreprise doit conserver la maîtrise des informations qui la concernent. Il s’agit aussi bien des données qu’elle détient en interne que de celles qui sont publiées sur Internet. Malheureusement, il est difficile d’exploiter, de manière efficace, ces données mouvantes et peu structurées. Retroweb est un outil d’extraction de données vers un format structuré et interprété. Il peut être utilisé dans le cadre de diverses applications : moteur de recherche, veille concurrentielle, migration de sites Internet.