Développé dans le cadre du projet Région Wallone CETIC-CEIQS, Retroweb est un outil pour l’extraction de données sur Internet. A l’heure où l’Internet est devenu une source inestimable d’information, ce genre d’outil devient vite indispensable pour toute entreprise.
Incontestablement, l’Internet est devenu, aujourd’hui, une source inestimable d’information pour toute entreprise. Cependant, l’Internet affiche quelques propriétés qui rendent son exploitation peu efficace. En effet, l’Internet est :
Développé dans le cadre du projet Région Wallone CETIC-CEIQS, Retroweb est un outil pour l’extraction de données sur Internet. Avec Retroweb, vous pouvez, très rapidement et de manière visuelle, créer des programmes d’extraction de données. Exécutés de manière périodique, ces programmes peuvent ensuite alimenter votre outil de gestion documentaire ou n’importe quelle base de données interne à votre entreprise.
Retroweb peut être utilisé dans le cadre de moteurs de recherche, d’outils de veille technologique ou pour la migration de votre site Web vers une base de données ou un outil de gestion de contenu (Content Management System).
Retroweb n’est évidemment pas la seule solution pour l’extraction de données sur Internet. De nombreux projets scientifiques, quelques entreprises connues étudient et mettent en place des solutions similaires. Retroweb se distingue de ses concurrents par ces différents avantages :
Retroweb se compose de deux modules complémentaires :
Retroweb-Browser est une application Java 6 basée sur le framework Eclipse-RCP, le moteur de rendu des pages Web est Gecko (également utilisé dans le navigateur Firefox), les règles d’extraction sont basées sur le langage XPath, standard du W3C. L’architecture logicielle de Retroweb est de type Modèle-Vue-Contrôleur (MVC) afin de réduire la taille du code et faciliter le développement de nouvelles fonctionnalités.
Retroweb-Wrapper est un application Java 6 qui peut être exécutée sur un serveur, en ligne commande. Elle utilise les règles d’extraction générées par Retroweb-Browser afin d’extraire les données en XML, format de données structuré et interprété.
Retroweb a été testé, avec succès, sous MS-Windows et Linux Ubuntu.
Dans sa forme actuelle, Retroweb remplit efficacement son rôle d’outil d’extraction sur Internet. Il est toutefois amené à évoluer selon l’apparition de nouvelles technologies ou de nouveaux besoins d’entreprises. Ainsi, nous pouvons, déjà acuellement, avancer les pistes de recherche suivantes :
L’interopérabilité avec les langages du Web Sémantique
L’un des grands challenge de l’Internet de demain sera d’être exploitable aussi bien par des êtres humains (en améliorant l’ergonomie des sites, par exemple) que par des machines.
Le Web Sémantique répond à ce dernier objectif en proposant des langages et des techniques pour associer un sens, une signification aux données du Web. En tant qu’outil d’annotation sémantique de pages Web, Retroweb a clairement un rôle à jouer pour surmonter ces défis.
La réparation automatique des règles d’extraction
Suite à une modification majeure du code HTML d’une page, une règle d’extraction peut ne plus être valide. Dans ce cas, il faut pouvoir, évidemment, détecter l’erreur lors de l’extraction et adapter automatiquement la règle au nouveau cas.
L’intégration de Retroweb dans une architecture de moteur de recherche
Un moteur de recherche traditionnel collecte des documents, en extrait le contenu textuel et le stocke sous la forme d’un index i.e. une représentation compressée des termes et des documents dans lesquels ils apparaissent. Ce processus d’indexation est dit "full-text" car il ne gère que le contenu syntaxique des documents. A l’inverse, Retroweb-Wrapper peut permettre une indexation sémantique car ce module est capable de comprendre le sens des données qu’il extrait. Une intégration de Retroweb-Wrapper au sein d’un moteur de recherche semble donc pouvoir apporter une réelle plus-value aux architectures des moteurs traditionnels.