Expertises:
Science des données ⊕
Fiche projet:
Le projet CRAQ-Reverse développe une méthodologie et des outils pour l’extraction de données sémantiques à partir de documents complexes et peu structurés, tels que les pages Web. L’équipe conçoit Retroweb, un outil permettant de générer de manière semi-automatique des règles d’extraction pour des données très ciblées au sein de pages Web.
Notre approche se distingue par son haut niveau de généricité qui permet, alors, de proposer une large gamme d’applications aux entreprises : création de moteurs de recherche sémantique, migration de sites statiques dans un système de gestion de contenu (CMS, Content Management System) ou mise en place d’outils de veille automatique sur Internet. Cette activité consiste à extraire et surveiller périodiquement des informations stratégiques publiées sur un ensemble restreint de sites jugés pertinents par rapport à une problématique ou une stratégie d’entreprise.
L’équipe développe aussi une expertise en matière de moteurs de recherche pour Internet ou pour systèmes documentaires. Un moteur de recherche documentaire est un composant logiciel qui parcourt un système de fichiers, extrait et indexe le contenu des documents électroniques afin de les rendre facile à retrouver, sur base de mots-clés. Les différents composants d’une telle application sont le butineur (qui récolte les documents), l’indexeur (qui stocke le contenu des documents dans un index) et l’interface de recherche (qui permet de retrouver et de classer les documents).
Durant cette année, l’équipe a poursuivi, finalisé et documenté le développement de son outil Retroweb. Afin d’alléger la taille du code source et ainsi pouvoir assurer une meilleure maintenabilité et évolutivité, nous avons implémenté, au sein de Retroweb, une architecture de type MVC (Modèle-Vue-Contrôleur). Ce type d’architecture sépare les données (le modèle), l’interface-utilisateur (la vue) et la logique de flux et de contrôle (le contrôleur). L’interface-utilisateur a également été complètement revue afin d’améliorer l’ergonomie de l’outil. Ces récentes avancées ont pu être montrées à la communauté scientifique lors de la conférence EGC’2007 (« Extraction et Gestion de la Connaissance ») qui se tenait, cette année, à Namur.
Le CETIC a aussi développé son propre moteur de recherche documentaire sur base de composants Open Source. Celui-ci peut être déployé au sein d’entreprises pour répondre à des besoins spécifiques, par exemple en vue d’améliorer leur efficacité dans la gestion documentaire. L’outil est doté d’un module de statistiques qui permet d’évaluer l’efficacité du processus d’indexation, et d’un module de détection automatique de la langue d’un document sur base de critères statistiques.
Les technologies Retroweb, développées par l’équipe, intègrent de puissants outils d’analyse et d’extraction de données sur Internet. Une application concrète de ces technologies est la veille automatique sur Internet. L’équipe a réalisé une étude de faisabilité dans ce domaine, pour la Société DocLedge. Cette prestation concernait l’aide au développement d’un logiciel innovant. Basé sur les technologies Retroweb, le prototype développé consiste en un outil de veille sur Internet à destination des PME.
Les travaux de l’équipe ont été présentés à différentes entreprises, universités ou centres de recherche dans la perspective de projets communs.
Agenda
15.12.2005
15.12.2005
Groupes de Discussion
jeudi 15 décembre 2005
En savoir plus
25.06.2003
25.06.2003
Groupes de Discussion
Le CETIC vous invite à participer à un débat autour de la réingénierie des systèmes d’information. Cette rencontre aura lieu le mercredi 25 juin 2003,...
En savoir plus
22.01.2004
22.01.2004
Rétro-ingénierie web
En savoir plus
25.09.2003
25.09.2003
Le CETIC développe une méthodologie outillée de support au processus de transformation de schémas vers le modèle XML. La méthode mise au point est...
En savoir plus
08.09.2003
08.09.2003
Bases de données
En savoir plus
Publications
03.04.2006
03.04.2006
Publications scientifiques
Estiévenart F., Meurisse J.-R., Hainaut J.-L., Thiran P., Semi-automated Extraction of Targeted Data from Web Pages, Proc. of the 22nd...
En savoir plus
01.01.2005
01.01.2005
Publications scientifiques
Thiran P., Estiévenart F., Hainaut J.-L., Houben G.-J, A Generic Framework For Extracting XML Data From Legacy Databases, Journal of Web...
En savoir plus
08.06.2004
08.06.2004
Publications scientifiques
Thiran P., Estiévenart F., Hainaut J-L., Houben G-J., Exporting Databases in XML : a Conceptual and Generic Approach, WISM’04 : Web Information...
En savoir plus
22.09.2003
22.09.2003
Publications scientifiques
Estiévenart F., François A., Henrard J., Hainaut J-L., A tool-supported method to extract data and schema from web sites, Proc. of the 5th...
En savoir plus