Thèse
Année : 2000
Résumé
Non disponible / Not available
Cette dernière décennie a vu évoluer la problématique relative au traitement des données d'une part par un facteur d'échelle - les données ainsi que la représentation qui leur est associée sont de plus en plus nombreuses - et de disponibilité (notamment par le développement des réseaux de communication et des supports de stockage) de l'autre. L'étude des techniques
permettrait d'exploiter ces masses de données maintenant disponibles fait l'objet du courant de recherche appelé extraction de connaissances dans des bases de données ou ECBD. Les principales techniques étudiées dans le cadre de l'ECBD sont issues des bases de données, de l'apprentissage, de la représentation des connaissances, des statistiques, de l'analyse de données et de la visualisation.
L'ECBD est ainsi un domaine de recherche pluridisciplinaire où l'ensemble des techniques mises en oeuvre visent l'objectif commun qui consiste à exploiter au mieux les données. L'approche de l'ECBD qui est adoptée dans ce mémoire de thèse est fondée sur l'étude d'outils classificatoires par objets. Les techniques classiques d'arbres de décision et principalement de treillis de Galois sont adaptées - ces techniques relèvent des problématiques issues des modèles fondés sur des
« tableaux de données» -- au cas ou les données relèvent d'un système de représentation des connaissances par objets, ou système de RCO. Un système de RCO a pour fonction de stocker et d'organiser les connaissances autour de la notion de hiérarchie d'objets et de fournir des services inférentiels - qui sont destinés à compléter l'information disponible - et d'accès à l'information
(filtrage) tous deux fondés sur des méthodes classificatoires. Par ailleurs, un système de RCO permet de manipuler des données « complexes» car leurs attributs ne se réduisent pas à des types de base atomique mais peuvent être d'autres objets (relations) ; aussi bien mono que multivalués. Les fonctionnalités de représentation et inférentielles des systèmes de RCO sont mises à
profit pour l'ECBD pour elles-même mais aussi pour la construction de structures classificatoires d'arbres de décision et de treillis de Galois. Les structures ainsi construites sont des hiérarchies d'objets qui relèvent du modèle de RCO. Une telle approche a pour avantages de prendre en compte les connaissances disponibles et de produire des structures directement interprétables et réutilisables - pour mener à bien des inférences ou des constructions de nouvelles structures.
Les structures de treillis de Galois sont également mises à profit pour la construction de toutes les règles d'association partielles. Nous montrons que notre approche possède l'avantage de construire moins de règles, car des règles redondantes ne sont pas produites, de permettre une mise à jour des règles pour tenir compte de nouveaux individus ou de nouvelles propriétés
et d'améliorer l'expressivité des règles.
Domaines
Autre [cs.OH]Thèses UL : Connectez-vous pour contacter le contributeur
https://hal.univ-lorraine.fr/tel-01746446
Soumis le : jeudi 29 mars 2018-10:37:58
Dernière modification le : lundi 11 septembre 2023-17:41:19
Dates et versions
- HAL Id : tel-01746446 , version 1
Lien texte intégral
Citer
Arnaud Simon. Outils classificatoires par objets pour l'extraction de connaissances dans des bases de données. Autre [cs.OH]. Université Henri Poincaré - Nancy 1, 2000. Français. ⟨NNT : 2000NAN10069⟩. ⟨tel-01746446⟩
Collections
37
Consultations
0
Téléchargements