Modélisation et prototypage d'un système de recherche d'informations basé sur la proximité des occurences des termes de la requête dans les documents - TEL - Thèses en ligne
Nothing Special   »   [go: up one dir, main page]

Thèse Année : 2006
Fuzzy term proximity information retrieval model and system Modélisation et prototypage d'un système de recherche d'informations basé sur la proximité des occurences des termes de la requête dans les documents
1 RIM-ENSMSE - Département Réseaux, Information, Multimédia (158, cours Fauriel F-42023 Saint-Étienne cedex 2 - France)
"> RIM-ENSMSE - Département Réseaux, Information, Multimédia

Résumé

The huge size of digital data accentuates the scientific challenge of information retrieval (IR) consisting in finding a compromise between recall and precision. We propose an IR model based on fuzzy proximity (FP) of the query terms which is aimed to high precision. It combines the expressivity of the Boolean query model and the ranking of the documents thanks to the use of proximity. Each keyword defines an influence zone at the query evaluation time. The fuzzy operations associated to the traditional Boolean operators propagate the proximity to the root of the query tree. The FP model was largely validated on the traditional test collections and at the 2005 and 2006 editions of the international IR evaluation campaigns (TREC, CLEF and INEX 2006). The results obtained with the automatically built queries are equivalent to the baselines (Okapi/Lucy and vector/MG). Moreover, with manual queries adapted to FP, the results are better than the baselines.
La croissance des données numériques accentue le verrou scientifique de la RI consistant à trouver un compromis entre exhaustivité et précision des résultats. Le modèle proposé, la proximité floue (PF), allie expressivité des requêtes booléennes et utilisation de la proximité, et vise une approche à haute précision. Chaque mot-clé possède une zone d'influence utile à l'évaluation des requêtes. Les opérations floues associées aux opérateurs booléens classiques permettent de propager la proximité jusqu'à la racine. La PF a été largement validée sur les collections de test classiques et pour les éditions 2005 et 2006 des campagnes d'évaluations internationales de RI (Trec, Clef et Inex 2006). Les résultats sur des requêtes construites automatiquement sont équivalents à ceux des méthodes de référence Okapi/Lucy, vectoriel/MG. Par contre, avec l'utilisation de requêtes manuelles adaptées à la PF, les résultats sont très largement supérieurs aux modèles classiques.
Fichier principal
Vignette du fichier
2006_these_A_mercier_417I.pdf (1.73 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00785143 , version 1 (05-02-2013)
Identifiants
  • HAL Id : tel-00785143 , version 1

Citer

Annabelle Mercier. Modélisation et prototypage d'un système de recherche d'informations basé sur la proximité des occurences des termes de la requête dans les documents. Modélisation et simulation. Ecole Nationale Supérieure des Mines de Saint-Etienne, 2006. Français. ⟨NNT : 2006EMSE0024⟩. ⟨tel-00785143⟩
225 Consultations
944 Téléchargements

Partager

More