Thèse
Année : 2006
Résumé
The huge size of digital data accentuates the scientific challenge of information retrieval (IR) consisting in finding a compromise between recall and precision. We propose an IR model based on fuzzy proximity (FP) of the query terms which is aimed to high precision. It combines the expressivity of the Boolean query model and the ranking of the documents thanks to the use of proximity. Each keyword defines an influence zone at the query evaluation time. The fuzzy operations associated to the traditional Boolean operators propagate the proximity to the root of the query tree. The FP model was largely validated on the traditional test collections and at the 2005 and 2006 editions of the international IR evaluation campaigns (TREC, CLEF and INEX 2006). The results obtained with the automatically built queries are equivalent to the baselines (Okapi/Lucy and vector/MG). Moreover, with manual queries adapted to FP, the results are better than the baselines.
La croissance des données numériques accentue le verrou scientifique de la RI consistant à trouver un compromis entre exhaustivité et précision des résultats. Le modèle proposé, la proximité floue (PF), allie expressivité des requêtes booléennes et utilisation de la proximité, et vise une approche à haute précision. Chaque mot-clé possède une zone d'influence utile à l'évaluation des requêtes. Les opérations floues associées aux opérateurs booléens classiques permettent de propager la proximité jusqu'à la racine. La PF a été largement validée sur les collections de test classiques et pour les éditions 2005 et 2006 des campagnes d'évaluations internationales de RI (Trec, Clef et Inex 2006). Les résultats sur des requêtes construites automatiquement sont équivalents à ceux des méthodes de référence Okapi/Lucy, vectoriel/MG. Par contre, avec l'utilisation de requêtes manuelles adaptées à la PF, les résultats sont très largement supérieurs aux modèles classiques.
Loading...
Florent Breuil : Connectez-vous pour contacter le contributeur
https://theses.hal.science/tel-00785143
Soumis le : mardi 5 février 2013-14:50:46
Dernière modification le : mardi 27 août 2024-12:43:48
Archivage à long terme le : lundi 17 juin 2013-19:25:36
Dates et versions
- HAL Id : tel-00785143 , version 1
Citer
Annabelle Mercier. Modélisation et prototypage d'un système de recherche d'informations basé sur la proximité des occurences des termes de la requête dans les documents. Modélisation et simulation. Ecole Nationale Supérieure des Mines de Saint-Etienne, 2006. Français. ⟨NNT : 2006EMSE0024⟩. ⟨tel-00785143⟩
225
Consultations
944
Téléchargements