Une méthode de classification supervisée sans paramètre pour l'apprentissage sur les grandes bases de données
Résumé
Dans ce papier, nous présentons une méthode de classification super-
visée sans paramètre permettant d'attaquer les grandes volumétries. La méthode
est basée sur des estimateurs de densités univariés optimaux au sens de Bayes,
sur un classifieur Bayesien naïf amélioré par une sélection de variables et un
moyennage de modèles exploitant un lissage logarithmique de la distribution a
posteriori des modèles. Nous analysons en particulier la complexité algorith-
mique de la méthode et montrons comment elle permet d'analyser des bases de
données nettement plus volumineuses que la mémoire vive disponible. Nous pré-
sentons enfin les résultats obtenu lors du récent PASCAL Large Scale Learning
Challenge, où notre méthode a obtenu des performances prédictives de premier
plan avec des temps de calcul raisonnables.