UNIVERSITE
Tristan Mary-Huard (AgroParisTech, UMR INRA/AgroParisTech MIA 518)
Exact Cross-Validation for kNN : application to passive and active learning in classification
In the binary classification framework, a closed form expression of the cross-validation Leave-p-Out (LpO)
risk estimator for the k Nearest Neighbor algorithm (kNN) is derived. It is first used to study the LpO risk minimization
strategy for choosing k in the passive learning setting. The impact of p on the choice of k and the LpO estimation of
the risk are inferred. In the active learning setting, a procedure is proposed that selects new examples using a LpO
committee of kNN classifiers. The influence of p on the choice of new examples and the tuning of k at each step is
investigated. The behavior of k chosen by LpO is shown to be different from what is observed in passive learning.
Dans la même rubrique :
- Ségolen Geffray (IRMA, UMR 7501, Université de Strasbourg)
- Bertrand Michel (LSTA, Université Pierre et Marie Curie)
- Van Hanh Nguyen (Laboratoire Statistique et Génome, Université d’Evry et Université Paris-Sud 11)
- Vittorio Perduca (MAP5, Université Paris Descartes)
- Yves Rozenholc (Université Paris Descartes)
- Sébastien Gerchinovitz (DMA, Ecole normale supérieure et Université Paris-Sud)
- Maud Delattre (Laboratoire de Mathématiques, Université Paris Sud)
- Serge Cohen (CNRS/UPS3352 IPANEMA / Synchrotron SOLEIL)
- Julien Stirnemann (MAP5, Maternité et médecine materno-foetale, GHU Necker-Enfants Malades, Université Paris Descartes et CNRS)
- Laureen Ribassin-Majed (MAP5, Université Paris Descartes et CNRS)
- Aurélie Fischer (MAP5 et LSTA, Universités Paris Descartes et Pierre et Marie Curie)
- Anne-Cécile Dragon (CEBC et MAP5, Université Paris Descartes et CNRS)
- Niels Keiding (Department of Biostatistics, University of Copenhagen)
- Christophe Pouzat (Laboratoire de Physiologie Cérébrale, Université Paris Descartes)
- Gaëlle Chagny (MAP5, Université Paris Descartes)
- Marc Vincent (Bases moléculaires de la réponse aux xénobiotiques, UMR-S775, Université Paris Descartes)
- Aurélien Garivier (LTCI Telecom ParisTech, CNRS UMR 5141)
- Pierre Neuvial (Laboratoire Statistique et Génome, Évry, UMR CNRS 8071/Université d’Evry/INRA)
- Simon Cauchemez (School of Public Health and Imperial College, London)
- Meïli Baragatti (IML, université de la Méditerranée et Ipsogen)
