UNIVERSITE
Aurélie Fischer (MAP5 et LSTA, Universités Paris Descartes et Pierre et Marie Curie)
Introduction à la quantification et sélection de paramètres pour les courbes principales
Dans cet exposé, nous commencerons par une introduction à la quantification et à la question liée du clustering, avant de présenter des résultats relatifs aux courbes principales, autre technique d’apprentissage non supervisé, ayant des similitudes avec la quantification.
La notion de courbe principale, introduite par Hastie et Stuetzle (1989), peut être vue comme une généralisation non linéaire de la première composante principale. Une courbe principale est une courbe paramétrée de R^d passant « au milieu » d’une loi de probabilité en dimension d ou d’un nuage de données de R^d. La définition originelle de Hastie et Stuetzle repose sur la propriété d’auto-consistance, qui peut s’interpréter en disant que chaque point d’une courbe principale est la moyenne des observations se projetant sur la courbe au voisinage de ce point. D’autres définitions ont été proposées ensuite ; l’une d’entre elles, étroitement liée à l’idée initiale de Hastie et Stuetzle, repose sur la minimisation d’un critère de type moindres carrés (Kégl, Krzyzak, Linder et Zeger, 2000 ; Sandilya et Kulkarni, 2002). C’est ce point de vue que nous adopterons dans cet exposé.
Nous nous intéresserons au choix d’une bonne classe de courbes sur laquelle minimiser le critère, dans le but d’obtenir une courbe principale qui résume au mieux la forme des données sans interpoler. Pour ce faire, nous proposons une approche de sélection de modèle par pénalisation (Birgé et Massart, 1997 ; Barron, Birgé et Massart, 1999).
Dans la même rubrique :
- Ségolen Geffray (IRMA, UMR 7501, Université de Strasbourg)
- Bertrand Michel (LSTA, Université Pierre et Marie Curie)
- Van Hanh Nguyen (Laboratoire Statistique et Génome, Université d’Evry et Université Paris-Sud 11)
- Tristan Mary-Huard (AgroParisTech, UMR INRA/AgroParisTech MIA 518)
- Vittorio Perduca (MAP5, Université Paris Descartes)
- Yves Rozenholc (Université Paris Descartes)
- Sébastien Gerchinovitz (DMA, Ecole normale supérieure et Université Paris-Sud)
- Maud Delattre (Laboratoire de Mathématiques, Université Paris Sud)
- Serge Cohen (CNRS/UPS3352 IPANEMA / Synchrotron SOLEIL)
- Julien Stirnemann (MAP5, Maternité et médecine materno-foetale, GHU Necker-Enfants Malades, Université Paris Descartes et CNRS)
- Laureen Ribassin-Majed (MAP5, Université Paris Descartes et CNRS)
- Anne-Cécile Dragon (CEBC et MAP5, Université Paris Descartes et CNRS)
- Niels Keiding (Department of Biostatistics, University of Copenhagen)
- Christophe Pouzat (Laboratoire de Physiologie Cérébrale, Université Paris Descartes)
- Gaëlle Chagny (MAP5, Université Paris Descartes)
- Marc Vincent (Bases moléculaires de la réponse aux xénobiotiques, UMR-S775, Université Paris Descartes)
- Aurélien Garivier (LTCI Telecom ParisTech, CNRS UMR 5141)
- Pierre Neuvial (Laboratoire Statistique et Génome, Évry, UMR CNRS 8071/Université d’Evry/INRA)
- Simon Cauchemez (School of Public Health and Imperial College, London)
- Meïli Baragatti (IML, université de la Méditerranée et Ipsogen)
