UNIVERSITE
Grégory Nuel (Université Paris Descartes)
Notion de Pattern Markov Chain (PMC) et application à l’étude de la distribution d’un motif dans une séquence Markovienne
ATTENTION : en salles des thèses
L’étude de la distribution des fréquences de mots ou de motifs dans les séquences markoviennes a de nombreuses applications dans des domaines aussi variés que la fiabilité, la linguistique ou la bio-informatique. Cela explique d’ailleurs pourquoi ce thème de recherche a fait l’objet depuis près d’un demi-siècle d’efforts considérables de la part de la communauté scientifique et des statisticiens et probabilistes en particulier. De nombreuses méthodes concurrentes ont été proposées, qu’elles soient exactes (séries génératrices, approches combinatoires, familles exponentielles, finite Markov chain imbedding, ...) ou asymptotiques (approximation gaussiennes, de Poisson, binomiales, grandes déviations). Pour toutes ces méthodes, la cardinalité r des motifs considérés (il s’agit du nombre de mots contenus dans le motif, par exemple, la cardinalité du motif aa[actg]t[ac] est r=8) est un paramètre important car il intervient au moins de manière linéaire dans leurs complexités. Ainsi, le traitement de motifs hautement dégénérés (r=1E+10 ou même r=1E+30) tels qu’on en rencontre par exemple en biologie (motifs nucléiques structurés dans les promoteurs, motifs PROSITE) est en général impossible.
Nicodème et al (2002) et Stefanov et Crochemore (2003) ont cependant récemment proposée une approche de ce problème fondée sur les Automates Finis Déterministes (AFD) afin de déterminer de manière efficace la série génératrice associée à un motif donné. S’il faut indiscutablement saluer cette découverte, on peut regretter que cette idée n’ait été exploitée que dans le cadre des séries génératrices alors que, comme on l’a vu, de nombreuses approches concurrentes (et parfois algorithmiquement plus efficaces) sont disponibles.
Dans le cadre de cet exposé, nous nous proposons d’étendre cette technique à un grand nombre d’approches statistiques en introduisant la notion de Pattern Markov Chain (PMC) qui permet de ramener de manière optimale l’étude de la fréquence d’un motif quelconque dans une chaîne de Markov d’ordre m à celle de la fréquence d’un sous-ensemble d’états dans une chaîne de Markov d’ordre 1 (la PMC). Nous expliquons en détails comment adapter un grand nombre de méthodes classiques à la notion de PMC et quels avantages apporte cette nouvelle vision du problème. Nous comparons ensuite l’ensemble de ces approches aussi bien sur le plan des complexités (théoriques comme empiriques) que sur la qualité des approximations.
Le package SPatt (Statistics for Patterns) implémente les méthodes présentées et est mis à disposition de la communauté : http://stat.genopole.cnrs.fr/spatt/
Dans la même rubrique :
- Andrés Almansa (Telecom-Paristech)
- Catherine Larédo (INRA)
- Christophe Garban (ENS-Lyon)
- Jean-Baptiste Gouéré (Université d’Orléans)
- Anne-Laure Fougères (Université Lyon 1)
- Laurent Mazliak (Université Pierre et Marie Curie)
- Olivier Pantz (Ecole Polytechnique)
- Bénédicte Haas (Université Paris Dauphine)
- Julien Berestycki (Université Pierre et Marie Curie)
- Olivier Faugeras (INRIA)
- Nathanaël Berestycki (Statistical Laboratory, Cambridge, UK)
- Thierry Lévy (Université Pierre et Marie Curie)
- Antoine Chambaz (MAP5)
- Sylvain Arlot (Ecole Normale Supérieure)
- J. Chaskalovic (Institut Jean le Rond d’Alembert, Université Pierre et Marie Curie)
- Cristina Butucea (Université de Marne la Vallée)
- Patrick Dehornoy (Université de Caen)
- Damien Simon (Université Pierre et Marie Curie)
- Gérard Ben Arous (Courant Institute of Mathematical Sciences, New York University)
- Emmanuelle Génin (INSERM)
