Partenaires



Rechercher

sur le site du MAP5

sur web cnrs

 

UNIVERSITE

PARIS DESCARTES

MAP5

Réseaux Bayesiens pour la prise en compte du Recensement dans les études de Ségrégation

Stage de M2 2012

Laboratoires d’accueil : Laboratoire Mathématiques Appliquées - Paris 5 (MAP5)

Encadrement : Flora Alarcon (MAP5), Gregory Nuel (MAP5)

Contact : envoyez un CV détaillé et une lettre de motivation à Flora Alarcon (MAP5), Gregory Nuel (MAP5)

Durée du stage : 6 mois

Rémunération : environ 400 euros par mois

Sujet : Utilisation des réseaux Bayésiens pour la prise en compte du recensement dans l’estimation de fonction de pénétrance à partir de données familiale.

Description : Certaines maladies à âges de début variables sont dues à la présence de mutation(s) dans un gène. Pour ces maladies, l’estimation précise du risque cumulé d’être atteint à un certain âge chez les porteurs de la mutation (que l’on appelle fonction de pénétrance) permet une meilleure compréhension des mécanismes sous-jacents de la maladie et permet également de développer et d’améliorer des stratégies de prévention.

L’estimation de la fonction de pénétrance se fait à partir de données familiales recensées sur des critères plus ou moins complexes. Ces critères doivent impérativement être pris en compte afin d’obtenir des estimations non biaisées. Plusieurs vraisemblances ont été proposées, prenant en compte le recensement des familles.

La Prospective Likelihood (PL) [5] correspond à la probabilité des phénotypes (notés Y0,1) conditionnellement aux génotypes (notés G) et aux critères utilisés pour le recensement – ascertainment en anglais – des familles (noté A0,1) : P(Y|G,A). La PL modélise explicitement les critères de recensement. La Proband’s Excluded Likelihood (PEL) [1] tient compte du recensement en retirant l’individu au travers duquel la famille a été sélectionnée. Ces deux méthodes s’appliquent uniquement dans le cas d’un recensement indépendant de l’histoire familiale et ont une bonne efficacité dans le cas de génotypes manquants. La Genotype Restricted Likelihood (GRL) est la probabilité des génotypes conditionnellement aux phénotypes et au recensement : P(G|Y,A) [3]. La particularité de cette vraisemblance est qu’elle s’applique quels que soient les critères. Elle manque cependant d’efficacité dans le cas de génotypes manquants [2].

D’une manière générale, les données manquantes (génotypes, phénotypes, ou autres) doivent être prises en compte dans le calcul de toutes ces vraisemblances. Dans le cas des pedigrés les plus simples (sans boucles de consanguinité), on utilise pour cela l’algorithme de Elston et Stewart [4]. Dans le cadre des pédigrés plus complexes il est indispensable de se tourner vers les réseaux Bayésiens.

Dans le cadre de ce stage, nous allons précisément nous intéresser à cette généralisation en mettant en œuvre les algorithmes de propagation d’évidence (exacts ou approchées) sur des réseaux bayésiens de ségrégations avec trois objectifs :

  1. gérer des pédigrés de complexité arbitraire ;
  2. prendre en compte les règles de recensement (simples ou complexes) ;
  3. prendre en compte les éventuelles erreurs de génotypage et/ou de phénotypage.

Le stage s’organisera en trois temps. D’abord l’étude des méthodes existantes d’estimation de fonction de pénétrance et leur mise en œuvre sur un jeu de données test. Dans un second temps, on considèrera la propagation d’évidence dans les réseaux Bayésiens et la modélisation du problème à l’aide de tels outils. Enfin, on pourra complexifier le modèle et comparer ses résultats avec les méthodes existantes.

Notions abordées :
En statistique :

  • réseaux Bayésiens
  • junction tree
  • propagation d’évidence
  • algorithme EM
En génétique :
  • analyse de ségrégation
  • génotypes, phénotypes
  • fonctions de pénétrance
  • méthodes de recensement en épidémiologie

Références
[1] F. Alarcon, C. Bourgain, M. Gauthier-Villars, V. Planté-Bordeneuve, D. Stoppa-Lyonnet, and C. Bonaïti-Pellié. Pel : an unbiased method for estimating age-dependent genetic disease risk from pedigree data unselected for family history. Genetic epidemiology, 33(5) :379–385, 2009.
[2] F. Alarcon, C. Lasset, J. Carayol, V. Bonadona, H. Perdry, F. Desseigne, Q. Wang, and C. Bonaïti-Pellié. Estimating cancer risk in HNPCC by the GRL method. European Journal of Human Genetics, 15 :831–836, 2007.
[3] J. Carayol and C. Bonaïti-Pellié. Estimating penetrance from family data using a retrospective likelihood when ascertainment depends on genotype and age of onset. Genetic Epidemiology, 27(2) :109–117, 2004.
[4] R.C. Elston and J. Stewart. A general model for the genetic analysis of pedigree data. Human Heredity, 21(6) :523–542, 1971.
[5] C. Le Bihan, C. Moutou, L. Brugieres, J. Feunteun, and C. Bonaïti-Pellié. ARCAD : a method for estimating age-dependent disease risk associated with mutation carrier status from family data. Genet Epidemiol, 12(1) :13–25, 1995.