Tests des composantes de la variance dans les modèles à effets mixtes pour des petits échantillons. Application à l’étude de la variabilité génotypique chez Arabidopsis thaliana
déc. 2024
Intervenant : | GUEDON Tom | ||
Directeur : | BAEY Charlotte | Directeur : | KUHN Estelle (MaIAGE) |
Heure : | 14h00 | ||
Lieu : | Amphi Yoccoz |
Les modèles à effets mixtes permettent d'analyser des données présentant une structure hiérarchique, telles que les données longitudinales qui sont des mesures collectées sur un même individu au cours du temps. Ces modèles prennent en compte la variabilité au sein des mesures effectuées sur chaque individu (variabilité intra-individuelle) et entre différents individus (variabilité inter-individuelle), grâce à deux types d'effets : les effets fixes, communs à tous les individus de la population, et les effets aléatoires, variables d'un individu à l'autre. Ces derniers sont modélisés par des variables latentes non observées, qui portent la variabilité inter-individuelle de la population. Identifier les paramètres du modèle à la source de cette variabilité est une question importante, en particulier pour l'étude de la variabilité génotypique en amélioration des plantes. Cet objectif peut être formulé comme un test statistique de nullité des variances des effets aléatoires et la statistique du rapport de vraisemblances peut être considérée. Dans ce contexte, ce test présente cependant plusieurs défis. Théoriquement, la nullité des variances testées pose problème car ces variances se trouvent à la frontière de l'espace des paramètres. Les résultats classiques des méthodes basées sur le maximum de vraisemblance ne sont pas valides. Par ailleurs, la matrice d'information de Fisher est singulière dans ce cadre. De plus, si des variances non testées sont nulles, les tests asymptotiques ne sont plus applicables.
Dans ce travail de thèse, une procédure de test du rapport de vraisemblances de nullité des composantes de la variance dans les modèles à effets mixtes est proposée, basée sur le Bootstrap paramétrique. La consistance de cette procédure de test sous l'hypothèse nulle est démontrée, pour un choix judicieux du paramètre utilisé pour simuler les échantillons Bootstrap. Une étape de seuillage de ce paramètre est proposée pour pallier les problèmes de frontière et de singularité de la matrice d'Information de Fisher. D'un point de vue computationnel, les modèles à effets mixtes étant des modèles à variables latentes, leur vraisemblance est la plupart du temps non explicite, ce qui rend difficile l'estimation de la statistique du rapport de vraisemblances. Estimer cette statistique revient à estimer un ratio de constantes de normalisation de densités de probabilité. Une nouvelle procédure d'estimation de ce ratio, basée sur une approximation stochastique, est proposée. Elle consiste à trouver le zéro d'une fonction définie par une espérance. Ce nouvel estimateur est consistant et asymptotiquement gaussien. Il présente de très bonnes performances théoriques et pratiques et peut s'intégrer dans une procédure d'estimation de paramètres dans un modèle à variables latentes.
Pour finir, motivé par l'analyse de la variabilité génotypique pour l'amélioration des plantes, une étude de 48 génotypes d'Arabidopsis thaliana est présentée. Un modèle mécaniste complexe décrivant les échanges de carbone et d'azote entre la plante et son environnement est intégré à un modèle à effets mixtes afin d'identifier des paramètres biologiques portant une partie de la variabilité génotypique observée.