Comment choisir un modèle ?

Sylvain Arlot, Docteur au laboratoire de mathématiques d’Orsay

Les applications de la statistique sont extrêmement diverses : reconnaissance de caractères, analyse de séquences ADN, aide au diagnostic médical, prévision de la qualité de l’air, etc. Mais la capacité des algorithmes statistiques à « apprendre » à partir d’exemples dépend essentiellement d’une modélisation. Et l’on peut choisir celle-ci en ne s’appuyant que sur les données, sur la base de critères statistiques.


Supposons que l’on souhaite mesurer l’évolution de la température en un lieu donné au cours d’une journée. On utilise un thermomètre électronique et l’on obtient une série de valeurs en fonction du temps (« les données »). Malgré leur précisions apparentes, ces valeurs ne sont pas exactement égales à la température étudiée, par exemple à cause d’erreurs de mesure ou de perturbations du signal électrique entre le thermomètre et l’enregistreur. La figure 1 représente ce que l’on observe (un nuage de points) et ce que l’on cherche à estimer (une courbe régulière, en pointillés ici). La statistique offre un moyen d’estimer la « vraie courbe » à partir des données.

(JPG) Températures relevées au thermomètre au cours d’une journée et estimations des températures réelles sous forme de courbe en pointillé.

Copyright : Sylvain Arlot

Pour cela, on commence par fixer un ensemble de paramètres susceptibles de décrire cette courbe. Par exemple, on peut supposer que la température varie peu en une heure, si bien que 24 paramètres suffisent pour définir toute la courbe. En utilisant les valeurs des paramètres qui expliquent le mieux les données (c’est-à-dire, ici, en calculant la moyenne des températures observées au cours de chaque heure), on obtient une estimation de la courbe complète. Cette échelle de temps d’une heure étant discutable, on peut en envisager d’autres, et décrire la courbe complète avec un nombre de paramètres K quelconque. On peut également considérer d’autres formes de courbes possibles (linéaire, polynomiale, à base de séries de Fourier, d’ondelettes, etc.). Chacune de ces paramétrisations est appelée un « modèle ».

Sélection de modèles

Il y a en général autant de modèles proposés que d’experts du phénomène étudié. Dans notre exemple, ceci conduit à des estimations bien différentes de l’évolution réelle de la température. La figure 2 montre les estimations obtenues par l’intermédiaire de trois modèles, correspondant à différentes valeurs de K (on s’est limité ici aux fonctions constantes par morceaux). On souhaiterait pouvoir choisir un modèle (choisir K, parmi l’ensemble des entiers de 1 à n le nombre de données), afin d’obtenir la meilleure estimation possible (en termes de distance [1] à la courbe en pointillés de la figure 1, appelée « erreur d’estimation »).

(JPG) Estimations des températures obtenues par l’intermédiaire de trois modèles, correspondant à différentes valeurs de K (on s’est limité ici aux fonctions constantes par morceaux).

Copyright : Sylvain Arlot

Les défauts d’un modèle peuvent être de deux natures. Soit celui-ci est trop simple (K=1) pour rendre compte des variations de la vraie courbe. Il en résulte alors nécessairement une erreur d’estimation importante, aussi précises que soient les données. On parle alors de biais. À l’inverse, lorsqu’un modèle est très complexe (K=36), il est très sensible au bruit, et l’incorpore dans son estimation de la courbe. Le meilleur modèle [2] (en termes d’erreur d’estimation) est celui qui réalise le meilleur compromis entre biais et sensibilité au bruit. Dans l’exemple de la figure 2, il s’agit de K=9.

Pour avoir cette information, on a besoin de connaître la vraie courbe, ce qui n’est le cas ici que parce qu’il ne s’agit pas de données réelles mais du résultat d’une simulation. En pratique, on a donc besoin d’une procédure de sélection de modèles ne dépendant que des données. On pourrait penser utiliser la capacité d’un modèle à expliquer les données, mesurée par son risque empirique [3] . Mais c’est un mauvais critère, car le minimiser conduit à choisir toujours le modèle le plus complexe (plus de paramètres permettant de mieux suivre des variations même aléatoires), et donc le plus sensible au bruit.

Il existe de nombreuses approches pour résoudre ce problème. La plupart d’entre elles simplifient la recherche d’un compromis entre biais et sensibilité en formulant une ou plusieurs hypothèses relatives à leur évolution en fonction de la complexité des modèles. L’inconvénient est que le modèle choisi est très mauvais dès que ces hypothèses ne sont plus satisfaites. Ce n’est donc pas un choix prudent, à moins que l’on ne dispose d’informations fiables a priori.

À l’inverse, il est possible de s’affranchir de toute hypothèse et de conserver une bonne procédure de choix de modèles dans une situation assez générale (il n’existe malheureusement aucune procédure universellement valide ; ceci a été prouvé dans divers cadres, par des résultats appelés « No Free Lunch Theorems » [4]).

Validation croisée

Une des méthodes les plus utilisées en pratique est la validation croisée. Elle repose sur l’idée d’un découpage (aléatoire) des données en deux sous-échantillons. Supposons dans un premier temps ce découpage fixe. On utilise la première partie des données (appelée échantillon d’entraînement, de taille Ne) pour construire une estimation de la « vraie » courbe avec chacun des modèles en compétition. Ensuite, avec les données restantes (formant l’échantillon de validation, de taille Nv=n-Ne), on évalue la qualité de chacune des estimations en les comparant aux valeurs observées.

La raison fondamentale pour laquelle cette méthode fonctionne est l’indépendance entre échantillon d’entraînement et échantillon de validation. Ainsi, on ne sous-estime pas l’erreur d’estimation des modèles les plus complexes. Il reste cependant un léger biais, car un estimateur fondé sur Ne données est moins performant que s’il pouvait en utiliser n>Ne. Pour obtenir une méthode de choix de modèles optimale, Ne doit être aussi proche de n que possible.

Une deuxième faiblesse de cette méthode est qu’elle repose fortement sur le choix d’un découpage, d’où une grande incertitude dans évaluation de la qualité de chaque modèle. En pratique, on fixe la valeur de Ne, puis l’on choisit aléatoirement B échantillons d’entraînements (B>1), et l’on évalue la qualité de chaque modèle en effectuant une moyenne sur ces B découpages. C’est pourquoi l’on parle de validation « croisée ». Pour des raisons de temps de calcul, on ne peut pas considérer tous les découpages possibles. En revanche, il semble raisonnable d’imposer que chaque donnée soit au moins dans l’un des échantillons d’entraînement et dans l’un des échantillons de validation, pour minimiser l’impact du choix arbitraire des B découpages. Cette condition (non nécessaire en théorie, mais améliorant considérablement les performances en pratique) implique en particulier que Ne doit être inférieur à (B-1)*n/B. Si les capacités de calcul imposent à B d’être petit, on ne peut donc s’affranchir du biais.

Pénalisation

Il existe en revanche des méthodes ne souffrant pas d’un tel défaut. Une approche récemment proposée repose sur l’idée de la pénalisation. Plutôt que d’estimer directement l’erreur d’estimation de chaque modèle, on ajoute au risque empirique une « pénalité ». On choisit alors le modèle qui minimise la somme de ces deux termes. Idéalement, la pénalité doit être de l’ordre de l’écart entre l’erreur d’estimation et le risque empirique, mesurant ainsi la sensibilité au bruit de chaque modèle. Il est possible d’évaluer en s’inspirant du principe de la validation croisée. En quelques mots, l’idée est d’ajuster chaque modèle sur l’échantillon d’entraînement, puis de mesurer l’écart entre l’erreur d’ajustement correspondante, et l’erreur d’explication des données entières. Il en résulte (à des détails techniques près) une pénalité aboutissant à un choix de modèle optimal, même lorsque le temps de calcul est limité.

L’étude théorique de ces différentes méthodes (validation croisée, pénalisation par sous-échantillonnage) reste cependant un problème largement ouvert. Elle a profité de développements récents en probabilités, tels que le phénomène de concentration de la mesure [5] , mais ceux-ci restent insuffisants pour une compréhension fine de ces procédures dans un cadre général. Il reste en particulier beaucoup à faire pour que l’analyse théorique éclaire complètement l’utilisation pratique de ces méthodes. Et les questions que cela soulève sont à la fois passionnantes du point de vue théorique et d’un intérêt décisif dans de très nombreux domaines d’application.

Sylvain Arlot, Docteur au laboratoire de mathématiques d’Orsay

[1] En principe, toute notion de distance peut convenir. Ici, par souci de simplicité, nous considérons la distance L², définie comme la moyenne de (f(t)-g(t))² (f et g étant les deux fonctions représentées par les deux courbes que l’on compare).

[2] Remarquons que celui-ci n’est en général pas exact, c’est-à-dire que la vraie courbe ne peut pas être décrite par ce modèle (en général, elle ne peut pas être décrite simplement par un nombre fini de paramètres). Ce n’est pas non plus le modèle le moins faux (auquel cas K=36 serait meilleur que K=9). C’est uniquement celui qui permet d’utiliser au mieux les données dont on dispose. Attention donc à ne pas sur-interpréter le résultat « K=9 fournit le meilleur modèle » : cela ne signifie pas que le phénomène étudié est effectivement décrit par ce modèle.

[3] Défini comme la distance entre la courbe estimée par le modèle et les données qui ont servi à l’ajuster.

[4] Luc Devroye, László Györfi et Gábor Lugosi. A probabilistic theory of pattern recognition. Applications of Mathematics (New York), 31. Springer-Verlag, New York, 1996.

[5] Michel Ledoux, The concentration of measure phenomenon. Mathematical Surveys and Monographs, 89. American Mathematical Society, Providence, RI,2001. Pascal Massart, Concentration inequalities and model selection. Notes de cours de l’école d’été de probabilités de Saint-Flour, 2003. Lecture Notes in Mathematics, 1896. Springer, Berlin, 2007.

La thèse : Rééchantillonnage et Sélection de modèles (soutenue le 13 décembre 2007 à l’université Paris-Sud 11, sous la direction de Pascal MASSART).

Crédit Image : Frickr, Alain Bachellier