Comprendre le Machine Learning : Quand les Mathématiques Ouvrent la Boîte Noire de l'IA
Avec Claire Boyer
Les avancées spectaculaires de l’IA ces dernières années reposent en grande partie sur l’entraînement intensif des machines, ou machine learning, à partir de gros volumes de données. Cependant, si ces algorithmes sont performants, leur fonctionnement reste obscur, et leur analyse mathématique pourrait y remédier. Claire Boyer cherche à élaborer des modèles mathématiques capables d’analyser et de mieux comprendre le fonctionnement de ces systèmes d’apprentissage automatique. À travers ses recherches, elle tente de construire des théories rigoureuses avec le souci qu’elles trouvent un écho dans la pratique de la science des données.
Construire des modèles de prédiction
Son travail se concentre principalement sur l’analyse de modèles de prédiction : on souhaite qu’une machine soit capable de prédire certaines données Y (dites de sortie) d’un individu à partir d’autres données X (dites d’entrée) que l’on a déjà. Pour cela, on va entraîner la machine via un apprentissage supervisé en lui donnant accès à des exemples de paires (X,Y). Si l’on a, par exemple, une base de données d'images (ici correspondant à X) contenant des chiens, des chats, une forêt…, ces images sont aussi étiquetées d’un label (correspondant à Y) qui décrit ce qui est représenté sur l'image. Ces images d’exemple vont permettre d’entraîner la machine à affiner ses prédictions (elle va essayer de prédire au mieux les labels sur ces exemples dits d’entraînement). Le vrai challenge réside dans l’espoir que si on donne une nouvelle image de chat sans préciser son label à la machine, elle devra être capable d’associer le label "chat" à l’image.
Cet objectif que la machine soit capable de faire des bonnes prédictions sur des données qu’elle n’a pas vues lors de son entraînement est qualifié de bonne performance en généralisation. La modélisation mathématique peut aider à comprendre comment les différents algorithmes apprennent, mais aussi à caractériser l’erreur introduite par des données d’entraînement qui ne seraient pas “assez propres” ou encore à comprendre comment des a priori physiques sur la fonction de prédiction à construire pourraient faciliter l’entraînement.
Faire face aux données manquantes
Un premier cas de figure, très courant en science des données, est celui des données manquantes. Il arrive fréquemment que les bases de données d’exemples utilisées pour l’entraînement des algorithmes de prédiction contiennent des informations manquantes. Ce manque d’information peut provenir de différentes sources : erreurs de mesure, agrégation de données venant de différentes origines ne mesurant pas les mêmes variables, ou même la réticence des personnes à fournir certaines informations par exemple dans le cas de données de sondage.
Si, afin de nettoyer la base d’entraînement, on décide de supprimer tous les individus ayant des données manquantes, on perd beaucoup de puissance statistique et on risque d’introduire des biais (en n’utilisant que des individus complets pour entraîner la machine).
Par exemple, si on effectue un sondage en questionnant les individus sur leur âge et leurs revenus, les personnes à plus hauts revenus auront peut-être moins tendance à révéler leurs revenus. Si je supprime de ma base les individus aux données manquantes, j’aurai un biais fort, car il me restera une plus grande proportion de faibles revenus.
Claire Boyer réfléchit à construire des méthodes de prédiction capables de gérer ces données manquantes de manière optimale. Elle explore deux stratégies principales :
La première stratégie est appelée stratégie de complétion : elle consiste à d'abord "remplir les blancs" dans les données, puis à appliquer un modèle de prédiction (standard) sur ces données complétées.
La deuxième stratégie peut s’apparenter à une stratégie de modèles multiples : cette approche implique de créer un modèle de prédiction pour chaque type/motif de données manquantes (c’est-à-dire pour tous les différents groupes d’individus qui ont un même ensemble de variables les décrivant). Par exemple, si l’on a deux variables (âge et revenu), on construit un modèle pour traiter les données des individus pour qui on dispose des deux informations, un autre pour les individus pour qui on ne dispose que de l'âge, et un troisième pour les individus pour qui on ne dispose que du revenu. Cette solution, bien que pouvant s’adapter à des types de données manquantes très différents, a l’inconvénient d’être computationnellement intensive, puisqu’il faudra entraîner autant de modèles que de motifs de données manquantes.
Claire Boyer et ses collaborateurs ont découvert des résultats surprenants. Par exemple, remplacer simplement les valeurs manquantes par zéro, une approche qui semble naïve à première vue, peut permettre d’obtenir des résultats efficaces, notamment quand les bases de données sont de très grande dimension. Même si un certain biais demeure, c’est un biais acceptable pour les statisticiens.
Claire Boyer va ensuite examiner la consistance de ses modèles de prédiction : la qualité de ses prédictions quelles que soient les données manquantes. Pour cela, elle va comparer mathématiquement ses résultats avec un prédicteur “oracle” qui aurait accès à un nombre infini de données et faire en sorte que les résultats s’en rapprochent le plus possible.
Guider l'apprentissage par la physique
Pour pallier le faible nombre de données, ou pour étendre des prédictions à des nouvelles entrées très éloignées des observations jusqu’ici collectées, Claire Boyer s’intéresse aussi à des modèles d'apprentissage informés par la physique. Cette approche vise à intégrer des connaissances scientifiques établies dans les algorithmes d'apprentissage automatique.
On va, par exemple, chercher à prédire l’évolution de l’anévrisme chez un patient avec le plus de précision possible. Un modèle basé uniquement sur des statistiques prendra en compte des données comme l’âge, le poids, les antécédents, le taux de cholestérol, et les différentes analyses médicales réalisées sur le patient.
Pour ces types de patients, les médecins sont aujourd’hui capables de mesurer le flux sanguin à certains endroits localisés des vaisseaux mais pas partout. Ces données peuvent aider à analyser l’évolution de l’anévrisme, mais elles sont insuffisantes.
L’idée est d’étendre ces résultats avec les connaissances physiques en mécanique des fluides. Claire Boyer va chercher à contraindre la forme de son modèle d’apprentissage par des équations physiques de mécanique des fluides. Ainsi, le modèle va intégrer des données initiales classiques, qui seront complétées par des équations différentielles. La combinaison de ces deux éléments permet de mieux prédire le flux sanguin dans toute la zone à risque et d’analyser l’évolution de l’anévrisme de manière plus fiable.
Cette modélisation hybride a un double intérêt : elle permet à la fois aux statisticiens d’extrapoler des prédictions à partir de données restreintes et aux physiciens de compléter par les données le système d’équations différentielles qu’ils visent à résoudre.
Traiter le langage par réseau d’attention
Comme on peut le voir, les modélisations mathématiques de prédiction des données peuvent grandement différer en fonction du type de données en jeu.
La donnée textuelle est un autre type de donnée pour laquelle il n’existe pas encore de modélisation mathématique performante. Les intelligences artificielles les plus récentes réussissent pourtant à appréhender le langage dans sa complexité, à partir d’algorithmes sophistiqués. Ces procédures sont le résultat d’années de recherche en apprentissage automatique mais il faut souligner que leur compréhension mathématique est encore loin d’être complète.
Les phrases peuvent avoir des structures grammaticales variées et les mots des relations sémantiques complexes entre eux. Par ailleurs, le sens d'un mot ou d'une phrase peut dépendre d'éléments situés bien avant ou après dans le texte. Et la traduction de ces dépendances en termes mathématiques représente un défi pour la discipline.
Dans ce domaine, Claire Boyer a étudié un modèle basé sur ce qu’on appelle un réseau d’attention. Imaginons qu’il faille analyser des réponses à une question. Les données d’entrées sont les questions et les réponses. Pour chacune des réponses, je vais avoir un label qui me dit si celle-ci est très positive, positive, neutre, négative, ou très négative. Souvent, dans le langage, tous les mots n’ont pas le même poids, et c’est parfois un seul mot de la réponse qui va indiquer si celle-ci est positive ou négative.
Par exemple :
-Comment vas-tu ?
-Depuis trois jours, je me sens fabuleusement en forme.
Ici, c’est le mot "fabuleusement" qui porte l’information principale.
Dans le modèle qu’étudie Claire Boyer, l’information sur la nature du sentiment à prédire est supposée ne dépendre d’un seul mot de la phrase dont la position est inconnue. Tout le problème consiste alors à trouver la position de ce mot clé dans la phrase, et du’tiliser ensuite cette information pour prédire la nature ou l’intensité du sentiment. Au lieu de traiter toute l'entrée de manière égale, le modèle apprend à donner plus d'importance à certains éléments en fonction du contexte. Claire Boyer cherche donc à modéliser mathématiquement ce mécanisme dit d’attention. Le contexte de ces travaux est un modèle simplifié des architectures utilisées dans les grands modèles de langue.
De façon plus générale, la compréhension mathématique des algorithmes offre la possibilité de développer des algorithmes plus interprétables, compréhensibles et moins gourmands en énergie ou en données. Ainsi, elle contribue non seulement à mieux expliquer ces systèmes complexes, mais aussi à rendre l’IA plus fiable et performante pour traiter des systèmes et types de données variés.
Claire Boyer est professeure à l'Université Paris-Saclay, où elle travaille au Laboratoire de Mathématiques d'Orsay, et est membre junior de l'Institut Universitaire de France depuis 2023. Ses recherches se concentrent sur les mathématiques appliquées, en particulier dans les domaines de la statistique, de l'apprentissage automatique et des problèmes inverses, avec un accent sur l'optimisation et le traitement des données manquantes.