Thèse Probabilités et statistiques
Cadre unifié pour la quantification label shift
01
oct. 2024
oct. 2024
Intervenant : | DUSSAP Bastien | ||
Directeur : | GLISSE Marc | Directeur : | BLANCHARD Gilles |
Heure : | 10h20 | ||
Lieu : | Salle 3L15 |
Il n'est pas rare qu'en classification supervisée, l'information recherchée ne soit pas de nature locale, c'est-à-dire associer à chaque point un label, mais de nature globale : obtenir les proportions des différents labels dans l'échantillon. Ce problème, que nous avons choisi de désigner sous le nom de "label shift quantification", mais qui porte aussi de nombreux autres noms dans la littérature, a vu depuis le milieu des années 2000 une multiplication des articles publiés. Cependant, ces travaux sont souvent menés en parallèle, issus de communautés dialoguant peu, ce qui a résulté en une bibliographie parsemée.
Dans ce manuscrit, nous proposons d'abord une revue de ces différents travaux avec un double objectif : d’une part, créer un pont entre ces communautés en présentant des résultats issus des différents domaines de recherche, et d'autre part, resituer la suite des travaux menés dans leur contexte, notamment en s'intéressant aux efforts d'unification des méthodes.
Dans un second temps, nous proposons un cadre unifiant plusieurs méthodes classiques de la littérature basées sur des vectorisations par moyenne. Nous étudions les garanties théoriques de ces méthodes et montrons des résultats de robustesse lorsque l'hypothèse centrale de label shift n'est plus vérifiée. Nous proposons aussi une extension de ce travail, centrée sur des vectorisations par noyaux, utilisant l'information de la covariance et non plus seulement la moyenne.
Enfin, dans un troisième temps, nous nous intéressons à l'utilisation d'une vectorisation particulière basée sur les Random Fourier Features dans des applications en cytométrie en flux.