Statistiques (et probabilités) en grande dimension


Christophe Giraud, Matthieu Lerasle, Zacharie Naulet

Ce cours est un cours joint entre le Master2 Mathématiques de l'aléatoire (finalités Statistiques et Machine Learning et Probabilités et Statistiques), le Master2 Mathématiques et Intelligence Artificielle et le Master2 Mathématiques pour les Sciences du Vivant.

Les 6 premières semaines de cours, avec Christophe Giraud sont communes, le reste du cours est séparé en deux. Les étudiants du Master2 Mathématiques de l'aléatoire poursuivent avec 6 semaines de cours avec Matthieu Lerasle et les étudiants du Master2 Mathématiques pour les Sciences du Vivant suivent 3 semaines de cours avec Zacharie Naulet.

Objectifs

L’objectif principal de ce cours est

Contenu

La principale difficulté du statisticien face aux données du XXIème siècle est de vaincre le fléau de la grande dimension. Ce fléau oppose aux statisticiens deux difficultés : d'une part il rend les méthodes statistiques classiques totalement inopérantes par manque de précision, d'autre part il oblige à développer des approches gardant sous contrôle la complexité algorithmique des procédures d'estimation.

Première partie du cours (Christophe Giraud, M2 MDA+MIA+MSV).
Dans la première partie du cours (commune MDA et MSV), nous commencerons par comprendre d’où vient ce fléau et quels concepts permettent de le vaincre. Ensuite, nous verrons comment rendre opérationnels ces concepts, avec une attention sur les frontières du possible. Pour l'essentiel, nous resterons dans un cadre gaussien afin que les aspects techniques ne viennent pas masquer les principales idées.

Seconde partie du cours (Matthieu Lerasle, M2 MDA).
Côté MDA, la seconde partie du cours, sera principalement consacrée aux outils probabilistes fondamentaux indispensables pour analyser des problèmes en grande dimension. Du temps sera consacré à démontrer des inégalités de concentration sur de grandes matrices aléatoires, à obtenir des résultats de chaînage pour montrer des inégalités maximales et faire des liens avec la géométrie des espaces de Banach. L’accent sera mis sur les techniques mathématiques et sur la généricité des approches déployées.

Seconde partie du cours (Zacharie Naulet, M2 MSV).
Côté MSV, la seconde partie du cours est consacrée aux fausses découvertes, à la classification supervisée et à des applications en biologie. Lieu: Orsay, salle 1A11. Dates: les jeudis 14, 21 et 28 novembre.

Documents

La première partie du cours est basée sur la seconde edition de l'ouvrage Introduction to High-Dimensional Statistics disponible en ligne à cette adresse Lecture notes.

book2

Vous êtes invités à partager vos solutions aux exercices (en anglais!) sur le wiki-site associé.

En complément, une version enregistrée de la première partie du cours (2020) est accessible en ligne sur la chaîne youtube High-dimensional statistics and probability



La seconde partie du cours avec Matthieu Lerasle est principalement basée sur le livre de Roman Vershynin.

Enfin, pour approfondir ce cours, vous pouvez regarder le livre de Martin Wainwright pour les aspects mathématiques et l'incontrounable The elements of statistical learning pour les aspects méthodologiques.

Organisation du cours (première partie)

DateTopic
Lecturer
ChapterHandwritten notes, SlidesExercises
Sept 26Curse of dimensionality and model selection
C.G.
Chap 1 and 2
Notes, Slides
1.6.5, 1.6.6 (part A)
Oct 3Model selection
C.G.
Chap 2
Notes,
2.8.1 (part A and B), 2.8.4
Oct 10Convex criterion
C.G.
Chap 5
Notes, Slides
5.5.7
Oct 17Iterative algorithms
C.G.
Chap 6
Notes,
6.4.1
Oct 24 Information lower bounds
C.G.
Chap 3
Notes,
3.6.2, 3.6.3
Nov 7Low rank regression
C.G.
Chap 8
Notes,
8.6.3
BonusFalse discoveries and multiple testing
C.G.
Chap 10
Notes, Slides
5.5.9 (part A,B)
BonusImplicit regularization and benign interpolation
C.G.
- - -
Notes, videos
- - -

Emploi du temps:
  • du 26 septembre au 7 novembre: les jeudis de 15h00 à 19h00 en salle 0A1, à l'Institut de Mathématiques d'Orsay (Accès).
    Examen: ECTS
    MDA: 10 ECTS
    MSV: 6 ECTS
    MIA: 5 ECTS


    Examens d'années passées

    Dispos ici