Travail en cours avec Camille Coron, Jean-Michel Poggi et Bruno Portier
Correction de cartes de prédictions de taux de polluants (NO2)
TODO
agghoo avec Mélina Gallopin
Alternative à la validation croisée
TODO
qomet
Application web pour faire passer des examens
L'objectif (à moyen terme) est de proposer une alternative aux examens papiers, encore très répandus dans les universités. Il suffirait de disposer d'assez de salles machines, et éventuellement de les sécuriser en mode kiosk (car certaines tentatives de triche élaborées ne sont pas détectables par l'application seule).
Note : prototype en cours de test.
valse avec Emilie Devijver et Benjamin Goehry
Variable selection with mixtures of models
Sélection de modèle suivant une grille de paramètres de régularisation, sous forme d'un package R. Fait suite à un code similaire écrit en MATLAB, plateforme peu sympathique concernant la création et diffusion de toolbox libres. La méthode est décrite dans cet article.
Package disponible sur le CRAN.
morpheus avec Mor-Absa Loum
Estimation de paramètres de mélange par des méthodes spectrales
La motivation pour ce travail est la recherche d'une alternative plus algébrique à l'algorithme EM utilisé notamment dans le package flexmix, permettant d'obtenir certains paramètres de manière exacte en temps fini. On montre en effet que les directions des vecteurs β sont retrouvées. Pour les détails en attendant le manuscrit de thèse vous pouvez consulter ce document qui présente un algorithme inpirant fortement le fichier "computeMu.R" du package.
Voici le lien pour reproduire les résultats.
epclust avec Jairo Cugliari, Yannig Goude et Jean-Michel Poggi
Classification des courbes de charge EDF
Fait suite à un projet aux objectifs similaires mais complètement écrit en C, très spécialisé et donc difficile à réutiliser (accessible ici). La classification des séries temporelles (échantillonnées à la demi-heure ou moins) s'effectue via une parallélisation de l'algorithme PAM.
talweg avec Jean-Michel Poggi et Bruno Portier
Time-Series Samples Forecasted With Exogenous Variables
Ce projet est la continuation du package aggexp, visant cette fois à prédire l'évolution intra-journalière des indices de pollution, heure par heure (si vos données sont échantillonnées plus finement le code s'applique aussi). Le principal modèle utilisé cherche les jours similaires à l'instant t, puis effectue une moyenne pondérée des séries passées. Il est comparé à plusieurs prédicteurs naifs (moyenne sur toute la série, etc).
aggexp avec Jean-Michel Poggi et Bruno Portier
Agrégation séquentielle d'experts pour prédire des indices de pollution
Premier volet d'une collaboration avec AirNormand (maintenant fusionné et rebaptisé Atmo Normandie), visant à améliorer la qualité des prédictions de PM10. Le package n'est pas spécifique aux données atmosphériques, et prédit une série au temps t+1 en effectuant une combinaison linéaire des prédictions d'experts. Une présentation est disponible.
mixmod de Florent Langrognet et al.
Classification (supervisée ou non) via des modèles de mélange gaussiens
Suite logicielle en C++ — avec des interfaces en R et Python — permettant d'effectuer la classification de jeux de données de nature continue, symbolique ou mixte. J'ai contribué au code C++ de 2013 à 2015 environ. Plus de détails sur les modèles statistiques.
mixstore
Site web regroupant des packages en lien avec les modèles de mélange
L'idée initiale était de disposer d'une sorte de "CMAN" ("comprehensive mixture models archive network"), où chaque utilisateur pourrait déposer ses packages, en rechercher, laisser des commentaires, voter ...etc. Le projet n'a pas vraiment rencontré l'adhésion du public (bien que le site soit fonctionnel : cf. screenshots sur ce poster). Une plateforme permettant d'effectuer des calculs intensifs avec un petit nombre de packages présélectionnés a vu le jour depuis (massiccc), mais l'objectif est différent.
synclust avec Christophe Giraud
Classification de sites d'observation d'oiseaux en fonction des variations d'effectifs annuels.
Méthode statistique d'identification des régions à dynamiques de populations synchrones, à partir de données de comptage obtenues au fil des années en chaque site. L'identification des régions est réalisée via la minimisation d'un critère de log-likelihood pénalisé (pour favoriser les dynamiques synchrones). Pour plus de détails, voir cet article.