$ \newcommand{\cS}{{\cal S}} \newcommand{\cO}{{\cal O}} $

Agrégation séquentielle d'experts
pour la prédiction des PM10

Benjamin Auder Université Paris-Sud
Jean-Michel Poggi Université Paris-Sud
Bruno Portier INSA Rouen
Plan

Introduction

Polluants classiques
  • Dioxyde de soufre : $SO_2$ $\rightarrow SO_3 \rightarrow H_2SO_4$
  • Oxydes d'azote : $NO_X$ $\rightarrow HNO_3$
  • Ozone : $O_3$
  • Particules en suspension : PM10 et 2.5
Épisode de pollution à Paris
Sources de pollution

Humaines

  • Industrie
  • Transports
  • Agriculture

Naturelles

  • Volcans
  • Incendies
Volcan Redoubt (Alaska, 1989)
Règlementation des taux de PM10
Seuil d'information Seuil d'alerte
50 µg/m3 / jour 80 µg/m3 / jour
Ojectif qualité : 30 µg/m3

Valeurs limites

  • >50 µg/m3 au + 35 jours dans l'année
  • 40 µg/m3 au + en moyenne

Outils de prévision

AirNormand dispose de

  • 2 + 4 modèles statistiques ;
  • 3 modèles numériques déterministes ;
  • + le modèle de persistance.
Quel expert choisir ?
Stratégies d'agrégation
  • Combinaison linéaire : $\hat y_t = \langle u_t, x_t \rangle = \sum_{k=1}^{K} u_{t,k} x_{t,k}$
  • Fonction non linéaire : $\hat y_t = f_t(x_t)$

$x_t$ : vecteur des sorties des modèles à l'instant $t$

Suite de la présentation
  1. Formulation du problème
  2. Algorithmes utilisés
  3. Application
Notre contribution
  • Adaptation au contexte de l'ingénieur prévisioniste
  • Principale originalité : les experts proviennent à la fois
    • de modèles statistiques construits suivant différentes méthodes et utilisant différents jeux de données;
    • de modélisations physico-chimiques déterministes de la pollution, de natures similaires mais à différentes échelles spatio-temporelles.

$\Rightarrow$ Mélange d'experts de natures diverses

Formulation

Données
Chaque jour
  1. PM10 observés :   $y_t$
  2. Météo prédite :   $M_{t+1}$
  3. Sorties des modèles :   $x_{t+1} = x_{t+1,1}, \dots, x_{t+1,K}$
Objectif

Déterminer la "meilleure" stratégie $\cS : t \mapsto f_{t+1} \,\, / \,\, y_{t+1} \simeq f_{t+1}(x_{t+1,1},\dots,x_{t+1,K})$

Stratégie optimale ?

On veut minimiser l'erreur cumulée $$L_T(\cS) = \sum_{t=1}^{T} \ell(\hat y_t = f_t(x_t), y_t)$$

Mais...

L'erreur dépend de la difficulté du problème d'apprentissage $x_t \mapsto y_t$

Regret

Quantification de la performance comparée à un oracle $\cO$ : $$R_T(\cS) = \frac{1}{T} \sum_{t=1}^{T} \left[ \ell(\hat y_t, y_t) - \ell(\cO_t, y_t) \right] \, ,$$ avec $\cO$ sortie

  • du meilleur expert (ME)
  • de la meilleure combinaison convexe (MCC)
  • de la meilleure combinaison linéaire (MCL)
Objectif

Algorithme (asymptotiquement) meilleur que la MCC

Stratégies

Régression ridge

$f_{t+1}(x) = \langle u_{t+1}, x \rangle$

Chaque jour ($t$)

$$u_{t+1} = \arg\min \left\{ \lambda \Vert u \Vert^2 + \sum_{s=1}^{t} \Vert \langle u, x_s \rangle - y_s \Vert^2 \right\}$$

  • $\lambda$ déterminé par validation croisée (package R : MASS)
  • Possibilité d'appliquer la méthode localement (kNN)
Poids exponentiels : $f_{t+1}(x) = \langle p_{t+1}, x \rangle$

À chaque pas de temps $t$ (= jour), les poids des experts

  • augmentent si leur erreur $\ell_{t,k} = \ell(x_{t,k},y_t)$ est petite ;
  • diminuent si elle est grande.

Algorithme de base :

  1. Initialisation : $\forall k \in [1,K] \, , \, p_{1,k} \leftarrow \frac{1}{K}$
  2. Boucle pour $t=1,\dots,T$ : $$\qquad p_{t+1,k} \leftarrow \frac{\exp(-\eta_t L_t(k))}{\sum_{r=1}^{K} \exp(-\eta_t L_t(r))} \, ,$$ avec $L_t(k) = \sum_{s=1}^t \ell_{s,k}$
Paramètres
Alternatives pour $\eta$
  1. $\eta_t = \eta$ = constante
  2. $\eta_t = \frac{1}{t \times M_t}$ avec $M_t$ = erreur max. jusqu'à $t$
  3. $\eta_t = \arg\min \{ L_t(\eta) \}$ ; utilisation d'une grille en pratique.

Autres possibilités :

  • Redistribuer les poids : $p_{t+1,k} \leftarrow (1-\alpha) p_{t+1,k} + \frac{\alpha}{K}$
  • Remplacer la fonction de perte par son (sous-)gradient : $\ell \leftarrow \partial_1 \ell$
MLpoly (Pierre Gaillard et al.)
  1. Initialisation : $\forall k \in [1,K] \, , \, R_k \leftarrow 0 \, , \, p_{1,k} \leftarrow \frac{1}{K}$
  2. Boucle pour $t=1,\dots,T$ :
    1. Calculer l'erreur du mélange $\hat \ell_t \leftarrow \langle p_t, \ell_t \rangle$
    2. Mettre à jour le regret : $R_k \leftarrow R_k + \hat \ell_t - \ell_{t,k}$
    3. Estimer les vitesses d'apprentissage $$\eta_k \leftarrow \left( 1 + \sum_{s=1}^t (\hat \ell_s - \ell_{s,k})^2 \right)^{-1}$$
    4. Mettre à jour les poids : $$p_k \leftarrow \frac{\eta_k (R_k)_+}{\langle \eta, R_+ \rangle}$$
Comme pour les poids exponentiels, on peut
  • Redistribuer les poids (paramètre $\alpha$)
  • Utiliser le (sous-)gradient de la fonction d'erreur
Valeurs manquantes
Cases vides = valeurs manquantes
Orange = données d'apprentissage

Application

Données de test

Mesures et prédictions individuelles enregistrées
du 01/04/2013 au 30/04/2015 sur 15 stations

Résultats sur 3 stations

Réseau Air Normand
(Haute-Normandie)
HRI (Le Havre)
PQV (Rouen)

Réseau Air COM
(Basse-Normandie)
LIS (Lisieux)

Mélange de cartes
Les trois modèles déterministes renvoient une carte de prévision des PM10.
Air Normand choisit la "meilleure" pour la prévision du lendemain
Et si...

On optimisait les poids à l'échelle des cartes ?
(Possibilité implémentée en considérant les 15 stations en même temps)

Meilleur expert
MLpoly
Ridge Regression

Poids $\rightarrow$

HRI

Erreurs
$\downarrow$

Meilleur expert
MLpoly
Ridge Regression

Poids $\rightarrow$

LIS

Erreurs
$\downarrow$

Meilleur expert
MLpoly
Ridge Regression

Poids $\rightarrow$

PQV

Erreurs
$\downarrow$

Observations
  • Biais des méthodes "convexes" :
    • surestimation des faibles valeurs
    • sous-estimation des fortes valeurs
  • Suppression des contraintes $\Rightarrow$ débiaisage

Pics d'erreur $\Rightarrow$ nets changements sur les poids
...Moins marqués pour RR

Tous les modèles sont utiles !

Bilan
  • Principale originalité : mélange hétérogène d'experts
  • Nette amélioration par rapport à l'existant
  • Peu d'améliorations en utilisant d'autres méthodes (RT, GAM, KNN)
Perspectives
  • Détermination d'intervalles de confiance
  • Mélanges de cartes (démarré)
  • Construction de nouveaux experts spécialisés (démarré)
  • Appliquer la méthode à tout le réseau
Références

Nicolo Cesa-Bianchi & Gabor Lugosi
Prediction, Learning, and Games
Cambridge University Press, 2006.

Gilles Stoltz
Agrégation séquentielle de prédicteurs : méthodologie générale et applications à la prévision de la qualité de l'air et à celle de la consommation électrique
Journal de la Société Française de Statistique, Vol. 151 No. 2 (2010).

Divers articles de

  • Marie Devaine
  • Pierre Gaillard
  • Sébastien Gerchinovitz
  • Yannig Goude
  • Vivien Mallet
  • Tim van Erven
  • ...