Oct. 2023
Intervenant : | Émilie Kaufmann |
Institution : | CNRS, Université de Lille |
Heure : | 15h45 - 16h45 |
Lieu : | 3L15 |
L'échantillonnage de Thompson (Thompson Sampling) est un stratégie populaire pour sélectionner de manière adaptative les bras (= distributions de probabilité inconnues) à échantillonner dans un modèle de bandit à plusieurs bras, dans le but de maximiser la somme des échantillons observés, vus comme des récompenses. Après avoir présenté le cadre usuel d'application de cet algorithme bayésien dans des modèles paramétriques, nous en présenterons une extension à une famille non paramétrique de distributions de récompenses. Si le Thompson Sampling peut être asymptotiquement optimal pour l'objectif de maximisation des récompenses, nous verrons qu'il est sous-optimal pour l'objectif dual d'identification du meilleur bras, où l'on cherche à découvrir le bras ayant la moyenne la plus élevée mais sans la contrainte de maximiser les récompenses lors de l'apprentissage. Nous présenterons alors une famille d'algorithmes, appelés "algorithmes Top Two" et inspirée par le Top Two Thompson Sampling, proposé en 2016 comme une variante de Thompson Sampling pour l'identification du meilleur bras. Ces algorithmes sont simples d'implémentation et obtiennent de très bonnes performance théoriques et pratiques pour l'identification du meilleur bras à niveau de confiance fixé, et au-delà.