$
\newcommand{\cE}{{\cal E}}
\newcommand{\cP}{{\cal P}}
\newcommand{\cB}{{\cal B}}
\newcommand{\cG}{{\cal G}}
\newcommand{\cH}{{\cal H}}
\newcommand{\cN}{{\cal N}}
\newcommand{\cU}{{\cal U}}
\newcommand{\N}{\mathbb{N}}
\newcommand{\E}{\mathrm{E}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\P}{\mathrm{P}}
\newcommand{\1}{\mathbb{1}}
\newcommand{\Var}{\mathrm{Var}}
\newcommand{\Cov}{\mathrm{Cov}}
\newcommand{\esp}{\thinspace}
\newcommand{\tr}{{}^t \negthinspace}
$
Exercice bonus pour le second contrôle du 24/05
Une classe comporte $n = 40$ étudiants. On s'intéresse à la probabilité pour que $k$ élèves soient malades simultanément, le même jour.
- En estimant qu'on est malade en moyenne quinze jours par an, déterminer la probabilité $p$ d'être malade un jour donné.
- En faisant l'hypothèse d'indépendance, quelle loi suit la variable aléatoire $X$ égale au nombre d'étudiants malades un jour donné ?
- En déduire la probabilité d'observer $k = 7$, puis $k \geq 7$ absences justifiées simultanées à un contrôle. Commenter.
- Reprendre la question 2. en approximant par une loi de Poisson, puis par une loi normale via le théorème central limite.
Les questions 4, 5 et 6.b auront peu d'impact sur la note, mais réfléchissez-y !
- Le modèle (être malade 15 jours répartis uniformément dans l'année) vous paraît-il correct ? Quelle alternative proposer ?
- Sous les hypothèses de la question 4., les réponses aux questions 0. à 2. sont-elles changées ?
- Quelle est la probabilité que tous les élèves soient présents durant trois jours d'examens consécutifs ?
a) selon le modèle initial ;
b) selon le modèle modifié.
Corrigé (commandes du logiciel R proposées pour les calculs) :
- L'énoncé suggère $p = \frac{15}{365} = \frac{3}{73} \simeq 4.11 e^{-2}$.
- Somme de $n$ VAs de Bernouilli identiques (par défaut d'hypothèse), et indépendantes (par hypothèse) $\Rightarrow$ $X \sim \cB(n,p)$.
- $\P(X = 7) = \binom{n}{k} p^k (1-p)^{n-k} \simeq 9.2 e^{-4}$, $\P(X \geq 7) = 1 - \sum_{k=0}^{6} \P(X = k) \simeq 1.1 e^{-3}$.
En R : n = 40 ; p = 3/73 ; dbinom(7,n,p) ; 1 - pbinom(6,n,p)
Ces probabilités sont plutôt très faibles, et le seraient encore plus si l'on choisissait un seuil de $8$ absences (de l'ordre de $0.1\%$).
Supposant le modèle correct on en déduit que plusieurs absences du premier contrôle (et du second...) n'étaient sans doute pas justifiées
- du moins pas pour un motif "maladie". De plus, un taux de $15$ jours de maladie par an empêchant de se rendre à l'école est plutôt élevé !
- L'approximation par une loi de Poisson est justifiée ici car $np(1-p) < 10$ avec $n > 30$ et $p < 0.1$ (n "grand" et p "petit").
Avec $\lambda = np$, on obtient $\P(X = 7) \simeq e^{-\lambda} \frac{\lambda^7}{7!} \simeq 1.2 e^{-3}$ puis $\P(X \geq 7) \simeq 1.6 e^{-3}$.
En R : lambda = n*p ; dpois(7,lambda) ; 1 - ppois(6,lambda)
L'approximation par une loi normale est probablement incorrecte car $np < 5$ ; ceci dit, répondons tout de même à la question.
Il y a deux façons d'approximer :
- $\frac{X - np}{\sqrt{n p (1-p)}} \sim_{approx} \cN(0,1)$ ("théorème de De Moivre-Laplace", TCL appliqué à $X = \sum_{i=1}^{n} Y_i$ avec $Y_i$ = VA de Bernouilli "absence d'un élève") ;
- $\frac{X - \lambda}{\sqrt{\lambda}} \sim_{approx} \cN(0,1)$ (résultat vu en cours valable en principe pour $\lambda$ "grand"),
mais seule la première correspond au TCL (et est un peu plus précise que l'autre, qui est une approximation d'approximation !).
Calculs :
$$\begin{align*}
\P(X = 7) &= \P(6.5 \leq X \leq 7.5)\\
&= \P\left( \frac{6.5 - np}{\sqrt{np(1-p)}} \leq \frac{X - np}{\sqrt{np(1-p)}} \leq \frac{7.5 - np}{\sqrt{np(1-p)}} \right)\\
&\simeq \Phi\left(\frac{7.5 - np}{\sqrt{np(1-p)}}\right) - \Phi\left(\frac{6.5 - np}{\sqrt{np(1-p)}}\right) \, ,
\end{align*}$$
$\Phi$ étant la fonction de répartition de la loi $\cN(0,1)$. L'application numérique donne $\P(X = 7) \simeq 5.3 e^{-5}$, ce qui est plutôt mauvais.
En R : pnorm( (7.5-n*p) / sqrt(n*p*(1-p)) ) - pnorm( (6.5-n*p) / sqrt(n*p*(1-p)) )
Enfin, via la même approximation $\P(X \geq 7) \simeq 1 - \Phi\left(\frac{6.5 - np}{\sqrt{np(1-p)}}\right) \simeq 5.5 e^{-5}$ (calcul avec $6.5$ au lieu de $7$ pour rester cohérent avec la réponse précédente ; on trouve $\P(X \geq 7) \simeq 9.9 e^{-6}$ en choisissant un seuil de $7$).
En R : seuil = 6.5 ou 7 ; 1 - pnorm( (seuil-n*p) / sqrt(n*p*(1-p)) )
- On est en général malade plusieurs jours d'affilée ; disons que l'on tombe malade en moyenne $m$ fois dans l'année, chaque fois pendant $q$ jours.
On ne fait pas plus d'hypothèses (les $m$ intervalles sont déterminés aléatoirement via une loi uniforme). Le modèle initial correspond à $m=1$ et $q=15$.
Les deux choix naturels sont $m=5$ et $q=3$, ainsi que $m=3$ et $q=5$.
- La situation est - a priori, sans plus d'information - la même chaque jour (équiprobabilité des "intervalles de maladie"),
donc la probabilité $p$ d'être malade un certain jour $j$ ne dépend pas de $j$. Reste à déterminer $p$.
Pour cela on commence par remarquer que le jour d'examen est (en principe...) indépendant des périodes de maladie d'un étudiant.
Il y a alors équivalence entre choisir d'abord un jour d'examen puis répartir aléatoirement des périodes d'absence (la situation suggérée par l'énoncé), et
choisir des périodes d'absence puis générer aléatoirement un jour d'examen. Or dans ce dernier cas la probabilité que le jour tiré tombe sur un "intervalle de maladie"
vaut exactement $\frac{m q}{365} = \frac{3}{73}$ comme dans la première partie de l'exercice. On conclut alors que $p$ ne change pas : les réponses aux questions 0. à 2. sont identiques.
- a) Selon le modèle initial les effectifs d'étudiants présents les jours $j$, $j+1$ et $j+2$ sont indépendants.
La somme de ces derniers suit donc une loi binomiale $\cB(3n, p)$ et on obtient $\P(X_1 = 0 \cap X_2 = 0 \cap X_3 = 0) = (1-p)^{3n} \simeq 6.5 e^{-3}$.
Cette probabilité est très faible : il est hautement probable que quelques élèves soient absents au moins un jour.
Or ce n'est pas nécessairement ce qu'on observe (ou devrait observer...) en pratique. Le modèle n'est donc pas forcément juste.
b) Attention dans ce dernier cas les effectifs d'étudiants présents (ou absents) n'est pas indépendante d'un jour à l'autre. En effet savoir qu'un élève est absent le jour $j$ augmente
sa probabilité d'absence le lendemain, puisqu'on sait que ce jour appartient à un intervalle de longueur $q$ absences.
En revanche, conditionnellement à l'évènement "l'élève $k$ est présent au jour $j$" sa probabilité d'absence en $j+1$ est exactement $p$.
On écrit alors la formule des probabilités composées :
$$\begin{align*}
\P\left(\sum_{j=1}^{3} X_j = 0\right) &= \P(X_1 = 0) \P(X_2 = 0|X_1 = 0) \P(X_3=0 | X_1=0 \cap X_2=0)\\
&= ((1-p)^n)^3 \simeq 6.5 e^{-3} \mbox{ comme précédemment.}
\end{align*}$$
Remarque : il serait beaucoup plus délicat de calculer par exemple $\P(X_1+X_2+X_3 \leq 5)$.
(Petit exercice de programmation suggéré : vérifier empiriquement les réponses aux deux dernières questions).