UNIVERSITÄT FREIBURG Department Mathematik

UNIVERSITÄT FREIBURG
Naturwissenschaftliche Fakultät
Department Mathematik
Frühlingssemester 2016
Propädeutische Statistik - Lösungen Übungsblatt 2
Aufgabe 1. [Boxplot]
1) Pour établir la statistique d’ordre, on ordonne les données par ordre croissant :
x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9)
46.3 48.5 48.9 49.3 49.8 50.1 50.5 50.9 51.2
2) La médiane est la valeur telle que 50% des données sont plus petites et 50% des données sont plus grandes.
Pour n = 9 données, la médiane vaut donc x.5 = x n+1 = x(5) = 49.8.
2
m+1
Le premier quartile est donné pour n = 9 et m = b n+1
) = x(3) = 48.9.
2 c = 5 par x.25 = x(
2
Le deuxième quartile est donné par x.75 = x(n+1− m+1 ) = x(7) = 50.5.
2
3) On construit le boxplot pas à pas, sachant que :
— le bord bas du rectangle est x.25 = 48.9, le bord haut est x.75 = 50.5 et la hauteur du rectangle est
l’écart inter-quartile EIQ=x.75 − x.25 = 1.6.
— la trait au centre du rectangle est donné par la médiane x.5 = 49.8.
— la ”moustache” supérieure est la valeur de l’observation la plus proche en deçà de
BS=x.75 + 1.5 ∗ EIQ = 52.9, c’est-à-dire 51.2.
— la ”moustache” inférieure est la valeur de l’observation la plus proche en delà de
BI=x.25 − 1.5 ∗ EIQ = 46.5, c’est-à-dire 48.5.
On dessine enfin à la main le boxplot suivant :
51.2
50.5
49.8
48.9
48.5
46.3
On constate qu’une des données est en dehors des moustaches : il faudra considérer cette observation
extrême de plus près, elle pourrait ne faire aucun sens dans l’échantillon.
Aufgabe 2. [Loi normale]
1) Ein normalverteiltes Histogramm hat die folgende Form :
2) Der beste normalverteilte Graph entspricht der Variable LBM (siehe oben).
3) Man kann feststellen, dass die Varianz bei Hunden größer ist als bei Wölfen (siehe z.B. LSM und LM).
Eine Hypothese könnte also sein, dass es mehr unterschiedliche Hunderassen als Wolfsrassen gibt. Es wird
noch festgestellt, dass das Mittelwert der gemessenen Längen bei Wölfen immer größer ist (siehe z.B. LP
und LM). Dies könnte man damit erklären, dass der Schädel eines Wolfes größer ist als der eines Hundes.
(a) Variable LSM
(b) Variable LM
(c) Variable LP
Aufgabe 3. [Régression linéaire] On crée un nuage de points du nombre de caractères versus nombre de
fautes et on attribue à chaque article une couleur particulière (”ScatterDot”, ”Groups”, ”Grouping/stacking
variable” selon le ”sujet”). On ajoute encore une droite de régression linéaire (”Add Fit line”, ”linear”). Le
graphe obtenu nous permet d’isoler l’article ”critique littéraire” comme étant l’article qui n’a sans doute pas
été écrit par le journaliste, car il contient un nombre de faute relativement plus élevé que dans les habitudes
du journaliste.
Aufgabe 4. [Régression et power-law]
1) On fait un scatterplot nombre de tremblements de terre versus classe d’intensité. A l’aide de l’outil d’analyse (Analyze - Regression - Curve Estimation), on essaie différents modèles parmi ceux proposés et on
dessine les courbes correspondantes.
Les modèles qui expliquent le mieux les données sont le modèles Power et Exponential, avec un petit
avantage pour le modèle Power. On donne ici le tableau généré par la régression de type Power, ainsi que
la courbe correspondante :
Cependant, si on considère que le dernier point à droite sur le graphe est une erreur de donnée (par
exemple, due au fait que mesurer des tremblements de terre de faible intensité pourrait être difficile pour
la technologie disponible), alors c’est l’approximation exponentielle qui est clairement meilleure.
2) Pour expliquer les données par une droite, on pourrait par exemple changer la graduation de l’axe des x,
et la faire passer d’une graduation linéaire à une graduation logarithmique. On peut ensuite dessiner la
droite de régression correspondante, et on obtient le graphe suivant :