UNIVERSITÄT FREIBURG Naturwissenschaftliche Fakultät Department Mathematik Frühlingssemester 2016 Propädeutische Statistik - Lösungen Übungsblatt 2 Aufgabe 1. [Boxplot] 1) Pour établir la statistique d’ordre, on ordonne les données par ordre croissant : x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9) 46.3 48.5 48.9 49.3 49.8 50.1 50.5 50.9 51.2 2) La médiane est la valeur telle que 50% des données sont plus petites et 50% des données sont plus grandes. Pour n = 9 données, la médiane vaut donc x.5 = x n+1 = x(5) = 49.8. 2 m+1 Le premier quartile est donné pour n = 9 et m = b n+1 ) = x(3) = 48.9. 2 c = 5 par x.25 = x( 2 Le deuxième quartile est donné par x.75 = x(n+1− m+1 ) = x(7) = 50.5. 2 3) On construit le boxplot pas à pas, sachant que : — le bord bas du rectangle est x.25 = 48.9, le bord haut est x.75 = 50.5 et la hauteur du rectangle est l’écart inter-quartile EIQ=x.75 − x.25 = 1.6. — la trait au centre du rectangle est donné par la médiane x.5 = 49.8. — la ”moustache” supérieure est la valeur de l’observation la plus proche en deçà de BS=x.75 + 1.5 ∗ EIQ = 52.9, c’est-à-dire 51.2. — la ”moustache” inférieure est la valeur de l’observation la plus proche en delà de BI=x.25 − 1.5 ∗ EIQ = 46.5, c’est-à-dire 48.5. On dessine enfin à la main le boxplot suivant : 51.2 50.5 49.8 48.9 48.5 46.3 On constate qu’une des données est en dehors des moustaches : il faudra considérer cette observation extrême de plus près, elle pourrait ne faire aucun sens dans l’échantillon. Aufgabe 2. [Loi normale] 1) Ein normalverteiltes Histogramm hat die folgende Form : 2) Der beste normalverteilte Graph entspricht der Variable LBM (siehe oben). 3) Man kann feststellen, dass die Varianz bei Hunden größer ist als bei Wölfen (siehe z.B. LSM und LM). Eine Hypothese könnte also sein, dass es mehr unterschiedliche Hunderassen als Wolfsrassen gibt. Es wird noch festgestellt, dass das Mittelwert der gemessenen Längen bei Wölfen immer größer ist (siehe z.B. LP und LM). Dies könnte man damit erklären, dass der Schädel eines Wolfes größer ist als der eines Hundes. (a) Variable LSM (b) Variable LM (c) Variable LP Aufgabe 3. [Régression linéaire] On crée un nuage de points du nombre de caractères versus nombre de fautes et on attribue à chaque article une couleur particulière (”ScatterDot”, ”Groups”, ”Grouping/stacking variable” selon le ”sujet”). On ajoute encore une droite de régression linéaire (”Add Fit line”, ”linear”). Le graphe obtenu nous permet d’isoler l’article ”critique littéraire” comme étant l’article qui n’a sans doute pas été écrit par le journaliste, car il contient un nombre de faute relativement plus élevé que dans les habitudes du journaliste. Aufgabe 4. [Régression et power-law] 1) On fait un scatterplot nombre de tremblements de terre versus classe d’intensité. A l’aide de l’outil d’analyse (Analyze - Regression - Curve Estimation), on essaie différents modèles parmi ceux proposés et on dessine les courbes correspondantes. Les modèles qui expliquent le mieux les données sont le modèles Power et Exponential, avec un petit avantage pour le modèle Power. On donne ici le tableau généré par la régression de type Power, ainsi que la courbe correspondante : Cependant, si on considère que le dernier point à droite sur le graphe est une erreur de donnée (par exemple, due au fait que mesurer des tremblements de terre de faible intensité pourrait être difficile pour la technologie disponible), alors c’est l’approximation exponentielle qui est clairement meilleure. 2) Pour expliquer les données par une droite, on pourrait par exemple changer la graduation de l’axe des x, et la faire passer d’une graduation linéaire à une graduation logarithmique. On peut ensuite dessiner la droite de régression correspondante, et on obtient le graphe suivant :
© Copyright 2024 ExpyDoc