Frage

Frage:
Sind Konkordanz und Diskordanz und unsere damit verbundenen Maßzahlen,
wenn man metrische Merkmale verwendet, nur für lineare Zusammenhänge definiert?
Antwort:
Diskordanz und Konkordanz sind definiert um einen Zusammenhang zweier ordinaler Merkmale zu untersuchen. Bei ordinalen Merkmalen machen lediglich
die Aussagen positiv“ und negativ“ Sinn, nicht jedoch linear“. Verwendet
”
”
”
werden können die Zusammenhangsmaße, die auf Konkordanz und Diskordanz
beruhen, jedoch auch für metrische Merkmale, wenn diese in entsprechende Kategorien eingeteilt werden.
Um einen linearen Zusammenhang metrischer Daten zu untersuchen wird man
in der Regel auf andere Zusammenhangsmaße zurückgreifen, z.B. den Korrelationskoeffizienten nach Bravais-Pearson.
Frage:
Bei einer Kontingenztafel bezeichnet n1+ die Zeilensumme der ersten Spalte.
Warum sagt man nicht Spaltensumme dazu, da doch die Werte alle Spalten
(der ersten Zeile) aufsummiert werden?
Antwort:
Man sagt Spaltensumme!
n1+ bezeichnet die Randsumme der ersten Zeile, d.h. alle Elemente der ersten
Zeile werden aufsummiert.
n+1 bezeichnet die Randsumme der ersten Spalte, d.h. alle Elemente der ersten
Spalte werden aufsummiert.
vgl. Formelsammlung S. 4.
Frage:
Was ist denn die genaue Bedeutung der Indikatorfunktion auf Seite 2 im 2.
Kapitel des Skriptes?
Antwort:
Die Indikatorfunktion dient zur Auswahl einer bestimmten Teilmenge aus einer Grundgesamtheit, z.B. hat man eine Stichprobe von Personen und ist an
der Größe der Männer dieser Stichprobe interessiert, so kann die Auswahl der
Männer mathematisch über die Indikatorfunktion stattfinden.
(
1 falls Mann
IM ann (xi ) =
0 sonst
Hierbei wird die Indikatorfunktion für jede Beobachtung, die zu einer Frau
gehört, auf Null gesetzt und nur die Männer aus der Stichprobe betrachtet.
1
Über die angegebene Funktion
nM ann =
n
X
IM ann (xi )
i=1
würde man in diesem Beispiel somit die Anzahl der Männer in der Stichprobe
erhalten.
Frage:
Könnte man, wenn man metrische Daten in gleich große Klassen skaliert, diese
durch ein Kreisdiagramm darstellen?
Antwort:
Ja da Kreisdiagramme für Nominal-, ordinal- und metrisch skalierte Daten verwendbar sind.
Durch Klassierung von metrischen Daten würden ordinale Daten vorliegen, dann
würden die Sektoren der Klasse entsprechen.
Jedoch muss hier darauf geachtet werden dass eine Rangfolge der einzelnen Klassen gebildet werden kann, aus diesem Grund wären eventuell andere graphische
Darstellungen wie Balkendiagramme besser geeignet.
Frage:
Und wäre ein Histogramm, bei dem alle Klassen gleich breit sind und die x-Achse
dann nicht durch eine Skala dargestellt wird, dasselbe wie ein Säulendiagramm
für metrische Daten?
Antwort:
Beim Histogramm sind in dem Fall alle Balken gleich breit, jedoch entsprechen
diese immer noch der Klassenbreite.
Bei einem Säulendiagramm spielt die Breite der Balken keine Rolle, es wird
immer nur die Höhe der Balken interpretiert.
Würde man nun Klassen der Breite 1 wählen, wären sowohl im Histogramm
als auch im Balkendiagramm die Höhen jeweils gleich der jeweiligen relativen
Häufigkeiten der Klassen.
Frage:
Wenn ordinalskalierte Merkmale vorliegen und ich den Zusammenhang bestimmen möchte, wann verwende ich dann den Rangkorrelationskoeffizienten und
wann auf Konkordanz und Diskordanz aufbauende Zusammenhangmaße?
Antwort:
Prinzipiell können beide Verfahren bei zwei ordinalen Merkmalen verwendet
werden.
2
Frage:
Die empirische Verteilungsfunktion kann die Form einer stückweise linearen
(Übungsbuch S.9) oder die Form einer Treppenfunktion (S.19) annehmen. Kommt
die stückweise lineare bei klassierten stetigen Merkmalen und die Treppenfunktion bei diskreten Merkmalen zum Einsatz? Mir erschließt dich der Unterschied
nicht ganz, auch nicht wie es sein kann, dass bei der Treppenfunktion einem x
Wert mehrere Y-Werte zugeordnet werden.
Antwort:
Ist ein Merkmal ordinal oder diskret so ergibt sich für die empirische Verteilungsfunktion eine Treppenfunktion. Beispielsweise die Verteilung von Noten
bei der Statistik 1 Klausur.
Bei stetigen Merkmalen z.B. die geschossenen Tore in einer Saison, welche klassiert werden und anschließend in Intervallen: 1 sehr wenig Tore “([30, 40)), 2
”
wenig Tore “([40, 50)), 3 moderate Tore “([50, 60)), 4 viele Tore “([60, 70)),
”
”
”
5 sehr viele Tore “[70, 80), vorliegen, ist die empirische Verteilungsfunktion ein
”
Polygonzug. Innerhalb des Intervalls wird angenommen, dass Gleichverteilung
herscht, z.B. ist die Wahrscheinlickeit, für 30 Tore gleich der Wahrscheinlichkeit
dass 31, 32, 33, . . . , 39 Tore geschossen werden. Dies gilt für jedes Intervall. Daraus ergibt sich für die empirische Verteilungsfunktion innerhalb des Intervalls
eine Gerade. Verbindet man nun die Intervallgrenzen ergibt sich ein Polygonzug.
Liegen keine klassierten Daten vor sondern die Originaldaten entstehen Treppenfunktionen. Streng genommen sollte eine solche Verteilungsfunktion (im Sinne
einer Funktion) jedoch nicht als durchgehende Linie (inklusive senkrechter Linien) gezeichnet werden. An der Sprungstelle nimmt die Funktion immer (und
ausschließlich) bereits den nächsthöheren Wert an. Man würde also in den Teilabschnitten den linken Wert einer Gerade mit ausgefülltem Punkt, den rechten
Wert mit einem nicht-ausgefüllten Punkt markieren.
Frage:
Hast du mir ein paar Beispiele für eine Absolutskala? Was bedeutet denn natürliche Einheit? Wäre zum Beispiel die Temperaturskala nach Kelvin eine Absolutskala?
Antwort:
Eine Absolutskala liegt eigentlich immer vor, wenn man eine Anzahl betrachtet,
die natürliche Einheit ist dann Stück“. Wenn man zählt, hat man keine Wahl
”
eine andere Einheit als Stück“ zu verwenden, daher ist dies eine natürliche
”
Einheit.
Beispiele:
1. Anzahl der Kinder in einem Haushalt
2. Anzahl der Schadensfälle eines Versicherungsnehmers innerhalb eines Jahres
3
Temperaturskala:
Nein, in der Formulierung Temperaturskala nach Kelvin“ ist ja bereits impli”
ziert, dass Kelvin keine natürliche Einheit ist sondern man Temperaturen auch
in anderen Einheiten messen könnte.
Frage:
Eine Aufgabe der Musterklausur lautet ”Berechnen Sie die KQ-Schätzungen
â und b̂ des linearen Modells y = a + bx + und spter soll man dann die
Regressionsgerade aufstellen. Ist damit die geschätzte Gerade gemeint, also ŷ =
â + b̂x, ohne bzw. Addieren von Residuen am Ende (deren Summe ja eh null
ergibt)?
Antwort:
Ja es ist die geschätzte Regressionsgerade gemeint. Die kann man entweder über
ŷ = â + b̂x oder über y = â + b̂x + ê darstellen.
Frage:
Das steht zwar so nicht im Skript, aber aus der Formelsammlung geht hervor,
das SQRegression auch als b̂2 −Sxx berechnet werden kann. Kann ich dann in der
Klausur das Bestimmtheitsmaß R2 anstatt über den Korrelationskoeffizienten
b̂ − Sxx
berechnen?
r, auch über
Syy
Antwort:
Syy = SQT otal
R2 =
SQRegression
SQResidual
Syy − b̂2 Sxx
Syy b̂2 Sxx
= 1−
= 1−
= 1−
−
=
SQT otal
Syy
Syy
Syy
Syy
1−1−
b̂2 Sxx
b̂2 Sxx
=−
Syy
Syy
Es ist möglich durch Umformung auf mehreren Wegen das Bestimmtheitsmaß
zu berechnen, bei deiner Umformung muss allerdings etwas schief gegangen sein.
Das Bestimmtheitsmaß kann nur Werte zwischen 0 und 1 annehmen, in deinem
Fall wäre bei einem negativen Koeffizienten auch das Bestimmtheitsmaß negativ
gewesen.
Frage:
Bekomme ich bei kategorialer Regression überhaupt eine richtige Regressionsgerade, oder eher nur einzelne Punkte? und unterscheidet sich für dasselbe Merkmal die Funktion mithilfe Dummykodierung von der mithilfe Effektkodierung?
4
Antwort:
Die Regressionsgerade der kategorialen Regression mit nur kategorialen Merkmalen, stellt den Unterschied der mittleren Niveaus der Kategorien zur Referenzkategorie dar. Diese ist nicht in der Form interpretierbar wie die Regressionsgerade für metrische Merkmale bei welcher theoretisch jede Stelle auf der
Geraden existiert.
Ja die Geraden bezüglich der Dummykodierung und der Effektkodierung unterscheiden sich. Die Dummykodierung modelliert den mittleren Unterschied
zur Referenzkategorie, die Effektkodierung den Unterschied zum Gesamtmittel.
Daher ergeben sich sowohl andere Werte für â als auch für b̂.
5