SPSS – Allgemein

SPSS – Allgemein
• Superior Performing Statistical Software
– Alter Name: Statistical Package for the Social Sciences
• 1965 von Norman Nie und Dale Bent an der
Stanford University entwickelt
–
–
–
–
1968 Teamerweiterung mit Hadlai Hull
In FORTRAN programmiert
Erstes zusammenhängendes Statistikpaket
1981 für IBM-kompatible PC weiterentwickelt
(SPSS/PC+)
– 1992 für Windows portiert
• Aktuelle Version: 15.0
• Modularer Aufbau
Methoden II – Stefan Jahr
18
SPSS-Module
Modul
Beschreibung
Base
Basissystem enthält Datenmanagementfunktionen, deskrip. Statistiken,
Mittelwertvergleiche, lineare Regression, Faktorenanalyse etc.
Regression Models
Verschiedene Regressionsmodelle (multinominal, logistisch, nicht
lineare Modelle)
Advanced Models
Allgemeine lineare Modelle (GLM), multivariate Varianzanalysen, Loglineare Modelle, Cox-Regression, Survivalanalysen
Tables
Erzeugung „druckreifer“ Häufigkeitstabellen
Classification Trees (ab SPSS 13)
Klassifikations- und Entscheidungsbäume erstellen
Categories
Korrespondenzanalysen, optimale Skalierung, Klassif. nominaler Daten
Complex Samples (ab SPSS 12)
Komplexe Stichprobendesigns
Trends
Zeitreihenanalysen und Prognosen
Missing Value Analysis
Analyse fehlender Werte
Maps
Darstellung von Daten in geographischen Karten
Conjoint
Conjoint-Analyse
Exact Test
Exakte Signifikanztests für kleine Stichproben
Amos
Lineare Strukturgleichungsmodelle
Methoden II – Stefan Jahr
19
SPSS-Vorteile
• Umfangreiche Datenmengen bearbeitbar
(32768 Variablen und 2,15 Billionen Fälle bis SPSS9.x; ab SPSS10 2,15 Billionen
Variablen und Fälle; Excel kann nur 65.536 Datenzeilen und XX Variablen bearbeiten)
• Moderate Hardwareanforderungen
(z.B. geringerer Speicherverbrauch im vgl. zu TDA)
• Gute Symbiose aus menü- und syntaxgeführter
Bedienung
• Relativ leicht zu erlernen
• Im Vergleich recht gute Darstellung der Ergebnisse
• Gute Export- und Importfunktionen
(ODBC-Quellen [Open Database Connectivity])
• Gute Interaktion mit Office-Programmen
• Hoher Verbreitungsgrad
(Quasi-Standard)
Methoden II – Stefan Jahr
20
SPSS - Nachteile
• Recht teuer
12.131 € Neuanschaffung
2690 € Lizenzverlängerung pro Jahr
– Studentenversion (1500 Fälle und 50 Variablen): bei http://www.statcon.de
für 75.00 €
– 30 Tage voll funktionsfähige Demoversion nach Anmeldung: www.spss.com
– Statistica: 998,00 € / Stata: 1215,00 € / TDA: kostenlos
•
•
•
•
Recht rigide Datenorganisation
Schlechter Debugger der Syntax
Noch teilweise fehlerhafte Prozeduren enthalten
Einige (mittlerweile) wichtige Analyseverfahren
nicht oder nur halbherzig integriert
(Korrespondenzanalyse – SIMCA, Verlaufdatenanalyse – TDA/STATA)
Methoden II – Stefan Jahr
21
Gefahren von Statistikpaketen
• Programmstruktur beeinflusst Forschungslogik
– Forschungsfragen werden auf die Möglichkeiten des Programms
zugeschnitten
• Unvollständigkeit der Pakete
– Man rechnet nicht mit dem optimalen, sondern mit dem vorhanden
Verfahren
• Leichtigkeit der Anwendung
– Verfahren werden oft explorativ genutzt, ohne genaue Überlegungen
ihrer Verwendbarkeit anzustellen
Kein Test, der auf Wahrscheinlichkeitstheorie beruht, kann von sich aus nützliche Belege für die
Richtigkeit oder Unrichtigkeit einer Hypothese liefern.
Neyman/Pearson 1933
Methoden II – Stefan Jahr
22
SPSS-Bestandteile
• Dateneditor
–
–
–
–
Hauptmodul von SPSS
Seit Version 10 mehrere Instanzen möglich
Spezielle Menüpunkte „Daten“ und „Transformieren“
Seit Version 7.XX und 13 neues Format der Datenspeicherung (nicht mit
älteren Versionen kompatibel)
• Syntaxeditor
– Normaler Texteditor mit angepassten Menüs
– Spezieller Menüpunkt „Ausführen“
• Ausgabeviewer
– Über Menüpunkt „Optionen“ Wahl zw. neuem Viewer oder (altem)
Draft-Viewer
• Diagrammeditor
– Nachbearbeitung der Diagramme
• Pivot-Tabellen-Editor
– Nachbearbeitung von Tabellen
Methoden II – Stefan Jahr
23
Dateneditor
Methoden II – Stefan Jahr
24
Variablennamen
Normen:
• Darf maximal 8 Zeichen lang sein und keine Leerzeichen enthalten
(ab SPSS 12: 64 Zeichen)
• Muss mit einem Buchstaben oder Zeichen: @ # $ beginnen, aber:
• # indiziert eine Arbeitsvariable (wird nicht im Editor angezeigt)
• $ indiziert eine Systemvariable (sind von SPSS vorgegeben)
• Alle Zeichen des Alphabets zulässig (keine Unterscheidung zwischen
Groß- und Kleinschreibung)
• An zweiter Stelle alle Ziffern von 0 – 9 zulässig
• Dürfen nicht mit Punkt oder Unterstrich enden
• Bestimmte Schlüsselwörter ausgeschlossen (z.B. and, or, eq, lt, with)
• Umlaute und ß machen in älteren SPSS-Versionen Probleme
Methoden II – Stefan Jahr
25
Variablentypen
Numerisch: Ziffern mit oder ohne Nachkommastelle; Dezimaltrenn- und
Tausenderzeichen richtet sich nach Windowseinstellung
Komma: wie numerisch, jedoch mit einem Komma als Tausendertrennund Punkt als Dezimaltrennzeichen
Punkt: wie numerisch, jedoch mit einem Punkt als Tausendertrennund Komma als Dezimaltrennzeichen
Wissenschaftliche Notation: Potenzschreibweise für sehr große und
kleine Zahlen (z.B.: 1,23E+02 = 123)
Datum: Datums- oder Zeitangaben; Datumsangaben werden intern in
Sekunden seit dem 15. Oktober 1582 umgerechnet (Einführung
des Gregorianischen Kalenders); Zeiteingaben in Sekunden seit
00:00 Uhr
Dollar: Zahlen bekommen automatisch den Präfix $
Spezielle Währung: über „Optionen“ lassen sich bis zu 5 verschiedene
spezielle Währungen definieren (Präfix und Suffix frei wählbar)
String: Texteingaben mit max. 255 Zeichen (ab SPSS 13: 31.767
Zeichen); Ziffern werden als Text interpretiert; max. 8 Zeichen,
in statistischen
Prozeduren genutzt werden zu können
Methoden II – um
Stefan
Jahr
26
Labels
Enthält nähere Beschreibung der Variablen
Normen:
• Können maximal 255 Zeichen umfassen
• Alle Zeichen zulässig
• Labels mit Sonderzeichen wie Punkt, Backslash, Semikolon müssen
bei Vergabe über die Syntax in Hochkommas geschrieben werden
• Bleiben nur in der SPSS-Datendatei erhalten (Dateiendung .sav)
• Haben keinerlei statistischen Wert
Methoden II – Stefan Jahr
27
Values
Enthält nähere Beschreibung der Variablenausprägungen
Normen:
• Können maximal 60 Zeichen umfassen (ab SPSS 14: 120 Zeichen)
• Alle Zeichen zulässig
• Labels mit Sonderzeichen wie Punkt, Backslash, Semikolon müssen
bei Vergabe über die Syntax in Hochkommas geschrieben werden
• Bleiben nur in der SPSS-Datendatei erhalten (Dateiendung .sav)
• Haben keinerlei statistischen Wert
Methoden II – Stefan Jahr
28
Missing values
Indizieren SPSS welche Werte bei Analysen ausgelassen
werden sollen
Zwei Möglichkeiten der Wertebereichsangabe:
1. Drei einzelne (diskrete) Werte
2. Einen zusammenhängenden Wertebereich plus einen
Wert außerhalb dieses Wertebereichs
Methoden II – Stefan Jahr
29
Syntaxeditor
Syntaxgrammatik:
• Jeder Befehl muss in einer neuen Zeile beginnen und mit einem Punkt enden, kann sich
aber über beliebig viele Zeilen erstrecken
• Unteranweisungen mit Schrägstrich voneinander trennen; können in einer Zeile stehen
• Jede Befehlszeile darf höchstens 255 Zeichen lang sein
• Dezimaltrennzeichen in Spezifikationen ist der Punkt
• Keine Unterscheidung zwischen Groß- und Kleinschreibung
Syntax-Bausteine:
•
Befehl:
(npar tests)
•
Unteranweisung: Zusatz zu einem Befehl
(m-w; missing; stat)
•
Spezifikationen: Angaben, die einer Anweisung oder
Unteranweisung hinzugefügt werden können
(gebjahr by sex (1 2))
•
Schlüsselwörter: in SPSS vordefiniert und mit dem
Befehl verbunden (analysis; desc)
Methoden II – Stefan Jahr
30