Wie man mit Statistik schlecht informiert: Praktiken der

Wie man mit Statistik schlecht informiert:
Praktiken der Ergebnisdarstellung bei Experimenten
im Software Engineering
Marcus Michalsky
[email protected]
Institut für Informatik
28. Januar 2010
Inhalt
Überblick
Methodik
Ergebnisse
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
2
Kontrolliertes Experiment
A
B
x
Behandlung
y
Variablen messen
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
3
Ziel der Arbeit
Praktiken der Ergebnisdarstellung von kontrollierten Experimenten
unter drei Gesichtspunkten
Verwendung beschreibender Statistiken
Angabe der Ergebnisse statistischer Auswertungsverfahren
Präsenz, Verfügbarkeit und Zustand von Rohdaten
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
4
Erfassung von Artikeln mit Experimenten
Artikel der Zeitschriften:
”Empirical Software Engineering” (EMSE)
”IEEE Transactions on Software Engineering” (TSE)
Artikel der Konferenz:
”International Conference on Software Engineering” (ICSE)
Suchverfahren: Titel, ”keywords” → ”abstract” → Artikel
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
5
Speicherung der erfassten Merkmale
(b) abh. Variablen
(a) Experiment
id
...
id
var
...
EMSE09-123
ICSE08-456
TSE07-789
...
...
...
...
...
EMSE09-123
EMSE09-123
...
worktime
defectsN
...
...
...
...
Tabelle → CSV → Statistiksoftware R
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
6
Ergebnisse: Menge von Experimenten
12
# experiments
ICSE
TSE
0
2
4
6
8
10
EMSE
2006
2007
2008
2009
year
Abbildung: # Experimente je Zeitschrift/Konferenz pro Jahr
36 / 490 (7%) untersuchten Artikeln enthalten 53 Experimente
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
7
Ergebnisse: beschreibende Statistiken
%
Mittelwert
Standardabweichung
Tabellen
Boxplots
71%
56%
71%
48%
Tabelle: Angabe von beschreibenden Statistiken
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
8
beschreibende Statistiken - Beispiel
Table 5 Descriptive statistics
Task/method
Exp I
All
T1
T2
Exp II
All
T1
T2
MT
AT
MT
AT
MT
AT
MT
AT
MT
AT
MT
AT
Time (min)
Median
Mean
Std. Dev.
F-Measure (%)
Median
Mean
Std. Dev.
Recal
Media
120.00
75.00
115.00
72.50
122.50
87.50
142.00
87.50
140.00
92.50
142.00
78.50
27.22
23.78
22.54
22.24
29.06
25.85
14.58
13.40
19.01
12.36
7.71
11.33
53.41
65.47
49.47
52.66
59.91
71.93
75.46
75.35
79.44
65.13
66.76
78.07
16.06
17.16
17.79
14.62
13.01
16.58
14.50
13.46
14.42
9.76
15.60
7.91
58.44
60.84
74.19
51.62
50.00
62.66
64.19
65.06
80.96
75.35
62.80
77.46
125.20
83.75
115.50
80.00
135.00
87.50
138.90
85.25
134.50
92.17
143.30
78.33
52.38
61.36
47.22
53.61
57.52
69.10
71.59
75.39
73.75
64.98
69.43
79.25
Task: T1 (tracing use cases onto code classes) or T2 (tracing interaction diagrams onto test cases)
Method: MT (manual tracing) or AT (ADAMS Re-Trace)
Abbildung: Beschreibende Statistiken aus EMSE09-57
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
9
beschreibende Statistiken - Beispiel
Experiment 1
Experiment 2
M
M
!
MT
!
!
! !
!
!
!
!
!
MT
!
!
!
!!
!
!
!!
!
!
! ! ! ! !!
!
!
N=20
M
M
!
AT
!
!
!
!
!
AT
!
!
!
!
!
!
!
!
!
!
! !
!
!
!
!
!
!
!
!
!
!
N=20
80
!
!
N=12
100
120
140
160
180
N=12
80
100
TIME
120
140
160
TIME
Abbildung: Boxplots für EMSE09-57
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
10
beschreibende Statistiken - Beispiel
0.015
0.000
0.005
0.010
Density
0.020
0.025
0.030
Experiment 1, AT group, TIME
60
80
100
120
N = 20 Bandwidth = 7.301
Abbildung: Dichteplot für EMSE09-57
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
11
Kontrolliertes Experiment (Wdh.)
A
B
x
Behandlung
y
Variablen messen
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
12
Reported p-Values
Ergebnisse: statistische Methoden (1)
nicht angegeben 293 ( 42% )
angegeben 402 ( 58% )
Abbildung: Anteil an berichteten p-Werten
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
13
Reported Confidence Intervals
Ergebnisse: statistische Methoden (2)
nicht angegeben 30 ( 83% )
angegeben 6 ( 17% )
Abbildung: Anteil an berichteten Konfidenzintervallen (je Artikel)
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
14
Ergebnisse: statistische Methoden (3)
Experimente berichten p-Werte von 7.1 · 10−05 und 0.001
→ Zeitlicher Unterschied vorhanden, aber wie groß ?
berechnete Konfidenzintervalle ergeben
CIExp1 = (−61, −34)
CIExp2 = (−65, −42)
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
15
Verfuegbarkeit von Rohdaten
Ergebnisse: Rohdaten (1)
vorhanden 8 ( 22% )
nicht vorhanden 28 ( 78% )
Abbildung: Verfügbarkeit von Rohdaten
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
16
Ergebnis der Rohdatenanfrage
Ergebnisse: Rohdaten (2)
Antwort 17 ( 61% )
nicht erreichbar 1 ( 4% )
keine Antwort 10 ( 36% )
Abbildung: Ergebnis der Rohdatenanfrage
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
17
Erhalt von Daten
Ergebnisse: Rohdaten (3)
Daten 7 ( 41% )
keine Daten 10 ( 59% )
Abbildung: Anteil positiver/negativer Antworten
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
18
Rohdaten - Beispiel
Experiment 2
M
!
UML
!
!!
!
!!
!
!! ! !
!
!!
!
! ! ! !
!
!!!
!
!
!
N=28
CIout = (-0.02, 0.16)
CI
M
= (0.01, 0.15)
!
Conallen
!
!
!
!!!
!
!
!
!!! !!
!! !!
!!!
! !!
!
!
N=27
0.4
0.6
0.8
Precision
Abbildung: Boxplot für ICSE07-375
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
,
19
Zusammenfassung
Artikel mit kontrollierten Experimenten erfasst
auf drei Aspekte der Ergebnisdarstellung hin untersucht
Ergebnisse
beschreibende Statistiken
Auswertunsverfahren
Rohdaten
Anschauungsbeispiele
,
Praktiken der Ergebnisdarstellung bei Experimenten im Software Engineering - Marcus Michalsky
20