structurele vergelijkingsmodellen deel 1

Onderzoeksmethoden II: structurele
vergelijkingsmodellen deel 1
1. Overzicht

Padanalyse, CFA & SEM
o Padanalyse
 Onderscheid tussen exogene en endogene variabelen.
 Indirecte effecten (mediatie)!

o
o

Geobserveerde of manifeste variabelen.
 Univariaat regressiemodel.
 Exogene variabelen: x1 – x4 komt geen enkele pijl toe
 Endogene variabelen
 Dubbel statuut: x5-x6 = mediatoren = mediëren.
 X7: uitkomstvariabele of hoofdvariabele.
 X1 → x7 met een omweg.
 Voorstelling van de realiteit: hypothese van de onderzoeker.
 Wanneer padanalyse is uitgezet, dan alle data verzamelen (x1 –x7).
 Model toetsen aan de data
 Model past.
 Model past niet: aanpassingen doen en nieuw model maken. Nieuwe mediërende variabelen.
 Confirmatorische analyse: padanalyse.
 Pijlen die er niet staan zijn ook belangrijk!
 Exploratieve analyses: model proberen bloot te leggen.
 Eerst model (theorie).
 Daarna variabelen;
 Welke modellen passen, welke niet?
 Competitie tussen modellen om eerst theorie te vinden.
 Fraude in de wetenschappen:
 Data verzamelen.
 Model aanpassen aan de data.
Confirmatorische factoranalyse (CFA)
 Aantal factoren + samenhang met indicatoren ligt vast.
 Confirmatorisch: past dit model met de data: ja of nee?

= latente variabelen proberen te meten.
Structurele vergelijkingsmodellen (SEM)
 Samenvloeiing van padanalyse en confirmatorische
factoranalyse.
Software voor SEM
o
o
o
The big four1:
 LISREL (1972)
 EQS (1985)
 AMOS (1994)
 Mplus: meest geavanceerde pakket. (1998)
Als onderdeel van statistische pakketten:
 Proc calis / tcalis (1990)
 Sepath (1995)
 Ramona (1988-1990)
Niet – commercieel
 Mx (1991)
 Gllamm (2002)
 R packages (gratis pakket):
 Sem (2001)
 Open Mx (2009)
 Lavaan (2010)
2. Padanalyse
2.1.Inleiding



Padanalyse: analyse van structurele modellen waarbij alle variabelen geobserveerd (manifest) zijn.
Een structureel model representeert de causale hypothese omtrent de patronen van direct of indirecte effecten
tussen deze variabelen.
Elk theoretisch construct in het model (bvb. stress, depressie, welbevinden…) wordt gemeten door 1
geobserveerde variabele, en correspondeert dus met 1 variabele in de dataset.
2.2.Voorbeeld

1
Roth, D.L., Wiebe, D.J., Fillingim, R.B., & Shay, K.A. (1989). Life events, fitness, hardiness, and health: A
simultaneous analysis of proposed stress-resistance effects. Journal of Personality and Social Psychology, 57,
136–142.
o Metingen voor exercise, hardiness, fitness, stress, illness in een steekproef van 373 university studenten.
 Illness: mate van fysieke ziektesymptomen (laatste maand).
 Stress: mate van stressvolle ‘life events’ (laatste maand).
 Fitness: ‘self-perceived physical fitness’.
 Exercise: ‘current exercise activity’ (participatie in fysieke oefeningen).
 Hardiness: ‘dispositional traits such as resiliency and willingness to look for opportunities in difficult
situations’
o Onderzoeksvraag: direct of indirect effect van
exercise/hardiness op illness?
o Interpretatie figuur
 Exercise: oefening, sport…
 Exogene variabele.
 Hardness: hoe sterk ben je mentaal gezien?
 Exogene variabele.
 Stress: stress.
 Mediator.
 Fitness: fitheid.
 Mediator.
Namen kennen en associëren met structurele vergelijkingsmodellen;
o
 Illness: hoe ziek voelt u zich.
 Uitkomstvariabele.
 Voorbeeld komt uit de persoonlijkheidspsychologie.
 Hardness direct effect op illness of is het zo dat dit eigenlijk via stress verloopt?
 Hardness ↑ → stress ↓→ illness↓.
Enige eventuele latente variabelen zouden alle andere invloeden kunnen zijn op stress:
 Foutterm voor elke afhankelijke variabele:

2.3.Elementen van een padanalyse model




Geobserveerde exogene variabelen:
o De oorzaken van exogene variabelen worden niet verklaard binnen het model: bij een
exogene variabele komt er nooit een enkele pijl toe.
o Exogene variabelen mogen covarieren (correleren), doch er wordt geen antwoord gegeven
op de vraag waarom deze variabelen correleren (bvb. gemeenschappelijke oorzaak, de ene
veroorzaakt de andere, . . . ).
Geobserveerde endogene variabelen:
o De (veronderstelde) oorzaken van endogene variabelen maken expliciet deel uit van
het model.
o Padanalyse poogt een verklaring te bieden waarom endogene variabelen (al of niet)
correleren met elkaar.
o Bij elke endogene variabele komt er minstens een enkele pijl toe.
Niet – geobserveerde (latente) exogene variabelen (distrubance term):
o Elke endogene variabele heeft een disturbance term: deze disturbance term
representeert alle weggelaten of niet-gekende oorzaken.
o De (geschatte) variantie van deze disturbance term Var(ζ1) is een maat voor de
proportie niet-verklaarde variantie van de endogene variabele y1:
met R² de proportie verklaarde variantie van y1 (=de determinatiecoëfficiënten op
basis van de regressie van y1 op alle variabelen die een direct effect hebben op y1).
 R² hoog: veel verklaard – goed model.
 1-R²: niet verklaarde variantie = variantie disturbance = getal.
(Veronderstelde) directe causale effecten: enkele pijl
o De schatting van een direct effect is een pad coëfficiënt.
o Analoog met regressiecoëfficiënten.
o Het effect is lineair.
 Allemaal lineair = nadeel.
o Hoe sterk zijn de padcoëfficiënten?!
o Door de opeenvolging van directe effecten kunnen in een padanalyse op een natuurlijke wijze indirecte
effecten worden gemodelleerd (mediatie)
 E representeer het direct effect van x1 op y3.
 Het indirect effect van x1 op y3:
.
 Totaal effect van x1 op y3: direct + indirect :
 E + buitenste direct effect + binnenste direct effect
 In niet – recursieve modellen is het mogelijk dat er direct en/of indirecte
feedback lussen ontstaan:
 Voorbeeld directe feedback:
 Voorbeeld indirecte feedback:


Varianties van de exogene variabelen (zowel geobserveerde variabelen, als de latente disturbances)
o worden doorgaans niet expliciet aangeduid op het paddiagram.
o
Covarianties tussen de exogene variabelen (dubbele pijl)
o (a) tussen twee geobserveerde variabelen:
o
o
o
(b) tussen twee disturbance termen (enkel in niet-recursieve, ‘bow-free’ of ‘bow-pattern’ modellen, zie
verder).
(c)tussen een geobserveerde exogene variabele en een disturbance term (zowat nooit gebruikt).
Elke variabele heeft een variantie
 Covariantie: exercises vs hardness (a)
 Standaardvariantie (5)
 Variantie van distrubance
2.4.Stappen om een padanalyse uit te voeren









Er zijn 6 basis – stappen en 2 optionele stappen:
De specificatie van het model:
o De door de onderzoeker vooropgestelde set van hypotheses (geen effect, direct effect, indirect effect, . . . )
in verband met een set van variabelen worden vertaald in een paddiagram.
o Dit model bepaalt de parameters die moeten worden geschat op basis van de beschikbare data.
o Wellicht de meest belangrijke stap.
Identificatie
o Is het (statistisch) mogelijk om unieke schattingen te bekomen voor elke parameter in het model? Zo niet,
dienen we het model te herspecifieren (zie verder).
o 5 variabelen = 5 kolommen met variabelen.
Verzamel de data, en prepareer de data voor analyse:
o Gebruik bij voorkeur de volledige dataset, of de variantie - covariantie matrix van de variabelen.
 De volledige dataset gaat altijd voor op de correlatie – matrix.
 Alleen als het pakket het niet toe laat alle gegeven toe te voegen dn kan de correlatie – matrix gebruikt
worden.
o Indien echt geen andere keus, gebruik dan de correlatie - matrix.
o Indien naast de correlatie - matrix ook de standaardafwijkingen werden gerapporteerd: transformeer naar
variantie - covariantie matrix.
Schat het model (met behulp van een adequaat softwareprogramma).
o Evalueer de fit van het model; indien niet oké, ga naar stap 5.
o Interpreteer de parameter schattingen: zijn ze zinvol en in de lijn van de verwachtingen?
o Bedenk of er geen alternatieve modellen mogelijk zijn die evengoed de data zouden fitten.
o Ga naar stap 6.
Herspecifieer het model (op basis van theoretisch gefundeerde overwegingen en ga terug naar stap 4).
Rapporteer de resultaten op een adequate manier (model die goed fit).
o Rapportering vaak ondermaats in de psychologische literatuur.
o Zie richtlijnen.
Optioneel: repliceer de resultaten met een nieuwe steekproef.
Optioneel: gebruik het model om bijvoorbeeld uitkomstvariabelen te voorspellen.
2.5.Padanalyse en correlaties




De input voor een pad - analyse is vaak een variantie - covariantie matrix van de variabelen die het model
worden betrokken.
Het doel van padanalyse is om te ‘verklaren’ waarom twee variabelen X en Y (en zo ook voor alle andere
geobserveerde variabelen) al of niet covariëren (correleren!).
Voorbeeld: geobserveerde correlatie matrix Roth et.al (1989).
o Paddiagram één van de vele mogelijkheden om te verklaren hoe variabelen samenhangen.
Waarom observeren we correlaties tussen twee variabelen?
o Er zijn verschillende redenen waarom X en y mogelijks correleren:
 Er is sprake van een (veronderstelde) causale relatie:
 Unidirectionele effecten.
 Feedback loops.
 Er is sprake van een (veronderstelde) niet – causale relatie:
 Niet – geanalyseerde correlaties.
 Spurieuze correlaties.
 X en y: correleren: hoe kan dit? = 0,50
 Invloed van de ene waarde op e andere
 Correleren niet
 Kan ons niet schelen, is gewoon zo.
 Valse correlatie: deze correlatie bloot leggen via padanalyse.
 Noot: soms is er geen (bivariate) geobserveerde correlatie tussen X en Y omwille van suppressie: een of
meerdere variabelen mediëren de relatie tussen X en Y en onderdrukken het verband.
 Geen correlatie terwijl er wel een correlatie is = suppressie: correlatie wordt onderdrukt door het
mechanisme.
o Unidirectionele effecten:
 Er een direct (causaal) effect van X naar Y (of omgekeerd).
 Er is een indirect (causaal) effect van X naar Y via een of meerdere mediërende variabelen (of
omgekeerd).
o Feedback loops
 Er is directe feedback tussen X en Y.
 Er is indirecte feedback tussen X en Y via e´en of meerdere mediërende variabelen
o Niet – geanalyseerde correlaties:
 Het is niet gekend waarom twee variabelen covariëren.
 Drie mogelijkheden:
 Correlatie tussen de twee exogene geobserveerde variabelen.
 Correlatie tussen twee (exogene latente) disturbance termen.
 Dit noemt men een disturbance correlatie (of covariantie).
 Dit reflecteert de assumptie dat er een gemeenschappelijke (doch onbekende)
gemeenschappelijke oorzaak is die verklaart waarom de disturbance termen correleren.
Problematisch (want wijst doorgaans op een deficit in de theorie).
 correlatie tussen een exogene geobserveerde variabele en een disturbance term
o
 niet gebruikelijk wegens inhoudelijk moeilijk te interpreteren: dit zou impliceren dat er een
onbekende gemeenschappelijke oorzaak zou zijn voor deze correlatie.
Spurieuze correlaties
 Spurieuze correlaties worden in een padanalyse model gerepresenteerd door een gemeenschappelijke
oorzaak te veronderstellen.
 Doorgaans is er slechts 1 gemeenschappelijke oorzaak, doch er
kunnen er ook meerdere zijn.
 Voorbeeld waarbij de volledige correlatie tussen Y1 en Y2 als
spurieus wordt beschouwd:
 Bijvoorbeeld:
 Verdwijnen kerkuilen (y1).
 Afnemen kerkgangers (y2).
 Relatie met elkaar? Nee!
 Wel beïnvloed door de tijd (x1).
 Tweede voorbeeld:
 Hoeveelheid calorieën die je eet (y1).
 Lichaamsgewicht bepaald (y2).
 Maar causaal verband (klopt niet).
 X1: lichaamslengte bijvoorbeeld zorgt ervoor dat dit een spurieus verband wordt.
 Wetenschappelijke reflectie op dit soort modellen is zeer
belangrijk!
 Komt elke dag voor!
 Voorbeeld waarbij een deel van de correlatie tussen Y1 en Y2 als
spurieus wordt beschouwd; het direct effect van Y1 op Y2 wordt
uitgezuiverd (gecontroleerd) voor dit gemeenschappelijk effect:
 Genuanceerd verhaal!
 Sterk gezuiverd door variabelen.
 Zonder x was vorig voorbeeld.
 Met x gezuiverd.
 Heel ander verhaal.
2.6.Padanalyse en causaliteit



Padanalyse (en aanverwante methodes) voor de analyse van causale modellen kunnen nooit causaliteit
‘bewijzen’.
Ze kunnen hoogstens ondersteuning bieden voor de causale verbanden die door een onderzoeker vooropgesteld
worden; of falsifiëren.
Wat is er idealiter nodig om vast te stellen dat er een causaal effect is van X op Y?
o De oorzaak (X) gaat het gevolg (Y ) vooraf in de tijd:
 Confirmatie/falsificatie enkel mogelijk met longitudinale studies.
 Longitudinale studies zijn niet zonder problemen (bvb. uitval van subjecten, lange duurtijd, hoge kost).
o De richting van het effect is correct gepreciseerd (X veroorzaakt Y, niet omgekeerd)
 De onderzoeker moet beschikken over sterke theoretische argumenten om te stellen dat X een effect
heeft op Y en niet omgekeerd (indien ze op hetzelfde moment werden gemeten).
o De relatie tussen X en Y verdwijnt niet indien men rekening houdt met andere relevante variabelen; kortom,
de relatie is niet spurieus.
 Padanalyse kan hierbij een belangrijke rol spelen.
 Het is aan de onderzoeker om grondig na te denken over welke variabelen eventueel een rol kunnen
spelen (en dus in het model moeten worden betrokken).
o Vermoedde causaliteit
o
 Ondersteunen
 Weerleggen
 Bewijzen dat gaat nooit.
Data van experimentele dingen kan nooit alle bewijzen geven alleen ondersteunen.
2.7.Specificatieprobleem en meetfout

Net zoals bij lineaire modellen moet men bij padmodellen rekening houden met:
o Het specificatieprobleem:
 Het weglaten van cruciale variabelen in een model kan leiden tot (ernstig) vertekende schattingen van
de parameters in het model, en dus verkeerde conclusies omtrent de vermeende causale relaties.
 Vaak gaat het om onder - estimatie van relaties (eerder dan over - estimatie) van de causale effecten.
o De meetfout:
 In het bijzonder voor de exogene variabelen.
 Elk construct wordt gemeten door (slechts) 1 geobserveerde variabele.
 Het is van belang dat enkel variabelen worden gebruikt met goede psychometrische kenmerken (bvb.
betrouwbaarheid).
 Meetfout kan leiden tot vertekende schattingen van de parameters.
o Opletten met goed passend model want er kan altijd heel ander model zijn die er even goed of beter bij past.
o Specificatieprobleem: belangrijke variabele vergeten.
o Meetfout: ruwe manier van meten.
 Ruis op alle variabelen = nadelig effect op de uitkomsten.
 Voorzichtigheid!
2.8.Vrije parameters, datapunten en vrijheidsgraden

De vrije parameters in een padanalyse model:
o De padcoefficiënten van de directe effecten.
o De varianties van de disturbance termen.
o De covarianties tussen de disturbance termen (zeldzaam).
o Optioneel: de varianties van de geobserveerde exogene variabelen.
o Optioneel: de covarianties tussen de geobserveerde exogene variabelen.2
 Noot: wat betreft de (co)varianties van de exogene variabelen zijn er twee tradities:
 ‘Fixed.x=TRUE’: ze worden niet beschouwd als vrije parameters; we nemen gewoon de
geobserveerde variantie/covariantie waarden over; deze geobserveerde (co)varianties worden
eveneens niet meegerekend als datapunten.
 ‘Fixed.x=FALSE’: ze worden wel beschouwd als vrije parameters
o Hoe meer data → hoe meer datapunten.
 p =5

1
2
3
4
5


2
1
1
…
…
…
…
2
3
4
5
1
…
…
…
1
…
…
1
…
1
Hoe meer pijlen, hoe meer schatten.
 Zuinig model oprichten! Zo weinig mogelijk pijlen!
Veel pijlen
 Gesatureerd model.
Klassieker op het examen!!!



 Past perfect bij de data.
 Genoeg pijlen toevoegen.
 Tellen van de vrije parameters in vergelijking met datapunten.
 DF: vrijheidsgraden = 0 dan gesatureerd model (niet goed of niet slecht).
 Ideaal is DF ≠ 0.
Het aantal datapunten in een padanalyse model
o In een padanalyse berekent men het aantal datapunten op basis van het aantal (niet - redundante)
elementen in de covariantie - matrix van de variabelen.
o Indien er p geobserveerde variabelen in het model worden betrokken zijn er p varianties, en
covarianties, of samen
elementen.
 Het aantal datapunten blijft gelijk indien er meer observaties (subjecten) worden toegevoegd aan de
dataset.
 Het aantal parameters van een model kan niet groter zijn dan het aantal datapunten waarop de analyse
wordt uitgevoerd: het model is niet – geïdentificeerd.
 In de ‘fixed.x=TRUE’ benadering worden de (co)varianties van de exogene variabelen niet meegerekend
als datapunten; indien er q exogene variabelen zijn, zijn er slechts
datapunten.
 In speciale gevallen worden ook de ‘means’ (gemiddelden) van de geobserveerde variabelen in rekening
gebracht (bvb: multiple group analyse).
Vrijheidsgraden
o Jet verschil tussen het aantal datapunten en het aantal vrije parameters in het model noemt men de
vrijheidsgraden [Engels: degrees of freedom (df)].
o Indien het aantal parameters exact gelijk is aan het aantal datapunten, is het model gesatureerd (net
geïdentificeerd), en zal de fit van het model perfect zijn; niettemin blijft de interpretatie van de parameters
zinvol.
o Indien er minder parameters zijn, is het model niet - gesatureerd (of nog: over - geïdentificeerd; in dit geval
is het mogelijk (en noodzakelijk) de globale ‘fit’ van het model te toetsen.
o De kunst van padanalyse is om met zo weinig mogelijk vrije parameters (model is zo zuinig mogelijk) toch
een goede (globale) fit te bekomen.
Voorbeeld: aantal parameter en aantal datapunten
o Manier 1:
 Aantal enkele pijlen: 9 (9 parameters en 9
regressiecoëfficiënten).
 Variaties (5 variaties = evenveel als er parameters zijn).
 Covarianties (tussen elk paar van exogene variabelen)
=1.
 De som 9 + 5 + 1 = 15.
 En 15 – 15 =0 = DF.
o Manier 2
 9 parameters.
 Varianties 3 want geen exogene (3 varianties.
 Covarianties niet want exogene variabelen tellen niet
mee.
 Maar exogene variabelen mogen ook niet mee tellen inhet model!
 Q = 2 = exogene variabelen.



 12 – 12 = 0 = DF
Voorbeeld: aantal parameters en aantal datapunten (fixed.x = FALSE)

o
Aantal parameters: 15
 9 padcoëfficiënten.
 Exogene variabelen: 2 varianties en 1 covariantie.
 3 disturbances (residuele varianties).
o
Aantal datapunten: p = 5 dus
o Het model is volledig gesatureerd (df=0).
Voorbeeld aantal parameters en aantal datapunten (fixed.x = TRUE)
o Aantal parameters: 12
 9 padcoëfficiënten.
 3 disturbances (residuele varianties).
o

.
Aantal datapunten: p = 5 en q = 2 dus
Vrije gefixeerde en gebonden parameters
o Vrije parameters3: kunnen vrij geschat worden op basis van de dataset (let wel: varianties moeten –in
principe– positief zijn).
o Gefixeerde parameters4 [Engels: fixed parameters]: de waarde van de parameter is gefixeerd op een
constante (typisch 1 of 0).
 Het fixeren van padcoefficiënten op nul correspondeert vaak met zinvolle theoretische hypotheses (bvb.
er is geen direct verband tussen de variabelen X en Y ).
 Indien het model de data slecht fit, kan dit mogelijks te verklaren zijn omdat een parameter ten
onrechte op nul werd gefixeerde (i.e. een direct effect werd verkeerdelijk niet gepreciseerd in het
model).
o Gebonden parameters [Engels: constrained parameters]5: de waarde van de parameters kan vrij geschat
worden onder bepaalde restricties:
 Gelijkheidsrestrictie: twee (of meerdere parameters) worden geforceerd om dezelfde waarde aan te
nemen (bvb. bij ‘multiple- group’ padanalyse: het effect van X op Y is gelijk bij mannen en vrouwen).
 Proportionele restrictie: de waarde van een parameter moet een proportie (bvb. de helft) of een factor
(bvb. twee keer zo groot) zijn van een andere parameter.
 Niet-lineaire restrictie: de ene parameter is een niet-lineaire functie (bvb. de vierkantswortel) van een
andere parameter.
 Ongelijkheidrestrictie: de waarde van een parameter moet groter zijn dan een vooropgestelde waarde
(bvb. > 5.0).
2.9.Verschillende types van padmodellen

Recursieve modellen
o Alle causale effecten zijn unidirectioneel (geen feedback loops).
o Geen correlaties tussen de disturbance termen.
o Voorbeeld:

Niet – recursieve modellen
o Feedback loops zijn toegelaten.
o Correlaties tussen de disturbance termen zijn mogelijk.
o Voorbeeld:
3
Parameters die geschat worden in het model.
Parameters die niet mee gerekend worden in het model.
5
2 regressiecoëfficiënten moeten gelijk zijn, maar 1 vrij andere niet, maar 1 laten mee tellen!!
4

Bow Free modellen (optioneel)
o Correlaties tussen de disturbance termen zijn mogelijk; doch geen
direct effect tussen de bijhorende endogene variabelen (y1 en y2).
o Wordt beschouwd als (partieel) recursief.
o Voorbeeld:

Bow Pattern modellen (optioneel)
o Correlaties tussen de disturbance termen zijn mogelijk met een direct
effect tussen de bijhorende endogene variabelen.
o Wordt beschouwd als (partieel) niet – recursief.
o Voorbeeld:

Recursief versus non – recursief
o De analyse van recursieve modellen kan worden uitgevoerd aan de hand van een reeks van multiple lineaire
regressie analyses: 1 regressie voor elke endogene variabele.
o Causale effecten die niet unidirectioneel zijn (bvb. feedback loops) kunnen niet worden gerepresenteerd in
recursieve modellen.
o Niet-recursieve modellen worden –ten onrechte– zelden gebruikt in de sociale wetenschappen
(uitzondering: economie!), mogelijks om SEM software te vermijden.
2.10. Model identificatie





Een (pad)model is geïdentificeerd indien het (theoretisch) mogelijk is om een unieke waarde te berekenen voor
elke parameter van het model op basis van de data:
o Onafhankelijk van de steekproefgrootte.
o Eigenschap van het model, niet de data.
Twee minimum vereisten voor de identificatie van een structureel vergelijkingsmodel (inclusief padmodellen):
o Minstens evenveel datapunten (i.e. elementen in de variantie - covariantie matrix) als vrije parameters (df ≥
0).
o De schaal (metriek) van elke latente variabele ligt vast.
Recursieve padmodellen zijn altijd geïdentificeerd (tenzij er problemen rijzen zoals bvb.
multicollineariteit).
o Er kunnen niet meer parameters zijn dan datapunten.
o De schaal van de latente variabelen (i.e. disturbance termen) wordt vastgelegd door
het (niet-gestandaardiseerde) padcoëfficiënt te fixeren op 1.0.
Niet-recursieve modellen kunnen niet- geïdentificeerd zijn zelfs indien aan de twee minimum vereisten wordt
voldaan.
Indien een model niet- geïdentificeerd is, moeten we het herspecifieren:
o Restrictie van parameters (bvb. padcoëfficiënten op nul fixeren).
o Exogene variabelen toevoegen (kan enkel vooraleer de data wordt verzameld!).
2.11. Het schatten van de parameters: via lineaire regressie



Enkel voor recursieve modellen.
Omslachtig, doch kan worden uitgevoerd met standaard software (SPSS, SAS, R, …)
De analyse komt neer op een serie van multiple regressie – analyses:
o Telkens een endogene variabele als afhankelijke variabele.
o Alle variabelen die een direct effect hebben op deze endogene variabele beschouwen we als predictoren.
o De bekomen regressiecoëfficiënten zijn meteen de padcoëfficiënten.
o De schatting van de error -variantie ( ) is meteen een schatting van de disturbance varianties voor deze
endogene variabele
.
2.12. Het schatten van de parameters: via SEM software




Zowel recursieve als niet-recursieve modellen.
De meest courante schattingsmethode: ‘maximum likelihood estimation’
o Voor gesatureerde recursieve modellen: exact dezelfde parameterschattingen als met multiple regressie
methode.
o Voor niet -gesatureerde recursieve modellen: zeer gelijkaardige (doch niet identieke) parameterschattingen
als met multiple regressie methode.
o Assumptie: endogene variabelen multivariaat normaal verdeeld.
o Alle parameters worden tezelfdertijd geschat (nadeel: indien het model verkeerd werd gepreciseerd heeft
dit een impact op de schattingen van alle parameters)
o De schatting is iteratief: start met initiële waarden die na elke iteratie worden geüpdatet.
o Vertrekt van de variantie - covariantie matrix (en niet de correlatie matrix).
o Analyse van correlatie- matrices is problematisch: het berekenen van de standaardfouten voor de
parameterschattingen is hier niet evident.
Het gebruik van SEM software biedt bijzonder veel voordelen:
o Indirecte en totale effecten kunnen (doorgaans) automatisch worden berekend, inclusief (gebootstrapte)
confidentie intervallen voor deze effecten.
o Verscheidene goodness- of- fit indices worden gerapporteerd ter evaluatie van de algemene fit van het
model.
o Niet-recursieve modellen geen probleem.
o ...
Voorbeeld: Roth et al. (1989)
o Hypotheses die we wensen te toetsen:
 Het effect van exercise op illness is
indirect, en enkel gemedieerd door fitness.
 Het effect van hardiness op illness is
indirect, en enkel gemedieerd door stress.
 Er is geen direct effect van fitness op
stress.
o Strategie: we gaan een padmodel toetsen die
alle veronderstelde directe effecten (volle
pijlen) en tevens de niet-veronderstelde
(gestreepte pijlen) bevat
 Dit model is gesatureerd.
 De (directe of indirecte) effecten waarvan men veronderstelt dat ze gelijk zijn aan nul mogen niet
significant zijn.
 De overige paden dienen wel significant te zijn.
o Voorbeeld: uivoering met lavaan
o

Output lavaan
Resultaten
o De resultaten bevestigen (bijna) alle hypotheses in verband met de veronderstelde en niet-veronderstelde
directe effecten; enige uitzondering: een niet- significant (p = 0.046) effect voor ‘fitness → stress’
o Indirecte effect = product directe effecten:
 Bvb. tussen exercise en illness: 0.217 × −0.442 = −0.096
 Is dit indirect effect significant? voor indirecte effecten met e´en mediator kunnen we Sobel’s test
uitvoeren (zie OMI)

Beter: bootstrap
methode om standaardfouten
(en dus p-waarde) te berekenen
voor deze indirecte effecten

Indirecte effecten:
lavaan input

Lavaan output (sobel test)

Lavaan output (bootstrap)
2.13. Het model – geïmpliceerde covariantie matrix







Eenmaal de parameters werden geschat kan men op basis van het paddiagram de bivariate
covarianties/correlaties proberen te reconstrueren.
De zo bekomen covarianties/correlaties noemt men model -geïmpliceerde covarianties/correlaties.
In een gesatureerd model corresponderen deze exact met de geobserveerde covarianties/correlaties; in een niet
-gesatureerd model is er vaak een (hopelijk zo kleine mogelijke) discrepantie tussen de voorspelde en
geobserveerde covarianties/correlaties (=residuals).
Dit verschil kan dienen als een maat van ‘model fit’.
Voor niet-recursieve modellen laten we de berekening over aan SEM software.
Voor recursieve modellen kunnen we deze eventueel manueel berekenen op basis van de padcoëfficiënten.
Lavaan: model – geïmpliceerde covariantiematrix + residuals

Model zonder directe effecten en niet – significante paden

Lavaan output

Lavaan: model – geïmpliceerde covarantiematrix + residuals
2.14. Model fitmaten


In principe is de interpretatie van parameters slechts zinvol indien het (pad)model de data adequaat fit.
SEM software rapporteert doorgaans een waaier van fitmaten
o De chi - kwadraat toets (mag in principe niet significant zijn, doch zeer gevoelig aan de steekproefgrootte).
o Incrementele maten zoals de CFI en de TLI (vergelijken een volledig model met een basismodel alwaar er
geen enkele correlatie wordt verondersteld tussen de variabelen) (vuistregel: groter dan 0.90 of 0.95).
o Overige maten: RMSEA, SRMR, . . . (vuistregel: kleiner dan 0.05 of 0.06).
2.15. En verder










Vergelijken van geneste modellen.
Vergelijken van niet – geneste modellen (laagste AIC of BIC).
Equivalente modellen.
Herspecificatie van het model (modifiation indices).
Power analyse.
Padanalyse met latente variabelen = SEM!
Multiple – group padanalyse.
Padanalyse met categorische (bvb. binaire) endogene variabelen.
Multilevel padanalyse.
…