Antwoord bij Oefening 5.1

a. Ga met een variantieanalyse na of er een verschil is tussen mannen en vrouwen wat betreft de mate waarin zij internet gebruiken. Formuleer de nulhypothese en toets of de nulhypothese verworpen kan worden met een significantieniveau van 5%. Rapporteer de resultaten op de voorgeschreven wijze.

Vergeet de voorbereidende stappen niet: het beschrijven en bewerken van de twee variabelen. Het label voor ‘man’ ontbreekt bij V1.

We hebben één categorische onafhankelijke variabele (sekse) en een numerieke afhankelijke variabele, dus we mogen een eenwegs-variantieanalyse uitvoeren (zie bivariaat beantwoorden). Het is overigens beter om een t-toets uit te voeren aangezien de onafhankelijke variabele maar twee categorieën heeft, maar die toets voeren we bij vraag b uit.
SPSS toont eerst de toets op gelijke varianties. Die is significant dus mogen we niet uitgaan van gelijke varianties voor mannen en vrouwen in de populatie. De groepen zijn ongeveer even groot (het verschil is 783 - 777 = 6 respondenten en dat is minder dan 10% van 777), dus is deze toets overbodig. Ook met ongelijke varianties mogen we variantieanalyse uitvoeren.
Test of Homogeneity of Variances
v10 Hoe vaak gebruikt u internet?
Levene Statistic df1 df2 Sig.
22,920 1 1558 ,000

SPSS geeft de volgende samenvattende tabel met resultaten:
ANOVA
Hoe vaak gebruikt u internet?

Sum of Squares df Mean Square F Sig.
Between Groups 36,920 1 36,920 18,462 ,000
Within Groups 3115,741 1558 2,000

Total 3152,661 1559


De nulhypothese die getoetst wordt, is dat de gemiddelde score op internetgebruik voor mannen en vrouwen gelijk is. We verwerpen deze nulhypothese omdat de overschrijdingskans (0,000) kleiner is dan het significantieniveau 0,05.
Om te zien wat het verschil is, kijken we naar de tabel met beschrijvende statistieken. Hier zien we dat vrouwen gemiddeld 3,68 scoren terwijl mannen gemiddeld 3,99 scoren. Mannen gebruiken het internet dus gemiddeld vaker dan vrouwen. Dit is ook te zien in de grafiek. Het is een klein verschil, maar dit verschil is wel statistisch significant omdat de steekproef groot is (en de standaardfout klein is).
Descriptives
Hoe vaak gebruikt u internet?

N Mean Std. Deviation Std. Error 95% Confidence Interval for Mean Minimum Maximum
Lower Bound Upper Bound Lower Bound Upper Bound Lower Bound Upper Bound Lower Bound Upper Bound
vrouw 777 3,68 1,499 ,054 3,58 3,79 0 6
man 783 3,99 1,325 ,047 3,90 4,08 0 7
Total 1560 3,84 1,422 ,036 3,76 3,91 0 7

Conclusie: "In een eenwegs-variantieanalyse hebben we een significant verschil gevonden tussen mannen en vrouwen wat betreft hun gebruik van internet, F (1, 1558) = 18,46, p < 0,001, η2 = 0,01. Het verschil is beperkt relevant, want het gaat hier om een klein effect. Mannen gebruiken het internet gemiddeld vaker per dag (M = 3,99, SD = 1,33) dan vrouwen (M = 3,68, SD = 1,50)."
NB Etakwadraat voor de significante effecten is uitgerekend met de hand, door middel van een gemakkelijke berekening: de kwadratensom voor de tussengroepsspreiding (SSb) gedeeld door de totale kwadratensom (SSt): η2 = 36,920 / 3152,661 = 0,01.

b. Zou de conclusie anders zijn wanneer je een t-toets uitvoert? Controleer je antwoord op deze vraag door een t-toets uit te voeren.

Een eenwegs-variantieanalyse met maar twee groepen levert dezelfde resultaten op als een t-toets voor onafhankelijke scores. Zie het onderstaande resultaat van de t-toets. Omdat de varianties in beide groepen niet gelijk zijn (Levene’s Test is significant), moeten we de onderste resultaten gebruiken met iets andere vrijheidsgraden. Niettemin blijft de overschrijdingskans hier gelijk aan de overschrijdingskans bij de variantieanalyse (0,000).
Independent Samples Test


Levene's Test for Equality of Variances t-test for Equality of Means
F Sig. t df Sig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference
Upper Lower
Hoe vaak gebruikt u internet? Equal variances assumed 22,920 ,000 -4,297 1558 ,000 -,308 ,072 -,448 -,167
Equal variances not assumed

-4,295 1532,041 ,000 -,308 ,072 -,448 -,167

c. Ga na of het opleidingsniveau (v2) een rol speelt bij de mate waarin men internet gebruikt. Voor deze oefening dien je eerst opleiding te hercoderen (Lagere school, Mavo en MBO = laag, havo, mulo en vwo = middelbaar en hbo, universiteit = hoog).

Controleer en hercodeer het opleidingsniveau. Voer dan een eenwegs-variantieanalyse uit met de gehercodeerde opleidingsvariabele als onafhankelijke en het internetgebruik als afhankelijke variabele. Aangezien we nu meer dan twee groepen hebben, kun je nu geen t-toets uitvoeren en is het verstandig om de Bonferroni toets op te vragen bij de Post Hoc opties.
ANOVA
Hoe vaak gebruikt u internet?

Sum of Squares df Mean Square F Sig.
Between Groups 308,020 2 154,010 84,235 ,000
Within Groups 2841,229 1554 1,828

Total 3149,249 1556


In een eenwegs-variantieanalyse vinden we een significant, middelmatig (tot groot) effect van het opleidingsniveau op het internetgebruik, F (2, 1554) = 84,24, p < 0,001, η2 = 0,10. Volgens de meervoudige vergelijkingentoets (Bonferroni) blijken de laag opgeleiden dagelijks significant (p < 0,001) minder gebruik te maken van het internet (M = 3,01, SD = 1,75) dan de middelbaar (M = 4,09, SD = 1,17) en hoger opgeleiden (M = 4,06, SD = 1,24). Tussen de laatste twee groepen is er geen significant verschil.
We hebben hier overigens wel een probleem: de groepen zijn duidelijk verschillend van omvang (er zijn 351 laag opgeleiden tegen 675 hoog opgeleiden in de steekproef) en Levene's toets op homogene varianties is significant. De resultaten van de variantieanalyse zijn dus misschien niet betrouwbaar.
Multiple Comparisons
v10 Hoe vaak gebruikt u internet?
Bonferroni
(I) v2HER Opleidingsniveau in 3 klassen. (J) v2HER Opleidingsniveau in 3 klassen. Mean Difference (I-J) Std. Error Sig. 95% Confidence Interval
Lower Bound Upper Bound
1,00 laag 2,00 middelbaar -1,079* ,093 ,000 -1,30 -,86
3,00 hoog -1,048* ,089 ,000 -1,26 -,84
2,00 middelbaar 1,00 laag 1,079* ,093 ,000 ,86 1,30
3,00 hoog ,031 ,079 1,000 -,16 ,22
3,00 hoog 1,00 laag 1,048* ,089 ,000 ,84 1,26
2,00 middelbaar -,031 ,079 1,000 -,22 ,16
*. The mean difference is significant at the 0.05 level.

Descriptives
Hoe vaak gebruikt u internet?

N Mean Std. Deviation Std. Error 95% Confidence Interval for Mean Minimum Maximum
Lower Bound Upper Bound
laag 353 3,01 1,753 ,093 2,83 3,19 0 7
middelbaar 529 4,09 1,167 ,051 3,99 4,19 0 6
hoog 675 4,06 1,242 ,048 3,97 4,15 0 5
Total 1557 3,83 1,423 ,036 3,76 3,90 0 7

d. Gebruik nu een variantieanalyse waarin je de effecten van beide kenmerken (sekse en opleidingsniveau) tegelijkertijd analyseert, inclusief hun interactie-effect. Formuleer alle nulhypothesen en toets of zij verworpen kunnen worden met een significantieniveau van 5%. Rapporteer de resultaten en vergelijk ze met de resultaten van vraag a en c. Zijn de resultaten hetzelfde?

Nu zijn er twee onafhankelijke variabelen (sekse en opleidingsniveau), dus moet er een twee-factoren variantieanalyse uitgevoerd worden (zie multivariaat beantwoorden). Hierbij toets je voor elk effect de nulhypothese dat er geen verschil is tussen de gemiddelden van de groepen. Deze nulhypothese geldt dus zowel voor de twee hoofdeffecten van sekse en opleidingsniveau op het internetgebruik, als voor het interactie-effect van deze twee variabelen samen.
De nulhypothesen met Griekse letters voor de populatiegemiddelden zijn dan:

We kunnen etakwadraat voor de significante effecten (wederom) makkelijk met de hand uitrekenen: de kwadratensom van het effect (SSeffect) delen door de totale (corrected) kwadratensom (SSt).
Descriptive Statistics
Dependent Variable: Hoe vaak gebruikt u internet?
Bent u een vrouw of man? Opleidingsniveau in 3 klassen. Mean Std. Deviation N
vrouw laag 2,67 1,774 168
middelbaar 3,98 1,293 298
hoog 3,95 1,270 311
Total 3,68 1,499 777
man laag 3,33 1,685 183
middelbaar 4,24 ,964 231
hoog 4,16 1,211 364
Total 3,99 1,326 778
Total laag 3,01 1,757 351
middelbaar 4,09 1,167 529
hoog 4,06 1,242 675
Total 3,83 1,423 1555
Tests of Between-Subjects Effects
Dependent Variable: Hoe vaak gebruikt u internet?
Source Type III Sum of Squares df Mean Square F Sig. Eta2 handmatig uitgerekend
Corrected Model 360,308(a) 5 72,062 40,082 ,000  
Intercept 19870,040 1 19870,040 11052,050 ,000  
v1 51,806 1 51,806 28,815 ,000 ,016
v2HER 314,140 2 157,070 87,365 ,000 ,100
v1 * v2HER 12,900 2 6,450 3,588 ,028 ,004
Error 2784,885 1549 1,798


Total 26004,000 1555



Corrected Total 3145,194 1554



a R Squared = ,115 (Adjusted R Squared = ,112)

De samenvattende tabel toont dat er significante hoofdeffecten zijn van geslacht, F (1, 1549) = 28,82, p < 0,001, η2 = 0,02, en van het opleidingsniveau op het internetgebruik, F (2, 1549) = 87,37, p < 0,001, η2 = 0,10. Het effect van opleidingsniveau is middelmatig tot groot. Daarentegen is het effect van sekse klein: mannen (M = 3,99, SD = 1,33) gebruiken het internet iets vaker dan vrouwen (M = 3,68, SD = 1,50).
Overigens moeten we wel de kanttekening plaatsen dat de groepen niet allemaal even groot zijn (er zijn maar 168 laag opgeleide vrouwen tegenover 364 hoog opgeleide mannen) en dat de varianties in de populatie hoogstwaarschijnlijk niet hetzelfde zijn voor alle groepen, Levene's F (5, 1549) = 31,35, p < 0,001. De resultaten van de variantieanalyse kloppen daarom misschien niet.
De meervoudige vergelijkingen tonen dat de laagst opgeleiden significant dagelijks minder (M = 3,01, SD = 1,76) gebruik maken van het internet dan de middelbaar (M = 4,09, SD = 1,17, Mverschil = -1,08, p < 0,001) en hoger opgeleiden (M = 4,06, SD = 1,24, Mverschil = -1,05, p < 0,001).
Er is ook een significant maar klein interactie-effect van geslacht met opleidingsniveau, F (2, 1549) = 3,59, p = 0,028, η2 = 0,004). De grafiek met de gemiddelden laat zien dat er onder de laag opgeleiden een groter verschil is tussen mannen en vrouwen dan bij de middelbaar en hoger opgeleiden. Juist onder de laag opgeleiden gebruiken mannen (M = 3,33, SD = 1,69) het internet meer dan vrouwen (M = 2,67, SD = 1,77).

Wanneer je met de hand de regel /EMMEANS=TABLES(v1 BY v2HER) COMPARE(v2HER) ADJ(BONFERRONI) hebt toegevoegd aan de syntax van de tweewegs-variantieanalyse, krijg je bovendien onderstaande tabel die paarsgewijze vergelijkingen maakt voor de subgroepen in het interactie-effect. We zien hier dat alle paren van opleidingsniveaus significant verschillen wat betreft mate van internetgebruik, zowel bij de mannen als de vrouwen, met uitzondering van de combinatie middelbaar - hoge opleiding.
NB HET COMMANDO VOOR PAARSGEWIJZE (POST-HOC) VERGELIJKINGEN VOOR EEN INTERACTIE-EFFECT IS GEEN STOF VOOR DE PRACTICUMTOETS OF HET TENTAMEN.

Pairwise Comparisons
Dependent Variable:v10 Hoe vaak gebruikt u internet?
Bent u een vrouw of man? (I) Opleidingsniveau in 3 klassen. (J) Opleidingsniveau in 3 klassen. Mean Difference (I-J) Std. Error Sig.a 95% Confidence Interval for Differencea
Lower Bound Upper Bound
0 vrouw 1,00 laag 2,00 middelbaar -1,310* ,129 ,000 -1,620 -1,000
3,00 hoog -1,279* ,128 ,000 -1,586 -,971
2,00 middelbaar 1,00 laag 1,310* ,129 ,000 1,000 1,620
3,00 hoog ,031 ,109 1,000 -,229 ,292
3,00 hoog 1,00 laag 1,279* ,128 ,000 ,971 1,586
2,00 middelbaar -,031 ,109 1,000 -,292 ,229
1 man 1,00 laag 2,00 middelbaar -,905* ,133 ,000 -1,223 -,587
3,00 hoog -,823* ,122 ,000 -1,114 -,532
2,00 middelbaar 1,00 laag ,905* ,133 ,000 ,587 1,223
3,00 hoog ,082 ,113 1,000 -,189 ,352
3,00 hoog 1,00 laag ,823* ,122 ,000 ,532 1,114
2,00 middelbaar -,082 ,113 1,000 -,352 ,189
Based on estimated marginal means
*. The mean difference is significant at the ,05 level.
a. Adjustment for multiple comparisons: Bonferroni.

Inhoudelijk zijn de resultaten voor de hoofdeffecten hetzelfde als bij vraag a en c: beide hoofdeffecten zijn significant op 0,1% significantieniveau. De F-waarden en vrijheidsgraden zijn nu een klein beetje anders omdat we de twee onafhankelijke variabelen tegelijk in de analyse hebben gestopt. Zo is de F-waarde voor het effect van sekse bij vraag a 18,46 en bij vraag d 28,82. Dit wijst erop dat het effect van sekse iets groter wordt wanneer je controleert voor het opleidingsniveau (maar het blijft verwaarloosbaar laag). Bij het effect van het opleidingsniveau wordt de F-waarde ook iets hoger (84,24 bij c en 87,37 bij d).
Dit illustreert een belangrijk kenmerk van multivariate analyse: het toevoegen (of verwijderen) van onafhankelijke variabelen kan de resultaten beïnvloeden omdat de partiële effecten veranderen wanneer er voor meer (of minder) variabelen gecontroleerd wordt.

Syntax


*Oefening 5_1.

*Opgave a.
*Controleren van de variabelen.
FREQUENCIES
  VARIABLES=v1 v10
  /ORDER= ANALYSIS .
*Value label voor man ontbreekt.
*Define Variable Properties.
*v1.
VALUE LABELS v1
   0 'vrouw'
   1 'man' .
EXECUTE.
*1-factor variantieanalyse.
ONEWAY v10 BY v1
  /STATISTICS DESCRIPTIVES HOMOGENEITY
  /PLOT MEANS
  /MISSING ANALYSIS
  /POSTHOC=BONFERRONI ALPHA(0.05).

*Opgave b.
*T-toets.
T-TEST
  GROUPS = v1(0 1)
  /MISSING = ANALYSIS
  /VARIABLES = v10
  /CRITERIA = CI(.95) .

*Opgave c.
*Beschrijving van V2.
FREQUENCIES
  VARIABLES=v2
  /ORDER= ANALYSIS .
*Hercoderen opleidingsniveau.
RECODE
  v2
  (1 thru 3=1) (4 thru 5=2) (6 thru 7=3) INTO v2HER .
VARIABLE LABELS v2HER 'Opleidingsniveau in 3 klassen.'.
EXECUTE .
*Define Variable Properties.
*v2HER.
VALUE LABELS v2HER
   1 'laag'
   2 'middelbaar'
   3 'hoog' .
EXECUTE.
ONEWAY
  v10 BY v2HER
  /STATISTICS DESCRIPTIVES HOMOGENEITY
  /PLOT MEANS
  /MISSING ANALYSIS
  /POSTHOC=BONFERRONI ALPHA(0.05).

*Opgave d.
*2-factoren variantieanalyse.
UNIANOVA
  v10 BY v1 v2HER
  /METHOD = SSTYPE(3)
  /POSTHOC = v2HER (BONFERRONI)
  /EMMEANS=TABLES(v1 BY v2HER) COMPARE(v2HER) ADJ(BONFERRONI)
  /PLOT = PROFILE( v2HER*v1 )
  /PRINT = HOMOGENEITY DESCRIPTIVE
  /CRITERIA = ALPHA(.05)
  /DESIGN = v1 v2HER v1*v2HER .