Antwoord bij Oefening 4.2

Is de steekproef die voor het BS gegevensbestand getrokken is, qua opleidingsniveau representatief voor de Nederlandse bevolking?

a. Specificeer de statistische hypothesen en kies een toets.

We willen hier toetsen of de verhoudingen (proporties) binnen de steekproef wat betreft het opleidingsniveau gelijk (representatief) zijn aan de proporties binnen de populatie. Eigenlijk stellen we de vraag of deze steekproef aselect getrokken is uit de populatie van alle Nederlanders (tussen 15 en 65 jaar), met andere woorden: is de verdeling naar opleidingsniveau in de populatie waaruit deze steekproef is getrokken, gelijk aan de verdeling in de Nederlandse bevolking (van 15 tot 65 jaar)? Die laatste verdeling kennen we dankzij het CBS, dus daar kunnen we de proporties invullen. De proporties in de populatie waaruit de steekproef is getrokken, kennen we niet, dus daar gebruiken we de Griekse letter pi (π) voor.
H0: πLager onderwijs = 0,09; πMAVO = 0,15; πMBO = 0,34; πHAVO = 0,09; πVWO = 0,08; πHBO = 0,16; πWO = 0,09 .
We verwerpen de nulhypothese wanneer minstens een van de proporties in de populatie hoogstwaarschijnlijk ongelijk is aan de proportie in de Nederlandse bevolking.
H1: πLager onderwijs ≠ 0,09 of πMAVO ≠ 0,15 of πMBO ≠ 0,34 of πHAVO ≠ 0,09 of πVWO ≠ 0,08 of πHBO ≠ 0,16 of πWO ≠ 0,09 .
Voor een toets op de verdeling van een variabele met een beperkt aantal (k) categorieën hebben we de chikwadraatverdeling nodig.

b. Bepaal het verwerpingsgebied van de toets.

Bij een chikwadraattoets op één categorische variabele hangt het aantal vrijheidsgraden af van het aantal categorieën k: df = k - 1. Hier hebben we 7 opleidingsniveaus, dus df = 7 - 1 = 6.
Wanneer we uitgaan van 5% significantieniveau, is de kritieke waarde volgens de tabel in Bijlage 4 van het boek van Van Peet et al. gelijk aan 12,59.
Het verwerpingsgebied zijn dan alle chikwadraatwaarden van 12,59 en hoger. Let op: een chikwadraattoets gebruikt alleen de rechter staart van de kansverdeling.

c. Voer de toets uit en interpreteer de resultaten.

Voordat we de chikwadraattoets op één variabele kunnen uitvoeren moeten we de gegevens eerst controleren.
In de steekproef blijken leeftijden onder de 15 en boven de 64 voor te komen. Die moeten we eerst verwijderen om de steekproef qua leeftijden gelijk te maken aan de Nederlandse bevolking waarover de CBS cijfers gaan. Verwijder dus respondenten die jonger zijn dan 15 jaar of ouder dan 64.
NB 15, 16 en 17-jarigen komen erg weinig voor in de data omdat de opdracht was om mensen vanaf 18 jaar te enqueteren. De data sluiten dus op dit punt niet helemaal aan bij de populatie die het CBS beschrijft.

Voor de chikwadraattoets kunnen we de CBS-percentages nu direct invullen in het dialoogscherm van het commando ANALYZE-NONPARAMETRIC TESTS-CHI SQUARE. Het maakt niet uit of je dit als percentages (9; 15; 34; 9; 8; 16; 9) doet of als proporties (0,09; 0,15; 0,34; 0,09; 0,08; 0,16; 0,09) want SPSS rekent dit zelf om naar verwachte aantallen in de steekproef. Omdat het decimaalscheidingsteken van computer op computer kan verschillen, is het veiliger om de percentages als gehele getallen in te vullen. Zorg dat je dit in de juiste volgorde doet: eerst het percentage voor het Lager onderwijs, dan voor MAVO, etcetera.
Kijk eerst naar de verwachte waarden voordat je het toetsresultaat interpreteert. Zijn ze allemaal groter dan 1 en is minstens 80% groter dan 5? In de tabel staan de verwachte waarden, die allemaal ruim boven de 5 liggen. De noot bij de tabel met de toetsresultaten bevestigt dit. We mogen de chikwadraattoets hier dus uitvoeren.

Wat is de hoogste opleiding die u heeft afgerond?
  Observed N Expected N Residual
lager onderwijs 36 133,7 -97,7
mavo 95 222,9 -127,9
middelbaar beroepsonderwijs 184 505,2 -321,2
havo 204 133,7 70,3
vwo 313 118,9 194,1
hbo 432 237,8 194,2
universiteit 222 133,7 88,3
Total 1486    

Interpreteer tenslotte het toetsresultaat en trek een conclusie. Laat in de conclusie zien welke opleidingen onder- en welke oververtegenwoordigd zijn in de steekproef.
Onderstaande tabel laat zien dat er een significant verschil is tussen de verdeling van de opleidingsniveaus in de data en in de hele populatie volgens het CBS, chikwadraat (6) = 919,89, p < 0,001. We moeten de nulhypothese dus verwerpen dat de verdeling van opleidingsniveaus in de steekproef (verzamelde data) niet afwijkt van die in de populatie (CBS data). Wat betreft de opleidingsniveaus zijn de geënquêteerden dus niet representatief voor de Nederlandse bevolking tussen 15 en 65.
In de eerste tabel van de SPSS output is te zien welke opleidingsniveaus in de steekproef ondervertegenwoordigd zijn (lager onderwijs tot en met MBO) en welke in de steekproef oververtegenwoordigd zijn (HAVO en hoger). De steekproef bevat dus relatief veel hoger opgeleide mensen. Is dat verrassend wanneer de enquete is uitgevoerd door eerstejaars studenten Communicatiewetenschap die mensen in hun omgeving vragen om de vragenlijst in te vullen?

Test Statistics
  Wat is de hoogste opleiding die u heeft afgerond?
Chi-Square 919,892a
df 6
Asymp. Sig. ,000
a. 0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is 118,9.

d. Hoe komt SPSS aan de verwachte waarden?

SPSS rekent de getallen (proporties of percentages) om naar de verwachte aantallen in de steekproef door de (bijbehorende) proporties te vermenigvuldigen met het aantal cases (waarnemingen) in de analyse. Hier is dat:

Lager onderwijs 0,09 ∙ 1486 = 133,74
MAVO 0,15 ∙ 1486 = 222,9
MBO 0,34 ∙ 1486 = 505,24
HAVO 0,09 ∙ 1486 = 133,74
VWO 0,08 ∙ 1486 = 118,88
HBO 0,16 ∙ 1486 = 237,76
WO 0,09 ∙ 1486 = 133,74

Voor de fijnproevers: SPSS zet de getallen die je opgeeft zelf om in proporties door ze te delen door hun totaal. Wanneer je bijvoorbeeld de getallen 90; 150; 340; 90; 80; 160; 90 invult, krijg je precies hetzelfde resultaat.

Syntax

*Syntax bij oefening 4_2.

*Beschrijven en selecteren van de juiste leeftijden: 15 tot 65.
FREQUENCIES
  VARIABLES=v3
  /ORDER= ANALYSIS .
USE ALL.
COMPUTE filter_$=((v3 > 14) & (v3 < 65)).
VARIABLE LABEL filter_$ '(v3 > 14) & (v3 < 65) (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
*chikwadraattoets uitvoeren.
NPAR TEST
  /CHISQUARE=v2
  /EXPECTED=9 15 34 9 8 16 9
  /MISSING ANALYSIS.