Antwoord bij oefening 3.2

a. Ga na of de steekproef die de studenten in 2006 getrokken hebben (mco_1.2006.sav) wat betreft de gemiddelde leeftijd van de respondenten representatief is voor de Nederlandse bevolking van 18 jaar en ouder (de studenten hadden de opdracht om Nederlanders vanaf 18 jaar te ondervragen). Volgens gegevens van het CBS is de gemiddelde leeftijd van Nederlandse volwassenen in 2006 36,8 jaar.

Je krijgt een antwoord door een t-toets op één gemiddelde uit te voeren. Kijk wel eerst of er geen fouten in de variabele v3 (leeftijd) zitten. We hoeven de vorm van de verdeling van deze variabele niet te controleren omdat de steekproef groot is (N > 30).

De resultaten (wanneer je mensen onder de 18 jaar verwijderd hebt):
One-Sample Statistics

N Mean Std. Deviation Std. Error Mean
Hoe oud bent u? 1551 36,25 16,041 ,407
One-Sample Test

Test Value = 36.8
t df Sig. (2-tailed) Mean Difference 95% Confidence Interval of the Difference
        Lower Upper
Hoe oud bent u? -1,342 1550 ,180 -,547 -1,35 ,25

Conclusie: De gemiddelde leeftijd van de steekproef (M = 36,25, SD = 16,04) wijkt niet significant af van de gemiddelde leeftijd van volwassen Nederlanders in 2006 (36,8 jaar), t (1550) = -1,34; p = 0,180; 95% CI [35,45, 37,05]. We mogen er dus van uitgaan dat de steekproef wat betreft de (gemiddelde) leeftijd representatief is voor de populatie van alle volwassen Nederlanders.
Anders gezegd: wat betreft de leeftijd zou deze steekproef aselect uit de volwassen Nederlandse populatie getrokken kunnen zijn.

b. Van alle Nederlanders van 18 jaar en ouder heeft 74,2% in 2006 een betaalde baan. Is de steekproef op dit punt representatief voor de Nederlandse bevolking van 18 jaar en ouder?

We hebben nu een variabele met maar twee waarden (wel en geen baan), dus moeten we een toets op één proportie uitvoeren.
De nulhypothese is dat de proportie baanhebbenden in de steekproef gelijk is aan de proportie in de Nederlandse populatie (let op: populatie in niet-statistische zin), namelijk 0,742. Strikt genomen is de nulhypothese dat de proportie mensen met een baan in de populatie waaruit de steekproef getrokken is (statistische populatie) gelijk is aan de proportie onder de Nederlandse bevolking (van 18 jaar en ouder) die een baan hebben.
H0: π0 = 0,742.
H1: π0 ≠ 0,742.

NB we hoeven geen voorwaarden te controleren omdat SPSS automatisch de juiste toets uitvoert: een (exacte) binomiaaltoets wanneer N ∙ π0 ≤ 5 of N ∙ (1 - π0) ≤ 5 en een z-toets wanneer dit niet het geval is.

Een (binomiaal)toets op één proportie in SPSS met als testcategorie 1 (wel een baan) levert de volgende output op:

Hypothesis Test Summary
  Null Hypothesis Test Sig. Decision
1 The categories defined by Heeft u een betaalde baan buitenshuis? = (ja) and (nee) occur with probabilities 0,742 and 0,258 One-Sample Binomial Test ,094 Retain the null hypothesis.
Asymptotic significances are displayed. The significance level is .05.

NB wanneer de variabele SCALE meetniveau heeft in SPSS, worden de value labels niet getoond. Ook wordt dan automatisch uitgegaan dat de proportie die je opgeeft hoort bij de laagste categorie. ZET HET MEETNIVEAU VAN DE VARIABELE IN SPSS DUS EERST OP NOMINAL.

Omdat de proportie volgens de nulhypothese ongelijk is aan 0,50, is de toets eenzijdig. Je kunt dit controleren door te dubbelklikken op de tabel.
Onze hypothesen waren echter tweezijdig, dus moeten we de overschrijdingskans verdubbelen: 0,188. Deze omrekening mag alleen wanneer de z-verdeling wordt gebruikt omdat die symmetrisch is. Hier wordt deze verdeling gebruikt aangezien er geen extra voetnoot bij de tabel is die aangeeft dat een exacte toets is uitgevoerd.
De tweezijdige toets is dus niet significant en we mogen concluderen dat het percentage mensen met een betaalde baan in de steekproef (p = 75,7%) niet significant afwijkt van het percentage onder alle volwassen Nederlanders in 2006 (74,2%), p = 0,188. We mogen er dus van uitgaan dat de steekproef wat betreft het hebben van een betaalde baan representatief is voor de populatie van alle volwassen Nederlanders.

Syntax

*Syntax bij oefening 3_2.

*Eerst de volwassenen (18 jaar en ouder) selecteren.
USE ALL.
COMPUTE filter_$=(v3 >= 18).
VARIABLE LABEL filter_$ 'v3 >= 18 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
*Controleren of de selectie goed is gegaan.
FREQUENCIES
  VARIABLES=v3
  /ORDER= ANALYSIS .
*T-toets uitvoeren.
T-TEST
  /TESTVAL = 36.8
  /MISSING = ANALYSIS
  /VARIABLES = v3
  /CRITERIA = CI(.95) .
*Controle van de variabele baan (v4baan): meetniveau aanpassen.
* Define Variable Properties.
*v4baan.
VARIABLE LEVEL v4baan(NOMINAL).
EXECUTE.
*Binomiaaltoets op 1 proportie.
*Nonparametric Tests: One Sample.
NPTESTS
  /ONESAMPLE TEST (v4baan) BINOMIAL(TESTVALUE=0.742 SUCCESSCATEGORICAL=LIST(1) )
  /MISSING SCOPE=ANALYSIS USERMISSING=EXCLUDE
  /CRITERIA ALPHA=0.05 CILEVEL=95.