Antwoord bij oefening 3.5

a. Toets de hypothese dat de reclames ertoe leiden dat kinderen meer snoepen. Formuleer de statistische hypothesen voor deze toets en trek een conclusie.

Begin eerst de variabelen te beschrijven: zitten er onmogelijke waarden bij de variabelen Conditie en Snoep? Bij Snoep komt de waarde -3 voor: het is onmogelijk om een negatief aantal snoepjes te eten, dus deze waarde moet als missing aangemerkt worden.
Per conditie (groep) zijn er maar 20 (en 19 in de groep met een missing value) waarnemingen. Dit betekent dat we de t-toets alleen mogen uitvoeren wanneer de variabele in de populatie normaal verdeeld is. Dat is niet gegeven in de opgave, dus het enige wat we kunnen doen is de verdeling van de Snoep-variabele in de steekproef controleren: is die niet te scheef, volgt die de normaalverdeling en zijn er geen extreme waarden buiten de staarten?
Met het commando EXPLORE kun je de scheefheid en boxplots met extreme waarden opvragen. Wil je een histogram met ingetekende normaalverdeling, dan kun je die via FREQUENCIES opvragen.
Statistics
Snoep
N Valid 39
Missing 1
Mean 5,05
Std. Deviation 1,701
Skewness ,051
Std. Error of Skewness ,378

De verdeling is nauwelijks scheef (skewness = 0,05) en heeft geen extreme waarden. De verdeling in de steekproef volgt redelijk een normaalverdeling al is het aantal kinderen dat 5 snoepjes eet, duidelijk lager dan verwacht volgens een normaalverdeling.
Hard bewijs dat de variabele in de populatie normaal verdeeld is, biedt dit niet maar de redelijk normale verdeling in de steekproef maakt het aannemelijker dat de variabele in de populatie ook normaal verdeeld is. Daarom gebruiken we de t-toets hier toch.

We hebben hier twee groepen (of steekproeven): de kinderen die wel en de kinderen die geen reclames zien. Dus moeten we een t-toets op twee gemiddelden uitvoeren. De nulhypothese daarbij is dat er in de populatie geen verschil is tussen de twee gemiddelden. Wanneer we niet willen uitsluiten dat kinderen die snackreclames zien, minder gaan snoepen, moeten we een tweezijdige test doen. De statistische hypothesen zijn dan:
H0: μreclamegroep = μgeen_reclamegroep
H1: μreclamegroep ≠ μgeen_reclamegroep
Wanneer je wel uitsluit dat snackreclame kinderen aanzet tot minder snoepen, kun je een eenzijdige toets uitvoeren. Dan zijn de statistische hypothesen:
H0: μreclamegroep ≤ μgeen_reclamegroep
H1: μreclamegroep > μgeen_reclamegroep

Voer nu de t-toets uit. De resultaten staan in onderstaande tabellen.

Group Statistics
  Conditie N Mean Std. Deviation Std. Error Mean
Snoep 0 geen reclames 19 3,58 ,838 ,192
1 wel reclames 20 6,45 ,945 ,211

Independent Samples Test
  Levene's Test for Equality of Variances t-test for Equality of Means
    95% Confidence Interval of the Difference
F Sig. t df Sig. (2-tailed) Mean Difference Std. Error Difference Lower Upper
Snoep Equal variances assumed ,441 ,511 -10,023 37 ,000 -2,871 ,286 -3,451 -2,291
Equal variances not assumed     -10,054 36,834 ,000 -2,871 ,286 -3,450 -2,292

Conclusie: Kinderen die wel reclames zien eten significant meer snoep (M = 6,45, SD = 0,95) dan kinderen die geen reclames zien (M = 3,58, SD = 0,84), t (37) = -10,02; p < 0,001; 95% CI [-3,45, -2,29]; d = 3,21. Het effect van de reclames is zeer groot. Zie hieronder hoe deze waarde, met de bijbehorende gepoolde variantie, handmatig berekend is:


en


NB We nemen aan dat het snoepen in de populatie normaal verdeeld is.
NB Levene's toets is niet significant, dus we mogen uitgaan van gelijke varianties voor de twee groepen in de populatie.

Wanneer je had gekozen voor een eenzijdige toets, was de conclusie precies hetzelfde gebleven. Je zou alleen de p-waarde moeten aanpassen (delen door 2) maar die is bij de tweezijdige toets al 0,000. Het betrouwbaarheidsinterval is per definitie tweezijdig; dat verandert dus niet.

b. Snoepen jongens meer dan meisjes tijdens het kijken naar de tekenfilms?

Controleer eerst de sekse variabele (geen problemen) en voer opnieuw een t-toets voor het verschil tussen twee gemiddelden uit.
Conclusie: Jongens snoepen tijdens het televisiekijken significant meer (M = 5,60, SD = 1,57) dan meisjes (M = 4,47, SD = 1,68), t (37) = -2,17; p = 0,037; 95%CI [-2,18, -0,07]; d = 0,70. Het verschil is relevant, want het effect is middelmatig tot groot; zie de onderstaande handmatige berekeningen:


en


NB We nemen aan dat het snoepen in de populatie normaal verdeeld is.
Als je wilt kun je het betrouwbaarheidsinterval ook interpreteren: Met 95% zekerheid eten jongens (in de populatie) gemiddeld tussen de 0,07 en 2,18 meer snoepjes dan meisjes tijdens het tv kijken.

Syntax
*Syntax Oefening 3.5.

*Vraag a.
*Beschrijven van de variabelen en missing values definieren.
* Define Variable Properties.
*Snoep.
MISSING VALUES Snoep(-3).
EXECUTE.
*Beoordelen van de vorm van de verdeling: normaal?.
*M, SD, skewness en histogram met normaalverdeling.
FREQUENCIES VARIABLES=Snoep
  /FORMAT=NOTABLE
  /STATISTICS=STDDEV MEAN SKEWNESS SESKEW
  /HISTOGRAM NORMAL
  /ORDER=ANALYSIS.
*Boxplot en lijst extreme waarden.
EXAMINE VARIABLES=Snoep
  /PLOT BOXPLOT
  /COMPARE GROUP
  /STATISTICS EXTREME
  /MISSING LISTWISE
  /NOTOTAL.
*t-toets op twee gemiddelden.
T-TEST GROUPS=Conditie(0 1)
  /MISSING=ANALYSIS
  /VARIABLES=Snoep
  /CRITERIA=CI(.95).

*Vraag b.
*Beschrijven en evt. verbeteren van de sekse variabele.
* Define Variable Properties.
EXECUTE.
*t-toets.
T-TEST GROUPS=Sekse(1 2)
  /MISSING=ANALYSIS
  /VARIABLES=Snoep
  /CRITERIA=CI(.95).