Antwoord bij oefening 6.1e

a. Beschrijf de verdelingen van de variabelen.

Vraag centrum- en spreidingsmaten op en liefst ook de scheefheid (skewness), maak histogrammen met een normaalverdeling en vraag eventueel ook de frequentietabellen op om na te gaan of er bijzonderheden zijn in de verdelingen. Met name duidelijk niet-normale verdelingen zijn een aanleiding om permutatie en bootstraptoetsen uit te voeren.
De variabele chattijd is duidelijk erg scheef verdeeld (skewness = 5,66). Mediawijsheid is een ordinale variabele met drie categorieën.
Wat je ook zou moeten zien, is dat er een onmogelijke score voorkomt bij de variabele aandacht van ouders: 0, terwijl de schaal loopt van 1 tot 9. Deze score moet missing gemaakt worden.

b. Gebruik een permutatietoets en bootstrappen om na te gaan of de hoeveelheid tijd die tieners chatten verschilt tussen jongens en meisjes. Vermeld de statistische hypothesen en vergelijk de resultaten onderling en met een 'gewone' parametrische toets op het verschil tussen twee gemiddelden.

Bij alle toetsen wil je weten of de gemiddelden van jongens en meisjes verschillen. Er is geen reden om te verwachten dat een bepaalde sekse meer chat, dus voeren we een tweezijdige toets uit.
H0: μjongens = μmeisjes
H1: μjongens ≠ μmeisjes

Het is handig om eerst de groepsgemiddelden in de steekproef te bepalen om te zien of en, zo ja, hoe het verschil is tusen jongens en meisjes. Meisjes blijken gemiddeld 7,40 uur te chatten en jongens 2,36 uur. Dat lijkt een fors verschil maar misschien wordt het veroorzaakt door een enkel extreem veel chattend meisje.

De permutatietoets levert de volgende (tweezijdige exacte) overschrijdingskans op: p = 0,003. Een duidelijk significant resultaat dus.

Een bootstrap van de t-toets met 5000 bootstrapsteekproeven levert voor het verschil tussen de twee groepsgemiddelden een 95%-betrouwbaarheidsinterval op van ongeveer [1,6; 9,7]. Let op, elke nieuwe bootstrap kan iets andere waarden opleveren. In dit geval is het zinloos om meer dan 1 decimaal te rapporteren aangezien de tweede decimaal erg fluctueert tussen bootstrapsteekproeven.

Bootstrap for Independent Samples Test
  Mean Difference Bootstrapa
Bias Std. Error Sig. (2-tailed) 95% Confidence Interval
Lower Upper
Aantal uren chatten in de afgelopen 7 dagen Equal variances assumed 5.038 .003 2.115 .100 1.534 9.704
Equal variances not assumed 5.038 .003 2.115 .104 1.534 9.704
a. Unless otherwise noted, bootstrap results are based on 5000 bootstrap samples

De waarde 0 ligt duidelijk niet binnen dit interval. Op grond hiervan mogen we concluderen dat het verschil significant is op 5% significantieniveau, tweezijdig.
Toch levert SPSS een overschrijdingskans boven 0,05 op, namelijk rond de 0,10, op grond waarvan we zouden concluderen dat het verschil niet significant is. Deze overschrijdingskans wordt op een nodeloos ingewikkelde en niet helemaal correcte manier berekend, namelijk met gebruik van de geschatte standaardfout volgens de t-toets (die verschilt tussen de situatie met en zonder gelijke varianties, vandaar dat de twee bootstrap overschrijdingskansen ook verschillen) en volgens de verdeling van de bootstrapresultaten. Met name bij de meisjes blijkt het betrouwbaarheidsinterval van de standaardafwijking in de populatie erg breed (ongeveer tussen 3 en 20), waardoor de schatting van de standaardfout (geschatte populatiestandaardafwijking gedeeld door de wortel van de steekproefomvang) erg onnauwkeurig wordt.
Het betrouwbaarheidsinterval wordt daarentegen direct vastgesteld op grond van de bootstrapverdeling, dus zonder gebruik van een standaardfout. Dit is veel nauwkeuriger.
Kortom, vertrouw de resultaten van het betrouwbaarheidsinterval meer dan de overschrijdingskans bij bootstrappen in SPSS.

Uit de output van de bootstrap kunnen we ook de resultaten aflezen voor een gewone t-toets. Deze toets heeft een middelmatig tot groot en significant effect, t (34,90) = 2,39; p = 0,022, 95%-CI[0,76; 9,31], d = 0,65.

NB Je kunt Cohen's d gebruiken als maat voor de effectgrootte, ook wanneer je bootstrapt of een permutatietoets op twee gemiddelden uitvoert. Gebruik de geschatte standaarddeviatie van het gemiddelde verschil die je kunt berekenen op grond van de standaardafwijkingen binnen de afzonderlijke groepen die SPSS rapporteert in de tabel Group Statistics bij de bootstrap. Bij een permutatietoets moet je de groepsgemiddelden via een apart commando opvragen.
Hier:

Dus:

Volgens alledrie de toetsen is het verschil significant, althans wanneer we uitgaan van het betrouwbaarheidsinterval bij de bootstraptoets. Dit interval is iets smaller bij de bootstraptoets en ook wat naar 'rechts' verschoven: een iets hogere onder- en bovengrens.
Om de reden van deze verschuiving te begrijpen, is het handig om naar een boxplot te kijken.

De extreem hoge scores komen alleen bij de meisjes voor. Wanneer je rekening houdt met dergelijke scores, zoals de bootstraptoets doet, krijg je voor de meisjes vaker een hoger gemiddelde dan wanneer je hiermee geen rekening houdt, zoals de t-toets. Het verschil tussen meisjes en jongens wordt dan wat groter in de bootstraptoets.

Hoewel de t-toets gezien de omvang van de steekproef gebruikt mag worden, is een toets die rekening houdt met de duidelijk niet normale verdeling iets beter. De permutatietoets en bootstraptoets beantwoorden enigszins verschillende vragen. De permutatietoets generaliseert eigenlijk niet naar een populatie, maar laat zien hoe (weinig) toevallig de verdeling van chattijd over jongens en meisjes is, terwijl de bootstraptoets wel generaliseerd naar de populatie waaruit de steekproef afkomstig is.

c. Voer een bootstraptoets uit om na te gaan of de correlatie tussen chattijd en aandacht van de ouders significant is. Vergelijk de uitkomsten met het resultaat van een gewone toets op de correlatiecoëfficiënt en een toets op Spearman's rangcorrelatie: welke toets is hier het beste?

Bij een toets op een correlatie is het verstandig om altijd eerst een spreidingsdiagram te bekijken. Dat laat hier zien dat er een krom dalend verband is tussen chattijd en aandacht van de ouders. Dan mogen we verschillen verwachten tussen een gewone correlatie en een rangcorrelatie, tenzij het verband niet monotoon is, d.w.z., dat de chattijd bij de hoogste aandachtsscores weer wat stijgt.

De correlatie in de steekproef is -0,52 (p < 0,001) met een 95%-betrouwbaarheidsinterval [-0,66; -0,28] bij 5000 bootstrapsteekproeven. NB deze bootstrap kost redelijk veel tijd.

De rangcorrelatie in de steekproef is -0,15 (p = 0,156) met een 95%-betrouwbaarheidsinterval [-0,36; 0,08] bij 5000 bootstrapsteekproeven.

Aangezien het verband duidelijk krom is, is de rangcorrelatie beter dan de (Pearson) correlatie; de laatste veronderstelt namelijk een lineair verband. Maar de rangcorrelatie is een stuk lager dan de gewone correlatie en niet significant, wat erop wijst dat het verband niet monotoon (alsmaar dalend) is. Dan is de gewone (Pearson) correlatie misschien toch beter.
Gezien de omvang van de steekproef kan de (gewone) toets met de t-verdeling gebruikt worden voor de (Pearson) correlatie. Er is geen duidelijke voorkeur voor deze toets of de bootstraptoets.

d. Toets het verband tussen geslacht en mediawijsheid van de tieners met en zonder een permutatietoets. Bespreek de verschillen.

Geslacht is een dichotomie (nominaal meetniveau) en mediawijsheid is een ordinale variabele dus kunnen we alleen een toets op een kruistabel toepassen. Dan hebben we de 'gewone' chikwadraattoets en de permutatietoets als varianten (overigens is het ook mogelijk een bootstraptoets uit te voeren). Beide toetsen leveren een niet significant verband op, waarbij de gewone chikwadraattoets een iets lagere overschrijdingskans aangeeft (p = 0,356 tegenover p = 0,369 bij de exacte toets).
De gestandaardiseerde celresiduen zijn allemaal aanmerkelijk kleiner dan 2,0, wat er ook op wijst dat er geen verschillen zijn tussen jongens en meisjes wat betreft mediawijsheid in deze populatie.
Conclusie: "Er is geen significant verband tussen sekse en mediawijsheid, χ2 (2) = 2,07, p = 0,369 (exact). Met andere woorden, mediawijsheid is gelijkelijk verdeeld onder jongens en meisjes."

e. Een onderzoeker wil weten wat de mediaan is van de chattijd van tieners in de populatie. Bepaal en interpreteer het 95%-betrouwbaarheidsinterval van de mediaan.

Het 95%-betrouwbaarheidsinterval van de mediaan van deze variabele is [2,00; 3,00] bij 5000 bootstrapsteekproeven.
Interpretatie: "Met 95% zekerheid heeft de helft van alle Nederlandse tieners maximaal 2 tot 3 uur gechat in de afgelopen 7 dagen."

Syntax

*Oefening 6_1e.

*Opdracht a.
*Beschrijven van de variabelen.
FREQUENCIES VARIABLES=geslacht aandacht chatten mediawijs
  /STATISTICS=STDDEV MINIMUM MAXIMUM MEAN SKEWNESS SESKEW
  /HISTOGRAM NORMAL
  /ORDER=ANALYSIS.
*Missing maken van aandacht - 0.
* Define Variable Properties.
*aandacht.
MISSING VALUES aandacht(.00).
EXECUTE.

*Opdracht b.
*Gemiddelden van jongens en meisjes.
MEANS TABLES=chatten BY geslacht
  /CELLS MEAN COUNT STDDEV.
*Permutatietoets voor twee gemiddelden.
NPAR TESTS
  /M-W= chatten BY geslacht(0 1)
  /MISSING ANALYSIS
  /METHOD=EXACT TIMER(5).
*t-toets met bootstrap.
BOOTSTRAP
  /SAMPLING METHOD=SIMPLE
  /VARIABLES TARGET=chatten INPUT=geslacht
  /CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=5000
  /MISSING USERMISSING=EXCLUDE.
T-TEST GROUPS=geslacht(0 1)
  /MISSING=ANALYSIS
  /VARIABLES=chatten
  /CRITERIA=CI(.95).
*Box plots.
EXAMINE VARIABLES=chatten BY geslacht
  /PLOT=BOXPLOT
  /STATISTICS=NONE
  /NOTOTAL.

*Opdracht c.
*Spreidingsdiagram.
GRAPH
  /SCATTERPLOT(BIVAR)=aandacht WITH chatten
  /MISSING=LISTWISE.
*Correlaties met bootstrap.
BOOTSTRAP
  /SAMPLING METHOD=SIMPLE
  /VARIABLES INPUT=aandacht chatten
  /CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=5000
  /MISSING USERMISSING=EXCLUDE.
CORRELATIONS
  /VARIABLES=aandacht chatten
  /PRINT=TWOTAIL NOSIG
  /MISSING=PAIRWISE.
BOOTSTRAP
  /SAMPLING METHOD=SIMPLE
  /VARIABLES INPUT=aandacht chatten
  /CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=5000
  /MISSING USERMISSING=EXCLUDE.
NONPAR CORR
  /VARIABLES=aandacht chatten
  /PRINT=SPEARMAN TWOTAIL NOSIG
  /MISSING=PAIRWISE.

*Opdracht d.
*Toets op kruistabel met permutatietoets.
CROSSTABS
  /TABLES=geslacht BY mediawijs
  /FORMAT=AVALUE TABLES
  /STATISTICS=CHISQ PHI
  /CELLS=COUNT SRESID
  /COUNT ROUND CELL
  /METHOD=EXACT TIMER(5).

*Opdracht e.
*Betrouwbaarheidsinterval mediaan.
BOOTSTRAP
  /SAMPLING METHOD=SIMPLE
  /VARIABLES INPUT=chatten
  /CRITERIA CILEVEL=95 CITYPE=PERCENTILE NSAMPLES=5000
  /MISSING USERMISSING=EXCLUDE.
FREQUENCIES VARIABLES=chatten
  /FORMAT=NOTABLE
  /STATISTICS=MEDIAN
  /ORDER=ANALYSIS.