Antwoord bij oefening 3.6

a. Toets of de twee codeurs tot hetzelfde gemiddelde oordeel komen over de kwetsendheid van de posts. Vermeld de statistische hypothesen.

Controleer eerst de twee variabelen: Kwets2 heeft de waarde '99' die als missing moet worden aangemerkt.

De twee codeurs meten hetzelfde, namelijk de mate waarin de blog kwetst. Je kunt dit dus als herhaalde metingen zien. Een t-toets op gepaarde waarnemingen is dan de juiste techniek om de vraag te beantwoorden.
Er zijn 175 (gepaarde) waarnemingen dus mag de t-toets ook toegepast worden wanneer de variabelen in de populatie niet normaal verdeeld zijn. We hoeven de vorm van de verdeling dus niet te controleren.
De resultaten staan hieronder.

Paired Samples Statistics
  Mean N Std. Deviation Std. Error Mean
Pair 1 Kwets1 6,69 174 1,925 ,146
Kwets2 6,67 174 1,948 ,148

Paired Samples Correlations
  N Correlation Sig.
Pair 1 Kwets1 & Kwets2 174 ,955 ,000

Paired Samples Test
  Paired Differences t df Sig. (2-tailed)
Mean Std. Deviation Std. Error Mean 95% Confidence Interval of the Difference
Lower Upper
Pair 1 Kwets1 - Kwets2 ,017 ,584 ,044 -,070 ,105 ,390 173 ,697

Conclusie: Er is geen significant verschil in de gemiddelde score voor kwetsendheid die codeur 1 (M = 6,69, SD = 1,93) en codeur 2 (M = 6,67, SD = 1,95) aan de blogs hebben gegeven, t (173) = 0,39; p = 0,697; 95% CI[-0,07, 0,11]. De twee codeurs komen dus tot hetzelfde gemiddelde oordeel.

b. Toets of de blogs over politici kwetsender zijn dan de blogs over bekende Nederlanders. Gebruik de gemiddelde score voor de twee codeurs als de schaalvariabele.

Controleer eerst de variabele die de blogs naar onderwerp indeelt. De score '5' komt eenmaal voor terwijl hiervoor geen label is gegeven. Deze waarde kan beter als invoerfout beschouwd worden en dus als missing. NB de waarde '9' is een echte categorie, waarin de overige onderwerpen zitten. Deze categorie moet niet als missing aangemerkt worden.

Bereken nu de 'schaalvariabele': het gemiddelde oordeel over de kwetsendheid van een blog van de twee codeurs.

Voer tenslotte een t-toets uit op de gemiddelden van de groep blogs met het onderwerp politici (categorie 1) en de groep blogs met als onderwerp bekende Nederlanders (categorie 2). Je kunt deze twee groepen bij de t-toets selecteren dus je hoeft niet eerst SELECT CASES uit te voeren.

Group Statistics
  Onderwerp N Mean Std. Deviation Std. Error Mean
Kwets 1 politici 48 6,6979 2,29184 ,33080
2 bekende Nederlanders 38 6,7895 1,53179 ,24849

Independent Samples Test
  Levene's Test for Equality of Variances t-test for Equality of Means
    95% Confidence Interval of the Difference
F Sig. t df Sig. (2-tailed) Mean Difference Std. Error Difference Lower Upper
Kwets Equal variances assumed 2,536 ,115 -,212 84 ,833 -,09156 ,43278 -,95218 ,76907
Equal variances not assumed     -,221 81,887 ,825 -,09156 ,41373 -,91462 ,73151

Merk op dat beide groepen meer dan 30 waarnemingen bevatten. Dan mogen we een t-toets uitvoeren, zelfs wanneer de variabele in de populaties niet normaal verdeeld is. We hoeven de vorm van de verdeling dus niet te controleren. We kijken naar de bovenste regel (Equal variances assumed), aangezien de F niet significant is, F = 2,54, p = 0,115. We kunnen er dus van uitgaan dat de varianties van politici en bekende Nederlanders met 95% zekerheid gelijk zijn.

Conclusie: Blogs over politici zijn even kwetsend (M = 6,70, SD = 2,29) als blogs over bekende Nederlanders (M = 6,79, SD = 1,53), t (84) = -0,21; p = 0,833; CI [-0,95, 0,77]. In de populatie ligt het verschil met 95% zekerheid tussen -0,95 en 0,77.

c. Toets of de blogs over het koningshuis minder kwetsend zijn dan de rest van de blogs. Gebruik weer de gemiddelde score voor de twee codeurs.

Je moet nu blogs over het koningshuis vergelijken met alle andere blogs. De andere blogs moeten daarvoor eerst samengevoegd worden in één groep, bijvoorbeeld met RECODE.
Wanneer dit gedaan is, kan de t-toets uitgevoerd worden.

Group Statistics
  OnderCat N Mean Std. Deviation Std. Error Mean
Kwets 1,00 00 'Koningshuis' 14 4,8929 2,10474 ,56252
2,00 00 'Andere onderwerpen' 161 6,8509 1,82418 ,14377

Independent Samples Test
  Levene's Test for Equality of Variances t-test for Equality of Means
    95% Confidence Interval of the Difference
F Sig. t df Sig. (2-tailed) Mean Difference Std. Error Difference Lower Upper
Kwets Equal variances assumed ,869 ,352 -3,805 173 ,000 -1,95807 ,51458 -2,97373 -,94242
Equal variances not assumed     -3,373 14,749 ,004 -1,95807 ,58060 -3,19743 -,71872

We vinden een significant verschil, maar mogen we de t-toets hier wel toepassen? Er zijn maar 14 blogs over het koningshuis. Als een groep 30 of minder waarnemingen bevat, mag de t-toets alleen gebruikt worden wanneer de numerieke variabele in de populatie normaal verdeeld is. Is dat zo?
Een beschrijving van de verdeling in de steekproef geeft te denken: de verdeling is erg scheef (skewness = -1,14) en er zijn duidelijk meer lage scores dan een normaalverdeling zou verwachten (zie onderstaand histogram). We moeten dus kanttekeningen plaatsen bij het gebruik van de t-toets hier. Aangezien we (nog) geen alternatieve toets hebben, interpreteren we het resultaat toch.
Conclusie: Blogs over het koningshuis zijn significant minder kwetsend (M = 4,89, SD = 2,10) dan de overige blogs (M = 6,85, SD = 1,82), t (173) = -3,81; p < 0,001; 95% CI [-2,97, -0,94]; d = 1,06. Met 95% zekerheid kunnen we concluderen dat blogs over het konmingshuis 1 tot 3 punten lager scoren op de schaal voor kwetsendheid die loopt van 1 (niet kwetsend) tot 9 (extreem kwetsend). Dit verschil is zeer relevant, want het effect is (zeer) groot. We moeten echter een kanttekening maken bij dit resultaat: het is de vraag of de verdeling van de scores voor blogs over het koningshuis normaal verdeeld zijn. Hieronder vind je de handmatige berekeningen die gebruikt zijn om de effectgrootte te bepalen:


en

Syntax

*Syntax oefening 3.6.

*Vraag a.
*Controle variabelen: missings definieren.
* Define Variable Properties.
*Kwets2.
MISSING VALUES Kwets2(99).
EXECUTE.
*t-toets.
T-TEST PAIRS=Kwets1 WITH Kwets2 (PAIRED)
  /CRITERIA=CI(.9500)
  /MISSING=ANALYSIS.

*Vraag b.
*Controle variabele: missings definieren.
* Define Variable Properties.
*Onderwerp.
MISSING VALUES Onderwerp(5).
EXECUTE.
*Berekenen van de 'schaalvariabele'.
COMPUTE Kwets = MEAN(Kwets1, Kwets2).
EXECUTE.
*Uitvoeren van de t-toets.
T-TEST GROUPS=Onderwerp(1 2)
  /MISSING=ANALYSIS
  /VARIABLES=Kwets
  /CRITERIA=CI(.95).

*Vraag c.
*Hercoderen van de groepen.
RECODE Onderwerp (3=1) (ELSE=2) INTO OnderCat.
VARIABLE LABELS  OnderCat 'Tweedeling onderwerpen: koningshuis vs. de rest'.
EXECUTE.
* Define Variable Properties.
*OnderCat.
VALUE LABELS OnderCat
  1,00 'Koningshuis'
  2,00 'Andere onderwerpen'.
EXECUTE.
*t-toets.
T-TEST GROUPS=OnderCat(1 2)
  /MISSING=ANALYSIS
  /VARIABLES=Kwets
  /CRITERIA=CI(.95).
*Beschrijving van de verdeling van Kwets in de steekproef.
*Histogram met normaalverdeling en skewness.
FREQUENCIES VARIABLES=Kwets
  /FORMAT=NOTABLE
  /STATISTICS=SKEWNESS SESKEW
  /HISTOGRAM NORMAL
  /ORDER=ANALYSIS.