Antwoord bij Oefening 4.6

a. Voer een toets uit om een antwoord te geven op de vraag van de onderzoeker. Vermeld de statistische hypothesen en interpreteer de resultaten zoals voorgeschreven bij het vak IS.

Beschrijf eerst de variabele, dan zie je dat er een categorie respondenten voorkomt die geen voorkeur heeft voor een van de vier zenders (code 0). Deze groep moet buiten beschouwing gelaten worden.
De onderzoeker vraagt zich af of alle vier de zenders in de populatie van alle Nederlanders (vanaf 6 jaar oud) even populair zijn, d.w.z. dat zij even vaak als meest populaire zender worden gekozen. Als dat zo is, dan hebben de zenders dezelfde proporties in de populatie: H0: πRTL5 = πRTL7 = πNet5 = πVeronica .
De alternatieve hypothese is dan dat minstens twee zenders in de populatie niet even vaak voorkomen als voorkeurszender. Het is omslachtig om dit met wiskundige symbolen aan te geven.

Om de nulhypothese te toetsen moet er een chikwadraattoets op één variabele (met 4 categorieën) uitgevoerd worden waarbij eenvoudigweg het vakje 'All categories equal' aangevinkt kan worden onder 'Expected Values'. SPSS levert de onderstaande output op.

Favoriete kleine commerciele zender
  Observed N Expected N Residual
RTL5 32 58,5 -26,5
RTL7 91 58,5 32,5
Net5 78 58,5 19,5
Veronica 33 58,5 -25,5
Total 234    

Test Statistics
  Favoriete kleine commerciele zender
Chi-Square 47,675a
df 3
Asymp. Sig. ,000
a. 0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is 58,5.

De toets is significant, χ2(3) = 47,68, p < 0,001. We verwerpen dus de nulhypothese dat de vier zenders in de populatie van kijkers even populair zijn. Uit de bovenstaande tabel kunnen we zien dat RTL7 en Net5 populairder zijn, terwijl RTL5 en Veronica minder populair zijn dan verwacht.

b. Hangt de favoriete kleine commerciële zender samen met het geslacht en de leeftijd van de respondent? Vermeld ook hier de statistische hypothesen.

We moeten hier nagaan of er in de populatie een samenhang is tussen telkens twee categorische variabelen: aan de ene kant welke zender favoriet is en aan de andere kant geslacht of leeftijd (leeftijd is hier in klassen van ongelijke breedte gemeten). Hiervoor hebben we een chikwadraattoets nodig, waarvoor de nulhypothese luidt dat de variabelen in de populatie statistisch onafhankelijk zijn.
Controleer eerst de geslacht en leeftijd variabelen: er zijn geen vreemde zaken.
Het is waarschijnlijk verstandig om de respondenten zonder voorkeur voor een van de vier zenders buiten beschouwing te laten, maar dit is niet strikt noodzakelijk. Je kunt er ook in geïnteresseerd zijn of de respondenten zonder voorkeur opvallende kenmerken hebben.

De chikwadraattoets op het verband tussen geslacht en voorkeurszender is significant, χ2(3) = 26,35, p < 0,001. Het verband is zwak (Goodman en Kruskal's tau = 0,05) en de gestandaardiseerde celresiduen laten zien dat RTL5 populairder is onder vrouwen dan onder mannen terwijl het omgekeerde geldt voor RTL7.

De chikwadraattoets op het verband tussen leeftijd en voorkeurszender levert een probleem op omdat 6 cellen (30%) een verwachte waarde lager dan 5 hebben en twee cellen zelfs een verwachte waarde lager dan 1 hebben. We mogen de chikwadraattoets hier niet gebruiken.
We kunnen het probleem oplossen door de twee leeftijdscategorieën samen te voegen waar de verwachte frequenties te laag zijn: 30-65 jaar en 65 jaar en ouder. Wanneer we dit doen, krijgen we een significant resultaat, χ2(9) = 40,29, p < 0,001. Het verband is weer zwak (Goodman en Kruskal's tau = 0,07): RTL7 wordt relatief vaak genoemd door de oudsten maar weinig vaak door de jongsten, terwijl Net5 weinig favoriet is onder de oudsten en Veronica relatief vaak als favoriet genoemd wordt door de jongsten (zie de gestandaardiseerde celresiduen in onderstaande tabel).

Favoriete kleine commerciele zender * Leeftijd in 4 klassen Crosstabulation
  Leeftijd in 4 klassen Total
6-12 jaar 13-18 jaar 20-29 jaar 30 en ouder
Favoriete kleine commerciele zender RTL5 Count 11 13 6 2 32
Expected Count 8,9 13,4 6,0 3,7 32,0
Std. Residual ,7 -,1 ,0 -,9  
RTL7 Count 10 39 22 20 91
Expected Count 25,3 38,1 17,1 10,5 91,0
Std. Residual -3,0 ,1 1,2 2,9  
Net5 Count 27 39 9 3 78
Expected Count 21,7 32,7 14,7 9,0 78,0
Std. Residual 1,1 1,1 -1,5 -2,0  
Veronica Count 17 7 7 2 33
Expected Count 9,2 13,8 6,2 3,8 33,0
Std. Residual 2,6 -1,8 ,3 -,9  
Total Count 65 98 44 27 234
Expected Count 65,0 98,0 44,0 27,0 234,0

NB een asymmetrische associatiemaat is hier gewenst omdat geslacht en leeftijd niet beïnvloed kunnen worden door de keuze van je favoriete zender.

Een andere oplossing voor het probleem van de te lage verwachte celwaarden is het uitvoeren van een Fisher-exact toets. Bij het commando voor de kruistabel moet je dan ook onder EXACT de optie 'Exact' aanvinken. Maar pas op, bij deze kruistabel kost het je computer al heel veel tijd (en geheugenruimte) om de Fisher-exact toets uit te rekenen.

c. Kloppen de verwachte waarde en het gestandaardiseerd celresidu wel in de output van SPSS bij de combinatie van 6-12 jarigen en Veronica als favoriete 'kleine' commerciële omroep? Reken dit na.

De verwachte waarde kun je makkelijk uitrekenen op grond van het kolomtotaal (randtotaal A = 65), het rijtotaal (randtotaal B = 33) en het totaal van de hele tabel (N = 234): fe = (randtotaal A ∙ randtotaal B) / N = (65 ∙ 33) / 234 = 9,167 . Dit is inderdaad afgerond 9,2 zoals in de SPSS output staat.
Het gestandaardiseerd celresidu berekenen we dan als volgt:

Dit is afgerond 2,6 zoals in de SPSS output staat.
Deze getallen kloppen dus in de SPSS output.

d. Hangt het aantal uren dat men naar een van deze zenders kijkt samen met de leeftijd van de respondent?

Omdat de voorkeur voor een van de vier zenders er nu niet toe doet, is er geen reden om de respondenten zonder voorkeur verder buiten beschouwing te laten. Zorg dat ze weer meegerekend worden.
Ga eerst na of de variabele kijktijd geen onmogelijke waarden heeft. Dit is niet het geval.
De leeftijd variabele op ordinaal niveau gemeten is. De eenvoudigste toets is dan een toets op de rangcorrelatie. Die blijkt significant (p = 0,037) en negatief maar zwak (rho = -0,12): oudere respondenten kijken iets minder uur naar deze vier zenders.
Een alternatief is om de kijktijd in groepen te verdelen en dan een chikwadraattoets uit te voeren op een kruistabel met leeftijd en de gegroepeerde kijktijd. Een asymmetrische associatiemaat op ordinaal niveau (Somer's d) geeft dan een indruk van de sterkte van het verband. De precieze uitkomsten hangen af van de manier waarop je de kijktijd in groepen indeelt.

Syntax

*Syntax oefening 4_6.

*Opgave a.
*Beschrijven variabele.
FREQUENCIES VARIABLES=FavComm
  /ORDER=ANALYSIS.
*Weglaten mensen zonder voorkeur.
USE ALL.
COMPUTE filter_$=(FavComm > 0).
VARIABLE LABEL filter_$ 'FavComm > 0 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE.
*chikwadraattoets op gelijke proporties in de populatie.
NPAR TESTS
  /CHISQUARE=FavComm
  /EXPECTED=EQUAL
  /MISSING ANALYSIS.

*Opgave b.
*Beschrijf de variabelen.
FREQUENCIES VARIABLES=Geslacht Leeftijd
  /ORDER=ANALYSIS.
*chikwadraattoets op kruistabel Geslacht * Voorkeursomroep.
CROSSTABS
  /TABLES=FavComm BY Geslacht
  /FORMAT=AVALUE TABLES
  /STATISTICS=CHISQ LAMBDA
  /CELLS=COUNT EXPECTED SRESID
  /COUNT ROUND CELL.
*chikwadraattoets op kruistabel Leeftijd * Voorkeursomroep.
CROSSTABS
  /TABLES=FavComm BY Leeftijd
  /FORMAT=AVALUE TABLES
  /STATISTICS=CHISQ LAMBDA
  /CELLS=COUNT EXPECTED SRESID
  /COUNT ROUND CELL.
*Samenvoegen van de leeftijdcategorieen 30-64 en 65+.
RECODE Leeftijd (4 thru 5=4) (ELSE=Copy) INTO Leeft4.
VARIABLE LABELS Leeft4 'Leeftijd in 4 klassen'.
EXECUTE.
*Value labels veranderen.
* Define Variable Properties.
*Leeft4.
VALUE LABELS Leeft4
  1 '6-12 jaar'
  2 '13-18 jaar'
  3 '20-29 jaar'
  4 '30 en ouder'.
EXECUTE.
*chikwadraattoets op kruistabel Leeft4 * Voorkeursomroep.
CROSSTABS
  /TABLES=FavComm BY Leeft4
  /FORMAT=AVALUE TABLES
  /STATISTICS=CHISQ LAMBDA
  /CELLS=COUNT EXPECTED SRESID
  /COUNT ROUND CELL.
*Fisher-exacttoets op (oorspronkelijke) kruistabel Geslacht * Voorkeursomroep.
*LET OP: dit kan erg veel computertijd kosten.
CROSSTABS
  /TABLES=FavComm BY Leeftijd
  /FORMAT=AVALUE TABLES
  /STATISTICS=CHISQ LAMBDA
  /CELLS=COUNT EXPECTED SRESID
  /COUNT ROUND CELL
  /METHOD=EXACT TIMER(5).

*Opgave d.
*Meenemen respondenten zonder voorkeur voor 1 van de 4 omroepen.
FILTER OFF.
USE ALL.
EXECUTE.
*Beschrijf de variabele Kijktijd.
FREQUENCIES VARIABLES=Kijktijd.
  /ORDER=ANALYSIS.
*Toets op de rangcorrelatie.
NONPAR CORR
  /VARIABLES=Leeftijd Kijktijd
  /PRINT=SPEARMAN TWOTAIL NOSIG
  /MISSING=PAIRWISE.