Antwoord bij rekenopgave 4.5

a. Voer een toets uit om de vraag van de onderzoeker te beantwoorden.

We hebben twee nominale variabelen waartussen we de samenhang willen toetsen: een chikwadraattoets is dan de aangewezen weg.

  1. Stap 1: Specificeer de hypothesen.
    H0: De campagne en het stoppen met roken zijn statistisch onafhankelijk in de populatie.
    H1: De campagne en het stoppen met roken zijn niet statistisch onafhankelijk in de populatie.
  2. Stap 2: Kies de kansverdeling.
    We gebruiken de chikwadraatverdeling.
  3. Stap 3: Bepaal de kritieke waarde en het verwerpingsgebied.
    Bepaal het aantal vrijheidsgraden. Het aantal vrijheidsgraden is (k - 1)(r - 1) = (3 - 1)(2 - 1) = 2 ∙ 1 = 2.
    Zoek de kritieke waarde van chikwadraat op in de significantietabel bij het gegeven of gekozen significantieniveau. Let op of de toets eenzijdig is of tweezijdig. Op een kruistabel (met meer dan 4 cellen) voeren we altijd een tweezijdige toets uit. Het significantieniveau kiezen we als 5%. De kritieke waarde van chikwadraat is dan volgens de tabel in Bijlage 4 van het boek van Van Peet et al. gelijk aan 5,99.
    Bepaal het verwerpingsgebied. Het verwerpingsgebied bestaat dan uit 5,99 en alle hogere waarden voor chikwadraat in de steekproef.
  4. Stap 4: Bereken de toetsingsgrootheid chikwadraat voor de steekproef.
    Bereken eerst de verwachte waarden in de cellen. In onderstaande tabel zijn ook de gestandaardiseerde celresiduen berekend.
      Geen campagne Campagne Oost Campagne Noord Totaal
    Gestopt met roken 18 14 33 65
    fe 23,4 19,5 22,1  
    zres -1,116 -1,246 2,319  
    Niet gestopt 54 46 35 135
    fe 48,6 40,5 45,9  
    zres 0,775 0,864 -1,609  
    Totaal 72 60 68 200

    Vul de formule voor chikwadraat in:
  5. Stap 5: Ga na of de berekende waarde van de toetsingsgrootheid in het verwerpingsgebied valt: De berekende chikwadraat (12,11) ligt in het verwerpingsgebied dus we verwerpen de nulhypothese dat de variabelen in de populatie statistisch onafhankelijk zijn.
We weten dat er een significante samenhang is tussen de twee variabelen, maar we moeten naar de gestandaardiseerde celresiduen kijken om te zien welke combinaties van waarden op beide variabelen significant veel of juist significant weinig voorkomen.
De gestandaardiseerde celresiduen mogen we interpreteren als z-scores, dus waarden tot en met -1,96 of vanaf 1,96 zijn significant op 5% tweezijdig. Alleen de combinatie 'Campagne Noord' en 'Gestopt met roken' is significant, z = 2,32, p < 0,05.
Op grond hiervan concluderen we dat er in de regio Noord meer gestopt werd met roken dan in de overige regio's. Alleen 'Campagne Noord' lijkt effect gehad te kunnen hebben op het stoppen met roken.

b. Welke kanttekeningen kun je plaatsen bij deze toets?

De verwachte waarden in de cellen van de kruistabel zijn hoog genoeg om de chikwadraattoets uit te voeren.
Je zou bedenkingen kunnen hebben bij de stilzwijgende aanname dat de jongeren een aselecte steekproef zijn. Wanneer er in de ene regio verhoudingsgewijs meer jongeren roken dan in een andere regio, heeft de rokende jongere uit de eerste regio een lagere kans om in de steekproef te komen, althans wanneer er uit elke regio evenveel jongeren getrokken zijn. Maar dit is niet echt een probleem, zolang je maar weet of kunt weten wat het verschil in kans is.
Wel kan het een probleem zijn dat de campagnes in verschillende regio's zijn gehouden en er daarom per regio een steekproef wordt getrokken. Misschien is er binnen een regio een specifieke cultuur tegenover roken of antirookcampagnes, waardoor de jongeren uit dezelfde regio niet als onafhankelijke waarnemingen beschouwd mogen worden. Zie het multiniveauprobleem in paragraaf 12.4.5 van het boek van Van Peet et al.