Antwoord bij rekenopgave 6.2

a. Vul de tabellen aan, bereken R2 en interpreteer de resultaten.

De gegevens voor de F-toets kunnen eenvoudig aangevuld worden wanneer je je realiseert dat er vijf onafhankelijke variabelen zijn (k = 5). Elke dummyvariabele telt namelijk als een onafhankelijke variabele.
N = dftotaal + 1 = 80.
SSregressie = SSY - SSresidu = 16,438 – 10,041 = 6,397.
De gemiddelde kwadraten krijg je door de kwadratensom te delen door het aantal vrijheidsgraden.
F is MSregressie / MSresidu = 1,279 / 0,136 = 9,404.
De kritieke waarde van F op 5% significantieniveau met 5, 74 vrijheidsgraden is ongeveer 2,3. Het regressiemodel is hier dus significant.

  Sum of Squares df Mean Square F Sig.
Regression 6,397 5 1,279 9,404 < 0,05
Residual 10,041 74 0,136    
Total 16,438 79      

R2 kunnen we nu ook uitrekenen.

Om te toetsen of elk van de afzonderlijke effecten significant is, met andere woorden of we ervan uit mogen gaan dat de onafhankelijke variabele ook in de populatie de afhankelijke variabele helpt te voorspellen, moeten we een t-toets uitvoeren voor elke regressiecoëfficiënt (b).
De formule voor de t-waarde is eenvoudig onder de nulhypothese dat de regressiecoëfficiënt in de populatie (β1) nul is: deel de waarde van b door diens standaardfout.
De kritieke t-waarde is 1,993 bij een tweezijdige toets met α = 5% en df = N - k - 1 = 80 - 5 - 1 = 74 vrijheidsgraden. Het verwerpingsgebied is dus t < -1,993 of t > 1,993.
Het 95% betrouwbaarheidsinterval krijg je door de waarde van de regressiecoëfficiënt b te nemen en daar de kritieke t-waarde maal de standaardfout van af te trekken voor de odnergrens en dit produkt erbij op te tellen voor de bovengrens. Bijvoorbeeld:

Onderstaande tabel toont de berekende t-waarden, de 95% betrouwbaarheidsintervallen en hun significantie. Het effect van geslacht (variabele Jongen) is net niet significant op 5%.

Coefficientsa
  Unstandardized Coefficients Standardized Coefficients t Sig. 95,0% Confidence Interval for B
B Std. Error Beta Lower Bound Upper Bound
(Constant) 1,673 0,598 -- 2,798 < 0,05 0,489 2,857
Leeftijd 0,076 0,041 0,034 1,854 n.s. -0,006 0,158
Jongen 1,053 0,529 0,195 1,991 n.s. -0,001 2,107
Internettijd 0,520 0,111 0,240 4,685 < 0,05 0,299 0,741
VMBO 0,622 0,160 0,223 3,888 < 0,05 0,303 0,941
HAVO 0,433 0,294 0,098 1,473 n.s. -0,153 1,019

Tenslotte moet voor de beide interval/ratio predictoren (Leeftijd en Internettijd) nog de gestandaardiseerde regressiecoëfficiënt (b*) uitgerekend worden. Dit is betrekkelijk eenvoudig wanneer je je realiseert dat de gegeven varianties de kwadraten zijn van de standaarddeviaties die je nodig hebt.

Conclusie: "Met een meervoudig lineair regressiemodel kunnen we 38,9% voorspellen van de verschillen tussen leerlingen wat betreft het aantal uren dat zij computergames doen, F (5, 74) = 9,40, p < 0,05. Een uur extra internettijd levert als partieel effect gemiddeld 0,52 uur extra gamen op, b = 0,52, t = 4,69, p < 0,05, 95% CI [0,30, 0,74]: de leerlingen die veel tijd aan internet besteden, spelen ook lang computergames. Tenslotte blijken VMBO leerlingen gemiddeld 0,62 uur meer computergames te spelen dan VWO leerlingen, b = 0,62, t = 3,89, p < 0,05, 95% CI [0,30, 0,94], wanneer we de overige voorspellers constant houden. Er blijkt geen significant verschil te zijn tussen HAVO en VWO leerlingen wanneer we rekening houden met de overige onafhankelijke variabelen. Ook sekse en leeftijd blijkt er niet toe te doen wanneer we controleren voor opleiding en internettijd."

NB de toets op de constante (het intercept) interpreteren we normaliter niet omdat we meestal geen reden hebben om te veronderstellen dat het intercept 0 is in de populatie. Het intercept geeft de voorspelde waarde van de afhankelijke variabele wanneer alle onafhankelijke variabelen de waarde 0 hebben. In dit voorbeeld gaat het dan om een meisje van nul jaar dat niet internet maar wel VWO heeft gedaan. Dit is een onzinnige situatie die nooit voor zal komen in de werkelijkheid. Hier is een toets van de nulhypothese dat het intercept in de populatie 0 is, dus flauwekul.

b. Bereken de geschatte tijd die Jasmine besteedt aan computergames. Jasmine is een meisje van 15 jaar, die HAVO doet en over het algemeen 1,5 uur internet per dag. Jasmine zat in de steekproef.

Om de voorspelde gametijd te krijgen moeten we de regressievergelijking invullen. Wanneer we alle onafhankelijke variabelen meenemen, krijgen we een optimale voorspelling binnen de steekproef aangezien de regressievergelijking (via de kleinste kwadratenmethode) de lijn heeft gezocht die zo goed mogelijk past bij de waarnemingen binnen de steekproef. Anders gezegd, omdat Jasmine in de steekproef zat, hoeven we niet naar de populatie te generaliseren en kunnen we de significantie van effecten buiten beschouwing laten.
Vul voor de dichotomieën de juiste waarde in: 0 of 1.
De voorspelling wordt dan:

Ŷ = a + b1X1 + b2X2 + b3X3 + b4X4 + b5X5 = Constante + 0,076 ∙ Leeftijd + 1,053 ∙ Jongen + 0,520 ∙ Internettijd + 0,622 ∙ VMBO + 0,433 ∙ HAVO = 1,673 + 0,076 ∙ 15 + 1,053 ∙ 0 + 0,520 ∙ 1,5 + 0,622 ∙ 0 + 0,433 ∙ 1 = 1,673 + 1,140 + 0 + 0,780 + 0 + 0,433 = 4,026 .

Het regressiemodel voorspelt dat Jasmine ongeveer 4 uur besteedt aan computergames.

c. Bereken ook de geschatte tijd voor Peter, een 18-jarige VWO-er die dagelijks 2 uur op het internet zit. Peter zat niet in de steekproef.

Peter zit niet in de steekproef dus moeten we generaliseren naar de populatie. We gaan ervan uit dat Peter onderdeel is van de populatie waaruit de steekproef is getrokken. Dan gebruiken we alleen de predictoren met een significant effect.

Ŷ = a + b1X1 + b2X2 = Constante + 0,520 ∙ Internettijd + 0,622 ∙ VMBO = 1,673 + 0,520 ∙ 2 + 0,622 ∙ 0 = 1,673 + 1,04 + 0 = 2,713 .

Peter besteedt naar schatting dagelijks 2,7 uur aan computergames.