Antwoord bij rekenopgave 6.2e

a. Vermeld de nulhypothese en alternatieve hypothese van een enkelvoudige regressieanalyse met deze gegevens.

Bij een (enkelvoudige) regressieanalyse is de belangrijkste toets of de helling (b) in de populatie nul is. Zo ja, dan kun je met deze onafhankelijke variabele de afhankelijke variabele niet voorspellen.

H0: βadjectieven = 0; H1: βadjectieven ≠ 0 waarbij β de waarde van b in de populatie is.

Eventueel kun je ook de F-toets uitvoeren. De nulhypothese van de F-toets kan ook geformuleerd worden als H0: ρY.12...k = 0 met H1: ρY.12...k ≠ 0 (ρ is de Griekse letter rho en staat hier voor R in de populatie). We vinden het echter voldoende om de helling te toetsen (met een t-toets).

b. Voer de regressieanalyse uit en interpreteer de resultaten.

Er zijn diverse sommen en kwadratensommen nodig om alle onderdelen van de regressieanalyse uit te rekenen. Onderstaande tabel bevat ze allemaal.

Krantenbericht Adjectieven (X) Multiculti (Y) voor b voor sb voor R2
xy x2 ŷ y - ŷ (y - ŷ)2 y2
1 5 8 40 25 7,704 0,296 0,088 64
2 -3 2 -6 9 2,378 -0,378 0,143 4
3 8 9 72 64 9,701 -0,701 0,491 81
4 -5 1 -5 25 1,047 -0,047 0,002 1
5 0 5 0 0 4,375 0,625 0,390 25
6 1 6 6 1 5,041 0,959 0,920 36
7 -2 2 -4 4 3,044 -1,044 1,090 4
8 -1 4 -4 1 3,710 0,290 0,084 16
Som 3 37 99 129     3,208 231

Bereken eerst de regressielijn: b en a.

De regressielijn is dus Ŷ = a + b ∙ X = 4,375 + 0,666X

Nu gaan we de standaardfout van de regressiecoëfficiënt b berekenen. Daarvoor hebben we de kwadratensom van de residuen nodig: SSresidu = Σ(Y - Ŷ)2 .

We moeten dus eerste de geschatte waarden van Y berekenen voor elke respondent. Daarna kunnen we het verschil tussen de werkelijke waarde (Y) en de geschatte waarde (Ŷ) berekenen en kwadrateren. De som van deze gekwadrateerde verschillen is de residuele kwadratensom. Dit is in deze opgave 3,208 (zie bovenstaande tabel).

De kwadratensom van X kan berekend worden op grond van de tabel:

Nu kunnen we de formule voor de standaardfout invullen.

Nu we de standaardfout van de helling hebben, kunnen we de bijbehorende t-waarde makkelijk vinden. Bedenk dat de helling in de populatie (β) volgens de nulhypothese nul is.

De kritieke waarde van t bij N – 2 = 6 vrijheidsgraden, is 2,447 bij 5% significantieniveau (tweezijdig). De gevonden t waarde (10,246) is groter dan de kritieke waarde, dus het resultaat is significant.

Tenslotte hebben we voor R2 nog de som van de kwadraten van Y nodig. Daarmee kunnen we de totale kwadratensom uitrekenen:

Vul nu de formule voor R2 in:

Conclusie: "We kunnen het oordeel over de multiculturele samenleving voor 95% voorspellen op grond van een lineair regressiemodel met het aantal positieve adjectieven minus het aantal negatieve adjectieven als onafhankelijke variabele, b = 0,666, t = 10,25, p < 0,05. Elk extra positief adjectief verhoogt het geschatte oordeel met gemiddeld 0,67 punt op een schaal van 0 tot 10."

c. Standaardiseer de variabelen adjectieven en multiculti (dat wil zeggen, maak z-scores van deze variabelen) en bereken opnieuw de helling van de regressielijn. Interpreteer het resultaat.

Z-scores berekenen we met de formule:

We moeten dus het gemiddelde en de standaarddeviatie van elk van beide variabelen eerst berekenen. Het gemiddelde berekenen we eenvoudig door de som van X en Y te delen door het aantal waarnemingen (8). De standaarddeviaties berekenen we met de totalen uit de tabel:

Nu kunnen we de z-waarden uitrekenen voor beide variabelen (zie onderstaande tabel). Als we die eenmaal hebben, moeten we met die z-waarden de formule van b invullen. Daarvoor hebben we nieuwe kwadratensommen nodig: Z(X), Z(Y) en Z(X)2.

Krantenbericht Adjectieven (X) Multiculti (Y) zX zY zXzY zX2
1 5 8 1,082 1,154 1,249 1,171
2 -3 2 -0,790 -0,897 0,709 0,624
3 8 9 1,784 1,496 2,668 3,183
4 -5 1 -1,258 -1,239 1,559 1,582
5 0 5 -0,088 0,128 -0,011 0,008
6 1 6 0,146 0,470 0,069 0,021
7 -2 2 -0,556 -0,897 0,499 0,309
8 -1 4 -0,322 -0,214 0,069 0,103
Som 3 37 0 0 6,809 7,000
Gemiddelde 0,375 4,625        
S 4,274 2,925        

Vul nu ZX in voor X, ZY voor Y, ZXZY voor XY en ZX2 voor X2, in de formule voor de regressiecoëfficiënt.

Interpretatie: "Er is een zeer sterk positief verband tussen de adjectieven in het krantenbericht en de evaluatie van de multiculturele samenleving in het bericht (b* = 0,97)."

d. Bereken de (Pearson) correlatiecoëfficiënt tussen adjectieven en multiculti. Vergelijk deze met de helling die je bij c hebt berekend. Wat valt je op?

We hebben alle onderdelen al in een van de voorgaande tabellen staan, dus kunnen we de formule voor de correlatiecoëfficiënt direct invullen.

De correlatie is dus precies gelijk aan de helling wanneer je met gestandaardiseerde variabelen werkt in een enkelvoudige regressieanalyse. Dat geldt altijd. De helling met gestandaardiseerde variabelen is de beta regressiecoëfficiënt (b*).
De gestandaardiseerde regressiecoëfficiënt is altijd gelijk aan de correlatiecoëfficiënt in een enkelvoudige regressieanalyse. Dit geldt niet in een meervoudige regressieanalyse omdat b* daarin het partiële effect (of de partiële samenhang) weergeeft tussen een onafhankelijke en een afhankelijke variabele terwijl je controleert voor de overige onafhankelijke variabelen.