Antwoord

Antwoord bij rekenopgave 6.1e

a. Voer handmatig een enkelvoudige regressieanalyse uit, compleet met de t-toets voor de regressiecoëfficiënt b en de berekening van het 95% betrouwbaarheidsinterval en R². Gebruik de vaste stappen voor het uitvoeren van de toets en interpreteer de uitkomsten.

Stap 1: Specificeer de hypothesen.
H₀: β = 0 .
H₁: β ≠ 0 .
Stap 2: Kies de kansverdeling.
Voor de toets op een regressiecoëfficiënt gebruiken we de t-verdeling.
Stap 3: Bepaal de kritieke waarde en het verwerpingsgebied.
Het aantal vrijheidsgraden bij de toets op een regressiecoëfficiënt is gelijk aan N - k - 1 = 10 - 1 - 1 = 8.
Zoek de kritieke waarde van t op in de significantietabel bij het gegeven of gekozen significantieniveau. Bij een tweezijdige toets met 5% significantieniveau en 8 vrijheidsgraden is de rechter kritieke waarde van t 2,306. De linker kritieke waarde is dan -2,306.
Het verwerpingsgebied bevat alle t-waarden onder of gelijk aan -2,306 en 2,306 of hoger.

Stap 4: Bereken de toetsingsgrootheid t voor de steekproef.
Dit bestaat uit een groot aantal stappen.

Om te beginnen moeten we b en vervolgens a van de regressievergelijking uitrekenen. Daarvoor hebben we diverse sommen en kwadratensommen nodig, die in onderstaande tabel zijn aangevuld.
Ook zijn hier extra kolommen gemaakt voor residuen (nodig voor de standaardfout van b) en voor de kwadraten van de afhankelijke variabele (nodig voor R²).

Respondent Logo (X) Tijd (Y) voor b voor s_b voor R²
xy x² ŷ y - ŷ (y - ŷ)² y²

1 3 2,2 6,6 9 2,063 0,137 0,019 4,84

2 5 1,4 7 25 1,397 0,003 0,000 1,96

3 2 2,2 4,4 4 2,397 -0,197 0,039 4,84

4 5 1,2 6 25 1,397 -0,197 0,039 1,44

5 1 2,9 2,9 1 2,730 0,170 0,029 8,41

6 4 1,7 6,8 16 1,730 -0,030 0,001 2,89

7 3 1,5 4,5 9 2,063 -0,563 0,317 2,25

8 5 1,8 9 25 1,397 0,403 0,162 3,24

9 2 2,7 5,4 4 2,397 0,303 0,092 7,29

10 1 2,7 2,7 1 2,730 -0,030 0,001 7,29

Som 31 20,3 55,3 119 0,699 44,450

We kunnen nu formules invullen.

De regressielijn is dus Ŷ = a + b ∙ X = 3,062 - 0,333X.

Nu gaan we de standaardfout van de regressiecoëfficiënt b berekenen. Daarvoor hebben we de kwadratensom van de residuen nodig: SS_residu = Σ(Y - Ŷ)² .

We moeten dus eerst de geschatte waarden van Y berekenen voor elke respondent. Daarna kunnen we het verschil tussen de werkelijke waarde (y) en de geschatte waarde (ŷ) berekenen en kwadrateren. De som van deze gekwadrateerde verschillen is de residuele kwadratensom.
Voorbeeld voor respondent 1:

Ŷ = a + b ∙ X = 3,062 - 0,333X = 3,062 - 0,333 ∙ 3 = 3,062 - 0,999 = 2,063 .

Vervolgens hebben we de kwadratensom van X nodig. De tussenresultaten ΣX² en ΣX staan al in de tabel.

Nu kunnen we de formule voor de standaardfout invullen.

Nu we de standaardfout van de helling hebben, kunnen we de bijbehorende t-waarde makkelijk vinden. Bedenk dat de helling in de populatie (β₁) volgens de nulhypothese nul is.

De gevonden t waarde (-5,371) ligt in het linker kritieke gebied, dus het resultaat is significant.

Het betrouwbaarheidsinterval wordt nu als volgt berekend:
b_i - t_krit ∙ s_{b_i} ≤ β ≤ b_i + t_krit ∙ s_{b_i} dus
-0,333 - 2,306 ∙ 0,062 ≤ β ≤ -0,333 + 2,306 ∙ 0,062 dus
-0,333 - 0,143 ≤ β ≤ -0,333 + 0,143 dus
-0,476 ≤ β ≤ -0,190

Tenslotte hebben we voor R² nog de som van de kwadraten van Y nodig. Daarmee kunnen we de totale kwadratensom uitrekenen:

Vul nu de formule voor R² in, waarbij je je moet realiseren dat de kwadratensom van de regressie gelijk is aan de totale kwadratensom van Y min de kwadratensom van de fouten (residuen):

Stap 5: Ga na of de berekende waarde van de toetsingsgrootheid in het verwerpingsgebied valt:
- a. zo ja, nulhypothese verwerpen en alternatieve hypothese accepteren,
- b. zo niet, nulhypothese accepteren.

Conclusie: "We kunnen de herkenningstijd voor 78% voorspellen op grond van een lineair regressiemodel met het aantal keren dat het bedrijfslogo in beeld is geweest als onafhankelijke variabele, b = -0,333, t = -5,37, p < 0,05, 95% CI [-0,48, -0,19]. Elke extra keer dat het bedrijfslogo in beeld is geweest, verlaagt de herkenningstijd met gemiddeld 0,33 (of: 0,19 tot 0,48) milliseconde."

b. Bereken en interpreteer de gestandaardiseerde regressiecoëfficiënt.

Voor de berekening van de gestandaardiseerde regressiecoëfficiënt hebben we de geschatte standaarddeviatie van X en Y nodig. De daarvoor benodigde tussenuitkomsten staan allemaal in de tabel.

De totale kwadratensom SS_Y, die we eerder uitgerekend hebben, kunnen we direct invullen als teller in de formule voor de standaardafwijking van Y:

De gestandaardiseerde regressiecoëfficiënt wordt dan:

Conclusie: "Er is een sterk, negatief effect van het aantal malen dat men het logo ziet op herkenningstijd, b* = -0,89."

Respondent	Logo (X)	Tijd (Y)	voor b		voor s_b			voor R²
Respondent	Logo (X)	Tijd (Y)	xy	x²	ŷ	y - ŷ	(y - ŷ)²	y²
1	3	2,2	6,6	9	2,063	0,137	0,019	4,84
2	5	1,4	7	25	1,397	0,003	0,000	1,96
3	2	2,2	4,4	4	2,397	-0,197	0,039	4,84
4	5	1,2	6	25	1,397	-0,197	0,039	1,44
5	1	2,9	2,9	1	2,730	0,170	0,029	8,41
6	4	1,7	6,8	16	1,730	-0,030	0,001	2,89
7	3	1,5	4,5	9	2,063	-0,563	0,317	2,25
8	5	1,8	9	25	1,397	0,403	0,162	3,24
9	2	2,7	5,4	4	2,397	0,303	0,092	7,29
10	1	2,7	2,7	1	2,730	-0,030	0,001	7,29
Som	31	20,3	55,3	119			0,699	44,450