a. Voer handmatig een enkelvoudige regressieanalyse uit, compleet met de t-toets voor de regressiecoëfficiënt b en de berekening van het 95% betrouwbaarheidsinterval en R2. Gebruik de vaste stappen voor het uitvoeren van de toets en interpreteer de uitkomsten.
Om te beginnen moeten we b en vervolgens a van de regressievergelijking uitrekenen. Daarvoor hebben we diverse sommen en kwadratensommen nodig, die in onderstaande tabel zijn aangevuld.
Ook zijn hier extra kolommen gemaakt voor residuen (nodig voor de standaardfout van b) en voor de kwadraten van de afhankelijke variabele (nodig voor R2).
Respondent | Logo (X) | Tijd (Y) | voor b | voor sb | voor R2 | |||
xy | x2 | ŷ | y - ŷ | (y - ŷ)2 | y2 | |||
1 | 3 | 2,2 | 6,6 | 9 | 2,063 | 0,137 | 0,019 | 4,84 |
2 | 5 | 1,4 | 7 | 25 | 1,397 | 0,003 | 0,000 | 1,96 |
3 | 2 | 2,2 | 4,4 | 4 | 2,397 | -0,197 | 0,039 | 4,84 |
4 | 5 | 1,2 | 6 | 25 | 1,397 | -0,197 | 0,039 | 1,44 |
5 | 1 | 2,9 | 2,9 | 1 | 2,730 | 0,170 | 0,029 | 8,41 |
6 | 4 | 1,7 | 6,8 | 16 | 1,730 | -0,030 | 0,001 | 2,89 |
7 | 3 | 1,5 | 4,5 | 9 | 2,063 | -0,563 | 0,317 | 2,25 |
8 | 5 | 1,8 | 9 | 25 | 1,397 | 0,403 | 0,162 | 3,24 |
9 | 2 | 2,7 | 5,4 | 4 | 2,397 | 0,303 | 0,092 | 7,29 |
10 | 1 | 2,7 | 2,7 | 1 | 2,730 | -0,030 | 0,001 | 7,29 |
Som | 31 | 20,3 | 55,3 | 119 | 0,699 | 44,450 |
We kunnen nu formules invullen.
De regressielijn is dus Ŷ = a + b ∙ X = 3,062 - 0,333X.
Nu gaan we de standaardfout van de regressiecoëfficiënt b berekenen. Daarvoor hebben we de kwadratensom van de residuen nodig: SSresidu = Σ(Y - Ŷ)2 .
We moeten dus eerst de geschatte waarden van Y berekenen voor elke respondent. Daarna kunnen we het verschil tussen de werkelijke waarde (y) en de geschatte waarde (ŷ) berekenen en kwadrateren. De som van deze gekwadrateerde verschillen is de residuele kwadratensom.
Voorbeeld voor respondent 1:
Ŷ = a + b ∙ X = 3,062 - 0,333X = 3,062 - 0,333 ∙ 3 = 3,062 - 0,999 = 2,063 .
Vervolgens hebben we de kwadratensom van X nodig. De tussenresultaten ΣX2 en ΣX staan al in de tabel.
Nu kunnen we de formule voor de standaardfout invullen.
Nu we de standaardfout van de helling hebben, kunnen we de bijbehorende t-waarde makkelijk vinden. Bedenk dat de helling in de populatie (β1) volgens de nulhypothese nul is.
De gevonden t waarde (-5,371) ligt in het linker kritieke gebied, dus het resultaat is significant.
Het betrouwbaarheidsinterval wordt nu als volgt berekend:
bi - tkrit ∙ sbi ≤ β ≤ bi + tkrit ∙ sbi dus
-0,333 - 2,306 ∙ 0,062 ≤ β ≤ -0,333 + 2,306 ∙ 0,062 dus
-0,333 - 0,143 ≤ β ≤ -0,333 + 0,143 dus
-0,476 ≤ β ≤ -0,190
Tenslotte hebben we voor R2 nog de som van de kwadraten van Y nodig. Daarmee kunnen we de totale kwadratensom uitrekenen:
Vul nu de formule voor R2 in, waarbij je je moet realiseren dat de kwadratensom van de regressie gelijk is aan de totale kwadratensom van Y min de kwadratensom van de fouten (residuen):
Conclusie: "We kunnen de herkenningstijd voor 78% voorspellen op grond van een lineair regressiemodel met het aantal keren dat het bedrijfslogo in beeld is geweest als onafhankelijke variabele, b = -0,333, t = -5,37, p < 0,05, 95% CI [-0,48, -0,19]. Elke extra keer dat het bedrijfslogo in beeld is geweest, verlaagt de herkenningstijd met gemiddeld 0,33 (of: 0,19 tot 0,48) milliseconde."
b. Bereken en interpreteer de gestandaardiseerde regressiecoëfficiënt.
Voor de berekening van de gestandaardiseerde regressiecoëfficiënt hebben we de geschatte standaarddeviatie van X en Y nodig. De daarvoor benodigde tussenuitkomsten staan allemaal in de tabel.
De totale kwadratensom SSY, die we eerder uitgerekend hebben, kunnen we direct invullen als teller in de formule voor de standaardafwijking van Y:
De gestandaardiseerde regressiecoëfficiënt wordt dan:
Conclusie: "Er is een sterk, negatief effect van het aantal malen dat men het logo ziet op herkenningstijd, b* = -0,89."