Technieken voor het multivariaat beantwoorden van een onderzoeksvraag

Inhoud:
Tweewegs-variantieanalyse
Meervoudige regressieanalyse

Tweewegs-variantieanalyse en meerwegs-variantieanalyse

Met deze toets ga je na of twee (of meer) groepsindelingen afzonderlijk en gezamenlijk effect hebben op de gemiddelde score van eenheden (respondenten) op een kwantitatieve variabele. De indeling in groepen gebeurt met twee (of meer) onafhankelijke variabelen: de twee (of meer) factoren in deze variantieanalyse. De groepen op elk van beide factoren worden ook factorniveaus genoemd.

Statistische nulhypothesen

Voorwaarden

Het boek van Van Peet et al. specificeert 5 voorwaarden, waarvan er in de praktijk drie belangrijk zijn:

  1. De afhankelijke variabele moet minstens op interval niveau gemeten zijn.
  2. De groepen kunnen beschouwd worden als onafhankelijke steekproeven.
    Variantieanalyse voor gepaarde waarnemingen bestaan ook, maar we behandelen dit niet in het vak IS.
  3. De groepen hebben gelijke varianties voor de afhankelijke variabele in de populatie.
    Deze voorwaarde is alleen belangrijk wanneer de groepen niet ongeveer even groot zijn. SPSS rapporteert Levene's Test of Equality of Error Variances waarmee je kunt controleren of je van gelijke populatievarianties mag uitgaan.

SPSS commando

SPSS Output

De belangrijkste output van SPSS is weer de samenvattende tabel, die nu Tests of Between-Subjects Effects heet. In deze tabel zijn de voor ons belangrijke rijen geel gemarkeerd.
Tests of Between-Subjects Effects
Dependent Variable:na Houding t.a.v. roken na reclamecampagne
Source Type III Sum of Squares df Mean Square F Sig.
Corrected Model 127,279a 5 25,456 17,483 ,000
Intercept 298,050 1 298,050 204,705 ,000
Sekse ,869 1 ,869 ,597 ,442
behandeling2 90,966 2 45,483 31,238 ,000
Sekse * behandeling2 33,723 2 16,861 11,581 ,000
Error 135,408 93 1,456    
Total 565,000 99      
Corrected Total 262,687 98      
a. R Squared = ,485 (Adjusted R Squared = ,457)

Deze tabel geeft:

Wanneer een post-hoc toets met Bonferroni correctie is opgevraagd, worden de vergelijkingen tussen alle paren van gemiddelden getoond. Aangezien deze toets alleen op hoofdeffecten wordt uitgevoerd, kan zij precies zo geïnterpreteerd worden als bij de eenwegs-variantieanalyse (zie daar).

Wanneer Descriptive Statistics zijn opgevraagd, wordt onderstaande tabel getoond. Hierin worden de proefpersonen eerst uitgesplitst naar de eerste factor en vervolgens naar de tweede factor. We vinden het gemiddelde, de standaarddeviatie en het aantal waarnemingen (N) dus eerst voor de mannen die de voorlichtingscampagne niet hebben gezien, dan voor de mannen die de campagne soms zagen, daarna voor de mannen die de campagne vaak zagen en tenslotte voor alle mannen. Vervolgens wordt dit herhaald voor de vrouwen.
Om de gemiddelden te vinden die horen bij het hoofdeffect ‘campagne gezien’, moet je de drie gemiddelden vergelijken in de rij 'Total' onderaan de tabel. Om het gemiddelde van alle mannen te vergelijken met het gemiddelde van alle vrouwen, moet je in de rij 'Total' kijken bij 'man' en bij 'vrouw'. Deze twee gemiddelden (-1,63 en -1,86) tonen de aard van het hoofdeffect van de factor sekse.
Descriptive Statistics
Dependent Variable:na Houding t.a.v. roken na reclamecampagne
Sekse behandeling2 Voorlichtingscampagne gezien Mean Std. Deviation N
,00 man 1,00 nee -1,1765 ,88284 17
2,00 soms -1,6250 1,14746 16
3,00 vaak -2,1250 1,40831 16
Total -1,6327 1,20232 49
1,00 vrouw 1,00 nee -,3125 ,94648 16
2,00 soms -1,2353 1,25147 17
3,00 vaak -3,9412 1,47778 17
Total -1,8600 1,97959 50
Total 1,00 nee -,7576 1,00095 33
2,00 soms -1,4242 1,19975 33
3,00 vaak -3,0606 1,69447 33
Total -1,7475 1,63722 99

Om de aard van het interactie-effect te beschrijven, zou je alle zes gemiddelden moeten vergelijken van de subgroepen: ‘nee/man’, ‘nee/vrouw’, ‘soms/man’ … ‘vaak/vrouw’. Dat valt niet mee in een tabel. Daarom is een lijngrafiek van die (geschatte) gemiddelden inzichtelijker. Deze grafiek krijg je wanneer je het commando daarvoor hebt gegeven bij PLOTS. In onderstaand voorbeeld zien we dat bij vrouwen de houding t.a.v. roken veel lager is wanneer zij de campagne vaak zagen dan bij mannen. De houding t.a.v. roken daalt bij de vrouwen veel sterker naarmate ze de campagne regelmatiger zagen dan bij de mannen.

Wanneer je via de syntax ook de paarsgewijze vergelijkingen voor het interactie-effect hebt opgevraagd, krijg je (onder andere) ook onderstaande tabel in de output.
Hier wordt binnen elke voorlichtingsgroep (niet, soms, vaak de voorlichting gezien) een paarsgewijze vergelijking gemaakt tussen mannen en vrouwen. We zien dat binnen de respondenten die de voorlichtingscampagne niet gezien hebben, de mannen significant lager scoren op de rookhouding dan de vrouwen, Mverschil = -0,86, p = 0,043, maar dat zij juist significant hoger scoren dan de vrouwen binnen de groep die de voorlichtingscampagne vaak heeft gezien, Mverschil = 1,82, p < 0,001. Zoals de grafiek al liet zien: bij mannen maakt het vaker zien van de campagne weinig verschil terwijl dit bij vrouwen wel veel verschil uitmaakt voor de houding ten aanzien van roken.
Pairwise Comparisons
Dependent Variable:na Houding t.a.v. roken na reclamecampagne
Voorlichtingscampagne gezien (I) Sekse (J) Sekse Mean Difference (I-J) Std. Error Sig.a 95% Confidence Interval for Differencea
Lower Bound Upper Bound
1,00 nee ,00 man 1,00 vrouw -,864* ,420 ,043 -1,699 -,029
1,00 vrouw ,00 man ,864* ,420 ,043 ,029 1,699
2,00 soms ,00 man 1,00 vrouw -,390 ,420 ,356 -1,224 ,445
1,00 vrouw ,00 man ,390 ,420 ,356 -,445 1,224
3,00 vaak ,00 man 1,00 vrouw 1,816* ,420 ,000 ,982 2,651
1,00 vrouw ,00 man -1,816* ,420 ,000 -2,651 -,982
Based on estimated marginal means
*. The mean difference is significant at the ,05 level.
a. Adjustment for multiple comparisons: Bonferroni.

Rapportage

Vermeld het volgende:

Voorbeeld: "Er is een tweewegs-variantieanalyse uitgevoerd. We vonden bij de proefpersonen een significant, groot effect van het zien van de voorlichtingscampagne op hun houding ten aanzien van roken, F (2, 93) = 31,24, p < 0,001, η2 = 0,35, maar geen significant effect van sekse, F (1, 93) = 0,60, p = 0,442. De proefpersonen die de voorlichtingsfilm niet gezien hadden, hebben de minst negatieve houding (M = -0,76, SD = 1,00) terwijl degenen die de film vaak hebben gezien de meest negatieve houding hebben (M = -3,06, SD = 1,69). De proefpersonen die de voorlichting soms zagen, scoren hier tussen in (M = -1,42, SD = 1,20).
Uit een post-hoc meervoudige-vergelijkingentoets blijkt dat alleen het verschil tussen de proefpersonen die de voorlichting vaak zagen en de proefpersonen die deze niet (Mverschil = -2,30, p < 0,001) of soms (Mverschil = -1,64, p < 0,001) zagen significant is. Er is geen significant verschil tussen de proefpersonen die de voorlichting niet of soms zagen.
Verder bleek er een significant, middelmatig interactie-effect te zijn tussen sekse en het zien van de voorlichtingscampagne, F (2, 93) = 11,58, p < 0,001, η2 = 0,13. Bij vrouwen is de houding t.a.v. roken duidelijk negatiever bij het vaak zien van de voorlichtingscampagne dan bij mannen, Mverschil = -1,82, p <0,001. Wanneer zij de voorlichtingscampagne niet gezien hebben, score vrouwen daarentegen minder negatief ten aanzien van roken dan mannen, Mverschil = -0,86, p = 0,043."

Rekenen voor reguliere studenten

Net als bij eenwegs-variantieanalyse moet je een samenvattende tabel verder kunnen invullen wanneer de kwadratensommen zijn gegeven. De vrijheidsgraden moet je kunnen afleiden uit informatie over de omvang van de steekproef (N) en het aantal groepen (factorniveaus) dat vergeleken wordt per factor. Vervolgens moet je de gemiddelde kwadratensommen kunnen berekenen en daarmee de waarde van de toetsingsgrootheid F voor elk hoofdeffect en interactie-effect. Je kunt uit de formules op het formuleblad afleiden hoe je dit moet doen. De overschrijdingskans hoef je niet uit te rekenen maar je moet wel kunnen nagaan of het resultaat significant is op 5% met behulp van de significantietabellen.
Verder moet je eta kwadraat kunnen uitrekenen voor elk effect. Deel de kwadratensom van het effect steeds door de (corrected) totale kwadratensom. Met de formules van het formuleblad werkt dit als volgt.
De twee hoofdeffecten van factoren A en B:

Eta kwadraat voor het interactie-effect:

Rekenen voor excellentiegroep

In deze groep moet je ook met de hand een tweewegs-variantieanalyse volledig kunnen uitrekenen. De gang van zaken is vergelijkbaar met die van een eenwegs-variantieanalyse, alleen het aantal stappen neemt toe. Dit geldt overigens alleen wanneer de groepen binnen elke factor en combinatie van factoren even groot zijn (een gebalanceerd ontwerp), dus dit is de enige situatie waarvoor we tweewegs-variantieanalyse met de hand zullen uitvoeren.
Omdat we voor de berekening van de kwadratensommen zowel de totalen nodig hebben voor de groepen op elk van beide factoren apart als voor de subgroepen die gevormd worden door de combinaties van beide fatcoren tegelijk, is het handig om de datamatrix als een soort kruistabel weer te geven met de ene factor als rijen en de andere als kolommen. We voegen de kwadraten van de oorspronkelijke scores toe, net als bij eenwegs-variantieanalyse. Voor het voorbeeld uit het boek (p. 263), levert dit onderstaande tabel op. NB de gemiddelden zijn niet strikt noodzakelijk maar wel erg handig om de resultaten te interpreteren.

Factor B \ Factor A Jongens (X1) x12 Meisjes (X2) x22 Som nivo Factor B (ΣB)j Som kwadraten (ΣX)j
SES Laag 2 4 4 16    
4 16 1 1    
6 36 2 4    
5 25 2 4    
5 25 3 9    
Som 22 106 12 34 34 140
Gemiddelde 4,4   2,4   3,4  
SES Midden 6 36 5 25    
4 16 3 9    
7 49 5 25    
4 16 3 9    
7 49 7 49    
Som 28 166 23 117 51 283
Gemiddelde 5,6   4,6   5,1  
SES Hoog 5 25 9 81    
6 36 6 36    
4 16 8 64    
3 9 7 49    
6 36 9 81    
Som 24 122 39 311 63 433
Gemiddelde 4,8   7,8   6,3  
Totaal (ΣAi en ΣXi2 74 394 74 462 148 856

Met deze getallen kunnen we de formules invullen voor de kwadratensommen, waarbij we de kwadratensom van het interactie-effect bepalen als het verschil tussen de totale en de overige kwadratensommen.
De formule van de totale kwadratensom is hetzelfde als bij de eenwegs-variantieanalyse. We hebben dus de som van alle gekwadrateerde scores nodig (, linker deel van de formule) en de totale som van de oorspronkelijke scores ( in de noemer van het rechter deel van de formule).

De kwadratensommen voor de hoofdeffecten worden ook hetzelfde berekend als bij eenwegs-variantieanalyse, waarbij we de sommen (totaalscores) per niveau (groep) van de factor gebruiken. De rechter term van de formules kennen we al omdat die hetzelfde is als in de formule voor de totale kwadratensom.

Voor Factor A (geslacht) wordt de kwadratensom:

Aangezien jongens en meisjes dezelfde gemiddelden hebben, hadden we eigenlijk kunnen weten dat de kwadratensom 0 is. Het piepkleine getal dat we overhouden komt door tussentijdse afronding.

Voor Factor B (SES) wordt de kwadratensom:

Voor de binnengroepenkwadratensom hebben we de som van alle kwadraten (linker term van de formule) weer nodig, die we ook al nodig hadden voor de totale kwadratensom, en de som van de scores per subgroep (in de noemer van de rechter term van de formule). We kunnen deze getallen aflezen uit de tabel. Voor elke subgroep krijgen we dus een breuk in de rechter term van de formule.

We kunnen nu de samenvattende tabel invullen.

  Sum of Squares df Mean Square F
Hoofdeffecten        
Sekse (A) (SSA) 0,001 (I - 1 = 2 - 1) 1 (0,001 / 2) 0,001 (0,001 / 2,017) 0,000
SES (B) (SSB) 42,467 (J - 1 = 3 - 1) 2 (42,467 / 2) 21,234 (21,234 / 2,017) 10,528
Interactie-effect        
Sekse met SES (SSAxB = SSt - (SSA) + SSB) + SSw) = 125,867 - (0,001 + 42,467 + 48,4) = 125,867 - 90,868) 34,999 ((I - 1)(J - 1) = 1 x 2) 2 (34,999 / 2) 17,500 (17,500 / 2,017) 8,676
Binnengroepen (fout) (SSw) 48,4 (N - J = 30 - 6) 24 (48,4 / 24) 2,017  
Totaal (SSt) 125,867 (N - 1 = 30 - 1) 29    

We kunnen nu op de gebruikelijke manier nagaan of de F-waarden van de steekproef significant zijn door deze te vergelijken met de bijbehorende kritieke F-waarden.

Meervoudige vergelijkingen voeren we uit voor hoofdeffecten (niet voor interactie-effecten) en alleen wanneer er meer dan twee groepen zijn. Voer dan voor elk paar van groepen een t-toets op twee gemiddelden uit, waarbij je voor elke afzonderlijke toets het oorspronkelijke significantieniveau (bijvoorbeeld 5%) deelt door het totaal aantal t-toetsen (paren) dat je uitvoert. Kies in de significantietabel het dichtstbijzijnde significantieniveau.

Meervoudige regressieanalyse

We gebruiken regressieanalyse wanneer we één kwantitatieve (interval of ratio meetniveau) afhankelijke variabele hebben en een of meer onafhankelijke variabelen. We noemen een regressieanalyse meervoudig wanneer er minstens twee onafhankelijke variabelen zijn. Een regressieanalyse met maar één onafhankelijke variabele is een enkelvoudige regressieanalyse.
Minstens een van de onafhankelijke variabelen is numeriek, anders kunnen we beter een meerwegs-variantieanalyse uitvoeren.

Statistische nulhypothesen

Er zijn twee soorten statistische nulhypothesen bij een meervoudige regressieanalyse:
  1. De nulhypothese bij de toets op het hele regressiemodel: met het regressiemodel kun je in de populatie geen variantie in de afhankelijke variabele voorspellen oftewel in de populatie is de multipele correlatiecoëfficiënt nul.
    H0: ρY.1..k = 0.
  2. Een nulhypothese bij elke regressiecoëfficiënt: de populatiewaarde van de regressiecoëfficiënt is nul. Maak duidelijk om welke onafhankelijke variabele (predictor) het gaat, bijvoorbeeld in een subschrift.
    Voorbeeld: H0: βleeftijd = 0.

Voorwaarden

De tekst van Van Peet specificeert maar liefst 8 voorwaarden, waarvan we alleen de belangrijkste drie controleren.

  1. Meetniveau: de afhankelijke variabele moet minstens interval meetniveau hebben. De onafhankelijke variabelen hebben ook minstens interval meetniveau of ze zijn dichotomieën: 0/1 variabelen of -1/1 variabelen.
  2. Het verband tussen de afhankelijke variabele en elke onafhankelijke (kwantitatieve) variabele is linear (rechtlijnig).
    Maak een spreidingsdiagram voor elk paar afhankelijke - onafhankelijke variabelen en ga na of de puntenwolk niet duidelijk krom is. Eigenlijk moet het verband lineair zijn wanneer je controleert voor de overige variabelen, maar dat voert hier te ver.
  3. Residuen: zijn normaal verdeeld en homoscedastisch. Wanneer de variabelen niet normaal verdeeld zijn, bijvoorbeeld omdat er extreme waarden zijn, krijg je residuen die niet normaal verdeeld zijn en/of die niet voor elke voorspelde waarde van de afhankelijke variabele evenveel spreiding hebben. Als dat het geval is, zijn de berekende overschrijdingskansen niet helemaal te vertrouwen.
    We controleren dit alleen op het oog (met 2 grafieken) en we zullen alleen een waarschuwing geven in de interpretatie van de resultaten wanneer deze voorwaarden geschonden lijken te zijn. Preciezere toetsen voor de schending van deze voorwaarden en technieken om te corrigeren voor schending van deze voorwaarden gaan te ver voor de cursus IS. We troosten ons met de gedachte dat de lineaire regressieanalyse niet zo gevoelig is voor schending van deze voorwaarde.

SPSS commando

Wanneer je onafhankelijke categorische variabele wilt opnemen (zie de hint over regressieanalyses), moet je eerst nieuwe variabelen maken in SPSS voordat je de regressieanalyse uitvoert.

SPSS Output

In dit voorbeeld hebben we een regressieanalyse uitgevoerd waarbij we stap voor stap predictoren laten toevoegen aan het model (methode FORWARD).
De belangrijkste resultaten staan in de volgende tabellen.

Model Summarye
Model R R Square Adjusted R Square Std. Error of the Estimate Change Statistics
R Square Change F Change df1 df2 Sig. F Change
1 ,362a ,131 ,130 1,231 ,131 232,496 1 1544 ,000
2 ,451b ,204 ,203 1,179 ,073 141,103 1 1543 ,000
3 ,500c ,250 ,249 1,144 ,046 95,492 1 1542 ,000
4 ,504d ,254 ,252 1,142 ,004 8,588 1 1541 ,003
a. Predictors: (Constant), Hoe oud bent u?
b. Predictors: (Constant), Hoe oud bent u?, Bent u een man?
c. Predictors: (Constant), Hoe oud bent u?, Bent u een man?, Politiek wantrouwen
d. Predictors: (Constant), Hoe oud bent u?, Bent u een man?, Politiek wantrouwen, Hoe vaak gebruikt u internet?
e. Dependent Variable: Hoe vaak leest u de krant?

De eerste tabel geeft aan hoe goed de afhankelijke variabele voorspeld kan worden: het percentage verklaarde variantie van de afhankelijke variabele (R2). Voor elk model wordt R2 gegeven, die oploopt van 0,13 (Model 1) tot 0,254 (Model 4). Dit zegt echter weinig want het toevoegen van een extra onafhankelijke variabele levert altijd een verhoging van R2 op.
Daarom kijken we of de verhoging van R2 bij toevoeging van een extra predictor significant is: mogen we ervan uitgaan dat het model met de extra predictor ook in de populatie meer voorspelt? De nulhypothese is dat R2 in de populatie niet toeneemt. De F-toets op deze nulhypothese staat in de meest rechtse kolommen van de tabel. We zien dat F telkens zeer significant is (p is steeds kleiner dan 0,01) dus mogen we ervan uitgaan dat alle extra predictoren een bijdrage leveren aan de voorspelling van de frequentie waarmee men de krant leest in de populatie van alle Nederlanders.
Kortom, we kiezen voor Model 4 als beste model, dat naar schatting 25% verklaard van de verschillen tussen Nederlanders wat betreft de frequentie dat ze de krant lezen.

ANOVAe
Model Sum of Squares df Mean Square F Sig.
1 Regression 352,454 1 352,454 232,496 ,000a
Residual 2340,643 1544 1,516    
Total 2693,097 1545      
2 Regression 548,565 2 274,283 197,347 ,000b
Residual 2144,532 1543 1,390    
Total 2693,097 1545      
3 Regression 673,626 3 224,542 171,453 ,000c
Residual 2019,471 1542 1,310    
Total 2693,097 1545      
4 Regression 684,818 4 171,204 131,369 ,000d
Residual 2008,279 1541 1,303    
Total 2693,097 1545      
a. Predictors: (Constant), Hoe oud bent u?
b. Predictors: (Constant), Hoe oud bent u?, Bent u een man?
c. Predictors: (Constant), Hoe oud bent u?, Bent u een man?, Politiek wantrouwen
d. Predictors: (Constant), Hoe oud bent u?, Bent u een man?, Politiek wantrouwen, Hoe vaak gebruikt u internet?
e. Dependent Variable: Hoe vaak leest u de krant?

De tweede tabel geeft de F-toets op het regressiemodel. De nulhypothese is dat het regressiemodel in de populatie de afhankelijke variabele niet voorspelt. Dit betekent dat de multipele correlatiecoëfficiënt in de populatie nul is (H0 : ρY.12...k = 0) of dat alle hellingen in de populatie nul zijn (H0 : β1 = β2 = … = βk = 0).
Een significant resultaat betekent dus dat we de nulhypothese verwerpen. We kunnen met de gebruikte onafhankelijke variabelen dus de scores op de afhankelijke variabelen enigszins voorspellen, ook in de populatie. In feite wisten we dit al op grond van de F-toetsen op de verandering van R2. Bij Model 4 krijgen we nu echter de F-toets voor het hele model met de 4 predictoren tegelijk. Dit is de waarde die we in de interpretatie vermelden.

Coefficientsa
Model Unstandardized Coefficients Standardized Coefficients t Sig. 95,0% Confidence Interval for B
B Std. Error Beta Lower Bound Upper Bound
1 (Constant) 3,270 ,077   42,655 ,000 3,119 3,420
Hoe oud bent u? ,030 ,002 ,362 15,248 ,000 ,026 ,033
2 (Constant) 2,986 ,077   38,699 ,000 2,835 3,138
Hoe oud bent u? ,028 ,002 ,338 14,843 ,000 ,024 ,031
Bent u een man? ,715 ,060 ,271 11,879 ,000 ,597 ,833
3 (Constant) 3,958 ,124   31,798 ,000 3,714 4,202
Hoe oud bent u? ,028 ,002 ,337 15,243 ,000 ,024 ,031
Bent u een man? ,735 ,058 ,279 12,576 ,000 ,621 ,850
Politiek wantrouwen -,038 ,004 -,216 -9,772 ,000 -,046 -,030
4 (Constant) 3,460 ,210   16,440 ,000 3,047 3,873
Hoe oud bent u? ,031 ,002 ,379 14,445 ,000 ,027 ,035
Bent u een man? ,712 ,059 ,270 12,103 ,000 ,597 ,828
Politiek wantrouwen -,037 ,004 -,207 -9,331 ,000 -,044 -,029
Hoe vaak gebruikt u internet? ,072 ,025 ,077 2,930 ,003 ,024 ,120
a. Dependent Variable: Hoe vaak leest u de krant?

De derde tabel geeft de resultaten voor de onderdelen van de regressievergelijking: de schatting van het intercept (aangegeven met ‘Constant’) en de schattingen van de hellingen voor de onafhankelijke variabelen. Omdat we een stapsgewijze regressie hebben gedaan, krijgen we de schattingen voor alle modellen apart. Rapporteer alleen de schattingen uit het model dat je uiteindelijk gekozen hebt.
Eerst wordt de ongestandaardiseerde waarde gegeven (onder B) met de standaardfout. Dit is dus de waarde die via een t-toets op overschrijdingskans wordt getoetst (de kolommen t en Sig.) met als nulhypothese telkens dat het intercept of de helling nul is in de populatie.
Onder Standardized Coefficients (Beta) wordt tenslotte de helling gegeven voor gestandaardiseerde variabelen (b*). Hoeveel standaardafwijkingen verandert de voorspelde waarde van de afhankelijke variabele wanneer de onafhankelijke variabele 1 standaardafwijking groter is?Hiermee kun je de effecten van verschillende (continu verdeelde) onafhankelijke variabelen met elkaar vergelijken binnen een analyse: hoe hoger de absolute waarde van b*, des te sterker is het effect. In een enkelvoudige regressieanalyse kan de sterkte van het verband b* kan op dezelfde wijze geïnterpreteerd worden als r: 0,10 = klein/zwak, 0,30 = middelgroot/middelmatig en 0,50 = groot/sterk. Maar dit geldt niet voor een meervoudige regressie, waar b* zelfs groter dan 1 en kleiner dan -1 kan zijn, wat natuurlijk niet mogelijk is bij de correlatiecoefficient r.
Zowel bij de ongestandaardiseerde als de gestandaardiseerde regressiecoëfficiënten (regressiegewichten) gaat het om partiële effecten, dat wil zeggen effecten waarbij de mogelijke invloeden van de andere onafhankelijke variabelen in het model zijn uitgeschakeld. Je kunt dus zeggen dat dit de effecten zijn bovenop mogelijke effecten van andere onafhankelijke variabelen.

Wanneer je de gestandaardiseerde regressiecoëfficiënten van een predictor vergelijkt voor de vier modellen, zie je dat er weinig verandert. In dit voorbeeld leidt de toevoeging van een extra onafhankelijke variabele niet tot de sterke wijziging van het effect van andere onafhankelijke variabelen.

De onafhankelijke variabele Sekse is hier een dummyvariabele met waarde 1 voor mannen en waarde 0 voor vrouwen. De ongestandaardiseerde regressiecoëfficiënt betekent hier dat mannen gemiddeld 0,71 minder vaak de krant lezen dan vrouwen.
De frequentie van het krantenlezen bij vrouwen wordt voorspeld met de regressievergelijking:

KrantLezen = 3,460 + 0,031 * Leeftijd + 0,712 * Man = 3,460 + 0,031 * Leeftijd + 0,712 * 0 = 3,460 + 0,031 * Leeftijd

Let op, vrouwen hebben de score 0 op de dummyvariabele Man, dus de laatste term valt weg uit de regressievergelijking.
Voor mannen is de regressievergelijking:

KrantLezen = 3,460 + 0,031 * Leeftijd + 0,712 * Man = 3,460 + 0,031 * Leeftijd + 0,712 * 1 = 3,460 + 0,031 * Leeftijd + 0,712

Omdat mannen de score 1 hebben op de dummyvariabele Man, krijgt hun voorspelde leesfrequentie van kranten er standaard 0,712 bij. Dit is dus het geschatte gemiddelde verschil tussen vrouwen en mannen.

De grafieken waarmee we de veronderstellingen over de residuen controleren, staan hieronder. De residuen lijken normaal verdeeld te zijn, al is de rechter staart wat kort, zodat de verdeling van de residuen wat scheef is. Vermoedelijk komt dit hier door een wat scheve verdeling van de afhankelijke variabele.
De grafiek van de gestandaardiseerde residuen tegen de gestandaardiseerde voorspelde waarden laat zien dat de residuen overal ongeveer evenveel verspreid zijn (de vertikale doorsnede van de puntenwolk is overal ongeveer even groot) al zakt de wolk naar rechts toe wel weg. Dit laatste betekent dat bij hogere voorspelde waarden de residuen gemiddeld negatiever worden: de voorspelling zit wat te hoog. Dit wijst op een vermoedelijk niet helemaal rechtlijnig verband tussen de variabelen.
Het feit dat de residuen op gescheiden lijnen liggen is het gevolg van de meting van leesfrequentie met gehele getallen. De veronderstelling dat leesfrequentie continu verdeeld is in de populatie gaat niet op: frequenties zijn nu eenmaal gehele getallen. De resultaten van de regressieanalyse worden daar echter meestal niet door beïnvloed.

Rapportage

Vermeld het volgende:

Voorbeeld: "Het regressiemodel met het aantal malen dat Nederlanders de krant lezen als afhankelijke variabele en de leeftijd, sekse, het politiek wantrouwen en de frequentie dat men internet gebruikt als onafhankelijke variabelen is significant, F (4, 1541) = 131,37, p < 0,001. Het regressiemodel is dus bruikbaar om de leesfrequentie van kranten bij Nederlanders te voorspellen, maar de voorspelling is qua sterkte matig: 25 procent van de verschillen in leesfrequentie kunnen voorspeld worden op grond van de leeftijd, sekse, het politiek wantrouwen en internetgebruik (R2 = 0,25). Leeftijd, b* = 0,38, t = 14,45, p < 0,001, 95% CI [0,03, 0,04], sekse, b* = 0,27, t = 2,36, p < 0,05, 95% CI [0,60, 0,83], en politiek wantrouwen, b* = -0,21, t = -9,33, p < 0,001, 95% CI [-0,04, -0,03], hebben een significante, matig sterke samenhang met leesfrequentie, terwijl internetgebruik een zwak verband heeft, b* = 0,08, t = 2,93, p = 0,003, 95% CI [0,02, 0,12]. Per leeftijdsjaar neemt de geschatte leesfrequentie met 0,03 toe. Mannen lezen gemiddeld 0,71 vaker de krant dan vrouwen. Met elke punt extra op de schaal voor politiek wantrouwen, die loopt van 6 (helemaal geen wantrouwen) tot 52 (zeer veel wantrouwen), leest men gemiddeld de krant 0,04 minder. Tenslotte hangt 1 punt extra internetgebruik samen met 0,07 extra de krant lezen. Bij al deze effecten wordt ervan uitgegaan dat de overige onafhankelijke variabelen constant worden gehouden."

Rekenen voor reguliere studenten

Reguliere studenten hoeven alleen ontbrekende getallen in SPSS output te kunnen aanvullen en geschatte waarden uit te rekenen op grond van een regressievergelijking.

Wanneer minstens twee van de drie kwadratensommen (SSY , SSregressie , SSresidu) gegeven zijn, moet je zowel de F-toets op het hele regressiemodel kunnen uitrekenen als de daarbij horende determinatiecoëfficiënt R2 en multipele correlatiecoëfficiënt R. Onderstaande tabellen laten zien hoe je die berekeningen uitvoert. De formules staan ook op het formuleblad.

ANOVAe
  Sum of Squares df Mean Square F Sig.
Regression = SSY - SSresidu k SSregressie / k MSregressie / MSresidu zoek op in de tabel
Residual = SSY - SSregressie N - k - 1 SSresidu / (N - k - 1)    
Total = SSregressie + SSresidu N - 1      

R2 SSregressie / SSY
R √(R2)

Let op, de kwadratensom van de afhankelijke variabele (SSY) kun je gemakkelijk afleiden uit de variantie of standaarddeviatie van de afhankelijke variabele. Deze kwadratensom is immers de teller in de formule voor de variantie. Vermenigvuldig dus de geschatte variantie van de variabele met N – 1 (het aantal waarnemingen min 1) om deze kwadratensom te krijgen.

Bij de regressiecoëfficiënt moet je de t-waarde en het betrouwbaarheidsinterval kunnen uitrekenen wanneer de standaardfout van de regressiecoëfficiënt gegeven is. Wanneer de standaarddeviatie van de afhankelijke en van de onafhankelijke variabele bekend is, moet je de gestandaardiseerde regressiecoëfficiënt (b*) kunnen uitrekenen.

Coefficientsa
  Unstandardized Coefficients Standardized Coefficients t Sig. 95,0% Confidence Interval for B
B Std. Error Beta Lower Bound Upper Bound
Hoe oud bent u? bi sbi bi ∙ (si / sY) (bi - β0) / sbi opzoeken in de tabel bi - tkritsbi bi + tkritsbi

Tenslotte moet je voorspelde waarden kunnen uitrekenen wanneer de (ongestandaardiseerde) regressiecoëfficiënten en de constante gegeven zijn.

Rekenen voor excellentiegroep

Berekenen van de enkelvoudige regressievergelijking

Bij BS heb je geleerd hoe je de constante (α) en de regressiecoëfficiënt (b) kunt berekenen in een enkelvoudige regressieanalyse. We hebben nu een rekenformule voor de regressiecoëfficiënt, die de berekeningen iets eenvoudiger maakt: je hoeft alleen de producten van de onafhankelijke en de afhankelijke variabele (XY) toe te voegen aan de datamatrix en de kwadraten van de onafhankelijke variabele (X2).

x y xy x2
1 8 8 1
1 10 10 1
2 6 12 4
3 7 21 9
3 6 18 9
3 5 15 9
4 6 24 16
5 5 25 25
Som 22 53 133 74

We kunnen nu de formule voor b invullen:

Wanneer X 1 hoger wordt, wordt de geschatte waarde van Y -0,94 lager. Er is dus een negatief effect van X op Y.
Wanneer we de correlatiecoëfficiënt weten (hier: rXY = -0,778) en de standaardafwijking van X (hier: sX = 1,389) en Y (hier: sY = 1,685), kunnen we b op een eenvoudiger manier uitrekenen:
b = rXYsY / sX = -0,778 ∙ 1,685 / 1,389 = -0,778 ∙ 1,213 = -0,944 .

Nu kunnen we a ook uitrekenen:

De regressievergelijking wordt dus:

Voor een enkelvoudige regressie kan de standaardfout van de regressiecoëfficiënt berekend worden op grond van de kwadratensommen. De kwadratensommen kunnen berekend worden met behulp van het gemiddelde en de voorspelde waarden van de afhankelijke variabele. NB voor de berekening van alleen de standfout van de regressiecoëfficiënt is het voldoende om de kwadratensom van de fouten (de residuen) uit te rekenen. Wanneer je ook R of R2 moet uitrekenen, moet je ook de kwadratensom van de afhankelijke variabele (Y) uitrekenen.
Dit gaat als volgt:

x y ŷ y - ŷ (y - ŷ)2 MY y - MY (y - MY)2
1 8 8,278 -0,278 0,077 6,625 1,375 1,891
1 10 8,278 1,722 2,965 6,625 3,375 11,391
2 6 7,333 -1,333 1,777 6,625 -0,625 0,391
3 7 6,389 0,611 0,373 6,625 0,375 0,141
3 6 6,389 -0,389 0,151 6,625 -0,625 0,391
3 5 6,389 -1,389 1,929 6,625 -1,625 2,641
4 6 5,444 0,556 0,309 6,625 -0,625 0,391
5 5 4,500 0,500 0,250 6,625 -1,625 2,641
Som 22 53   0 7,831   0 19,878
Gemiddeld   6,625            

De totale kwadratensom: SSY = Σ(Y - MY)2 = 19,878 .
De kwadratensom van de fouten (residuen): SSresidu = Σ(Y - Ŷ)2 = 7,831 .
De kwadratensom van de regressie is dan: SSregressie = SSY - SSresidu = 19,878 - 7,831 = 12,047 .
Tenslotte hebben we ook de kwadratensom van de onafhankelijke variabele nodig, waarvoor de benodigde deelresultaten al in de eesrte tabel berekend zijn:

Nu kan de standaardfout van de regressiecoëfficiënt uitgrekend worden: