Antwoord bij Oefening 6.1

a. Bepaal het effect van leeftijd (v3) op het internetgebruik.

Vergeet de voorbereidende stappen niet: het beschrijven en bewerken van de twee variabelen. Bij leeftijd zien we enkele leeftijden onder de 18 jaar. De enquête was bedoeld voor mensen van 18 jaar en ouder, dus is het beter om de kinderen en tieners onder 18 jaar uit de analyse weg te laten.

Het spreidingsdiagram laat een nogal vormeloze puntenwolk zien, zonder duidelijke uitschieters. Er is dus geen duidelijk krom verband en een lineaire regressieanalyse kan gebruikt worden.

De resultaten van de regressieanalyse:

Model Summaryb
Model R R Square Adjusted R Square Std. Error of the Estimate
1 ,529a ,280 ,280 1,207
a. Predictors: (Constant), Hoe oud bent u?
b. Dependent Variable: Hoe vaak gebruikt u internet?

ANOVAb
Model Sum of Squares df Mean Square F Sig.
1 Regression 875,669 1 875,669 601,531 ,000a
Residual 2252,022 1547 1,456    
Total 3127,691 1548      
a. Predictors: (Constant), Hoe oud bent u?
b. Dependent Variable: Hoe vaak gebruikt u internet?

Coefficientsa
Model Unstandardized Coefficients Standardized Coefficients t Sig. 95,0% Confidence Interval for B
B Std. Error Beta Lower Bound Upper Bound
1 (Constant) 5,535 ,076   73,024 ,000 5,386 5,684
Hoe oud bent u? -,047 ,002 -,529 -24,526 ,000 -,051 -,043
a. Dependent Variable: Hoe vaak gebruikt u internet?

De fouten (residuen) zijn redelijk normaal verdeeld al is er wel een opmerkelijke uitschieter tussen 0 en 1. Het spreidingsdiagram toont een puntenwolk die ongeveer gelijke doorsnede heeft, wat wijst op homoscedasticiteit. Wel wordt de puntenwolk naar rechts toe gemiddeld lager en is het duidelijk dat de afhankelijke variabele in ieder geval in de steekproef niet op een continue schaal gemeten is (de punten vormen duidelijk onderscheidbare lijnen).

Conclusie: "Wanneer we een regressieanalyse toepassen met frequentie van het internetgebruik als de afhankelijke variabele en leeftijd als de onafhankelijke variabele, vinden we een significant model, F (1, 1547) = 601,53, p < 0,001. Er blijkt een negatief verband te zijn tussen leeftijd en internetgebruik van Nederlanders: met elk extra leeftijdsjaar neemt het internetgebruik naar schatting af met gemiddeld 0,05 per dag , p < 0,001, 95% CI [-0,05, -0,04]. Met leeftijd kan 28,0 procent van de verschillen in internetgebruik voorspeld worden."

NB bij een enkelvoudige regressieanalyse vermeld je ofwel de F-toets van het hele model, ofwel de t-toets van de helling (b) van het effect van de onafhankelijke variabele. Aangezien je maar één onafhankelijke variabele hebt, toets je met beide toetsen exact dezelfde nulhypothese, namelijk dat je in de populatie internetgebruik niet kunt voorspellen met leeftijd (H0 : ρY.12...k = 0) omdat de helling in de populatie 0 is (H0 : βleeftijd = 0).

b. Voeg nu het aantal jaren dat iemand fulltime onderwijs heeft genoten (v73) toe als onafhankelijke variabele aan de analyse. Wat zijn de resultaten? Wat gebeurt er met het effect van leeftijd en waarom gebeurt dit?

Beschrijf eerst de variabele v73. Er komen geen onmogelijke waarden voor en het spreidingsdiagram toont geen duidelijk krom verband.
Een regressieanalyse met zowel leeftijd als jaren fulltime onderwijs als onafhankelijke variabelen, levert de onderstaande regressiecoëfficiënten op.

Coefficientsa
Model Unstandardized Coefficients Standardized Coefficients t Sig. 95,0% Confidence Interval for B
B Std. Error Beta Lower Bound Upper Bound
1 (Constant) 3,679 ,167   22,085 ,000 3,352 4,006
Hoe oud bent u? -,043 ,002 -,489 -23,399 ,000 -,047 -,040
Hoeveel jaar heeft u fulltime onderwijs gevolgd? ,105 ,009 ,258 12,347 ,000 ,089 ,122
a. Dependent Variable: Hoe vaak gebruikt u internet?

De residuen zien er hetzelfde uit als bij het antwoord op vraag a.

Vergeleken met a is het effect van leeftijd een klein beetje lager geworden: de gestandaardiseerde regressiecoëfficiënt (b*) is gezakt van -0,53 naar -0,49. Dit is nu het partiële effect van leeftijd wanneer gecontroleerd wordt voor het aantal jaren onderwijs dat men gevolgd heeft. Anders gezegd, dit is het effect van leeftijd wanneer het onderwijsverleden gelijk zou zijn.
Kennelijk hadden oudere respondenten relatief vaak weinig onderwijs genoten, waardoor het leeftijdseffect bij a voor een klein deel ook het effect van hun relatief korte onderwijs op internetgebruik vertegenwoordigde. Dit kun je controleren door een regressieanalyse uit te voeren van aantal jaren onderwijs (afhankelijke variabele) op leeftijd (onafhankelijke variabele).

Conclusie: "Niet alleen leeftijd maar ook het aantal jaren onderwijs dat een Nederlander heeft gevolgd, voorspelt de frequentie van het internetgebruik, F (2, 1537) = 402,28, p < 0,001. Naarmate men meer onderwijs heeft genoten, gebruikt men het internet meer, b*= 0,26, t = 12,35, p < 0,001, 95% CI [0,09, 0,12]. Het negatieve effect van leeftijd is sterker, b*= -0,49, t = -23,40, p < 0,001, 95% CI [-0,05, -0,04]. Samen voorspellen deze twee factoren 34 procent van de verschillen in het internetgebruik."

c. Een onderzoeker vermoedt dat internetgebruik en televisiekijken (gemiddeld per week: v5) complementaire activiteiten zijn: hoe meer je het een doet, hoe minder je het andere doet. Formuleer de nulhypothese en alternatieve hypothese en toets de nulhypothese. Controleer hierbij voor leeftijd en aantal jaren onderwijs dat men heeft gevolgd.

Controleer eerst de variabele televisiekijken. Er zijn geen onmogelijke waarden.
Een spreidingsdiagram toont geen duidelijk krom verband. Wat dit betreft kunnen we een lineaire regressielijn gebruiken.

De vraag is nu: welke variabele gebruiken we als de afhankelijke variabele: internetgebruik of televisiekijktijd?
Inhoudelijk kan beide. Om aan te sluiten op de eerdere analyses, gebruiken we hier internetgebruik als de afhankelijke variabele.
De onderzoeker verwacht dat de ene activiteit ten koste van de andere gaat. Dit komt neer op een negatief verband: hogere televisiekijktijd gaat samen met lager internetgebruik en omgekeerd.
H1 : βtelevisiekijktijd < 0.
De nulhypothese is dan dat televisiekijktijd geen of een positief effect heeft op internetgebruik:
H0 : βtelevisiekijktijd ≥ 0.
We gaan dus eenzijdig toetsen.

Een meervoudige regressieanalyses heeft de volgende resultaten.

Model Summaryb
Model R R Square Adjusted R Square Std. Error of the Estimate
1 ,592a ,350 ,349 1,142
a. Predictors: (Constant), Aantal uren tv kijken per week, Hoe oud bent u?, Hoeveel jaar heeft u fulltime onderwijs gevolgd?
b. Dependent Variable: Hoe vaak gebruikt u internet?

ANOVAb
Model Sum of Squares df Mean Square F Sig.
1 Regression 1070,698 3 356,899 273,751 ,000a
Residual 1984,288 1522 1,304    
Total 3054,986 1525      
a. Predictors: (Constant), Aantal uren tv kijken per week, Hoe oud bent u?, Hoeveel jaar heeft u fulltime onderwijs gevolgd?
b. Dependent Variable: Hoe vaak gebruikt u internet?

Coefficientsa
Model Unstandardized Coefficients Standardized Coefficients t Sig. 95,0% Confidence Interval for B
B Std. Error Beta Lower Bound Upper Bound
1 (Constant) 3,963 ,184   21,511 ,000 3,601 4,324
Hoe oud bent u? -,043 ,002 -,482 -23,022 ,000 -,046 -,039
Hoeveel jaar heeft u fulltime onderwijs gevolgd? ,099 ,009 ,240 11,255 ,000 ,082 ,117
Aantal uren tv kijken per week -,012 ,003 -,088 -4,165 ,000 -,018 -,006
a. Dependent Variable: Hoe vaak gebruikt u internet?

Het aantal uren dat de respondent televisie kijkt in de week heeft een significant maar zwak negatief effect op het internetgebruik, b* = -0,09, t = -4,17, p < 0,001 eenzijdig, 95% CI [-0,02, -0,01], wanneer je controleert voor de leeftijd en het aantal jaren onderwijs dat de respondent gevolgd heeft. Het vermoeden van de onderzoeker komt dus uit.
NB SPSS levert de tweezijdige overschrijdingskans terwijl we hier een eenzijdige toets uitvoeren. Je moet dan de overschrijdingskans door 2 delen. Aangezien de overschrijdingskans hier al minimaal is, maakt delen door 2 nu geen verschil voor p.

d. Heeft de sekse van de respondent een effect op het internetgebruik wanneer je controleert voor leeftijd, onderwijsjaren en aantal uren televisiekijken? En wanneer je niet voor die drie factoren controleert?

Sekse is een categorische variabele, die we alleen als dummyvariabele(n) kunnen gebruiken in een regressieanalyse. Aangezien v1 al een variabele is met waarden 0 (vrouw) en 1 (man), kunnen we deze variabele gebruiken als dummyvariabele. Het is dan handig om de naam van de variabele te veranderen in ‘man’ zodat duidelijk is dat de ongestandaardiseerde helling voor dit effect gelijk is aan wat mannen gemiddeld meer of minder scoren dan vrouwen.

We kunnen nu de ‘man’ dummyvariabele gewoon toevoegen als onafhankelijke variabele in de regressieanalyse.

Coefficientsa
Model Unstandardized Coefficients Standardized Coefficients t Sig. 95,0% Confidence Interval for B
B Std. Error Beta Lower Bound Upper Bound
1 (Constant) 3,907 ,184   21,263 ,000 3,546 4,267
Hoe oud bent u? -,043 ,002 -,487 -23,356 ,000 -,047 -,039
Hoeveel jaar heeft u fulltime onderwijs gevolgd? ,095 ,009 ,231 10,803 ,000 ,078 ,113
Aantal uren tv kijken per week -,011 ,003 -,084 -3,984 ,000 -,017 -,006
Man ,258 ,059 ,091 4,401 ,000 ,143 ,373
a. Dependent Variable: Hoe vaak gebruikt u internet?

In de tabel met regressiecoëfficiënten zien we dat sekse een significant maar zwak effect heeft, b* = 0,09, t = 4,40, p < 0,001. Met 95% zekerheid kunnen we zeggen dat mannen dagelijks gemiddeld 0,14 tot 0,37 vaker het internet gebruiken wanneer we controleren voor leeftijd, onderwijsjaren en tv-kijktijd.
Wanneer we de overige regressiecoëfficiënten vergelijken met de analyse bij vraag c, zien we dat die coëfficiënten nagenoeg niet veranderen. Dit wijst erop dat er weinig samenhang is tussen sekse en de andere onafhankelijke variabelen. Daarom zal het partiële effect van sekse waarschijnlijk niet veel verschillen van het effect wanneer we niet controleren voor leeftijd, onderwijservaring en televisiekijktijd.
Laten we dit controleren met een enkelvoudige regressieanalyse met internetgebruik als afhankelijke variabele en alleen sekse (dummyvariabele ‘man’) als onafhankelijke variabele.

Coefficientsa
Model Unstandardized Coefficients Standardized Coefficients t Sig. 95,0% Confidence Interval for B
B Std. Error Beta Lower Bound Upper Bound
1 (Constant) 3,684 ,051   72,404 ,000 3,584 3,784
Man ,304 ,072 ,107 4,235 ,000 ,163 ,445
a. Dependent Variable: Hoe vaak gebruikt u internet?

De regressiecoëfficiënt van de ‘man’ dummyvariabele blijft significant en qua omvang vrijwel gelijk, b* = 0,11, t = 4,24, p < 0,001, 95% CI [0,16, 0,45]. Het maakt hier dus niet uit of je controleert voor de andere onafhankelijke variabelen.
De grafieken met de residuen zijn niet goed te interpreteren wanneer er alleen maar een dichotome onafhankelijke variabele wordt gebruikt. Je hebt dan maar twee verschillende waarden voor de onafhankelijke variabele (hier: vrouw = 0 en man = 1) zodat je ook maar twee verschillende voorspelde waarden hebt (hier: het geschatte gemiddelde voor de mannen en het geschatte gemiddelde voor de vrouwen).

e. Heeft het opleidingsniveau effect op het internetgebruik wanneer we controleren voor alle andere onafhankelijke variabelen die we tot dusver hebben gebruikt?
Vereenvoudig het opleidingsniveau (v2) tot drie categorieën: laag (lager onderwijs t.e.m. middelbaar beroepsonderwijs), middelbaar (havo, mulo, vwo) en hoog (hbo en universiteit).

Beschrijf de opleidingsniveau variabele en maak daarna een dummyvariabele voor twee van de drie opleidingsniveaus. Hier maken we de dummyvariabelen ‘middelbaar’ (1 = ‘wel’, 0 = ‘niet’) en hoger (1 = ‘wel’, 0 = ‘niet’).

Model Summaryb
Model R R Square Adjusted R Square Std. Error of the Estimate
1 ,608a ,369 ,367 1,126
a. Predictors: (Constant), Hoger onderwijsniveau, Man, Hoe oud bent u?, Aantal uren tv kijken per week, Hoeveel jaar heeft u fulltime onderwijs gevolgd?, Middelbaar onderwijsniveau
b. Dependent Variable: Hoe vaak gebruikt u internet?

ANOVAb
Model Sum of Squares df Mean Square F Sig.
1 Regression 1126,983 6 187,831 148,104 ,000a
Residual 1923,906 1517 1,268    
Total 3050,889 1523      
a. Predictors: (Constant), Hoger onderwijsniveau, Man, Hoe oud bent u?, Aantal uren tv kijken per week, Hoeveel jaar heeft u fulltime onderwijs gevolgd?, Middelbaar onderwijsniveau
b. Dependent Variable: Hoe vaak gebruikt u internet?

Coefficientsa
Model Unstandardized Coefficients Standardized Coefficients t Sig. 95,0% Confidence Interval for B
B Std. Error Beta Lower Bound Upper Bound
1 (Constant) 3,817 ,205   18,637 ,000 3,415 4,219
Hoe oud bent u? -,042 ,002 -,473 -21,686 ,000 -,046 -,038
Hoeveel jaar heeft u fulltime onderwijs gevolgd? ,076 ,011 ,183 7,084 ,000 ,055 ,097
Aantal uren tv kijken per week -,009 ,003 -,068 -3,216 ,001 -,015 -,004
Man ,285 ,058 ,101 4,879 ,000 ,170 ,399
Middelbaar onderwijsniveau ,398 ,084 ,134 4,745 ,000 ,234 ,563
Hoger onderwijsniveau ,413 ,091 ,145 4,541 ,000 ,235 ,592
a. Dependent Variable: Hoe vaak gebruikt u internet?

"Wanneer we een regressieanalyse uitvoeren om het effect van opleidingsniveau op internetgebruik te bepalen waarbij we rekening houden met leeftijd, aantal jaren onderwijs, aantal uren televisiekijken en geslacht, vinden we een significant, zwak positief effect van zowel een middelbare, b*= 0,13, t = 4,75, p < 0,001, als een hogere opleiding, b*= 0,15, t = 4,54, p < 0,001, op het internetgebruik. Nederlanders met een middelbaar onderwijsniveau (havo, mulo, vwo) scoren gemiddeld 0,40 hoger qua internetgebruik dan Nederlanders met een laag onderwijsniveau (middelbaar beroepsonderwijs of lager), 95% CI [0,23, 0,56]. Voor Nederlanders met een hoog opleidingsniveau (hbo en universiteit) is dit verschil nauwelijks groter, b = 0,41, 95% CI [0,24, 0,59]."

Als je zou willen weten of er een significant verschil is tussen een middelbaar en hoger onderwijsniveau, zou je dummyvariabelen moeten gebruiken waarin het middelbaar dan wel hoger onderwijsniveau de referentiecategorie vormt. Aangezien beide opleidingsniveaus ongeveer even veel hoger scoren dan het lage onderwijsniveau, is een significant verschil in internetgebruik tussen middelbaar en hoog opleidingsniveau hier overigens niet te verwachten.

Syntax

*Oefening 6_1.

*Opgave a.
*Controleren van de variabelen.
FREQUENCIES
  VARIABLES=v10 v3
  /ORDER= ANALYSIS .
*Weglaten kinderen onder 18 jaar.
USE ALL.
COMPUTE filter_$=(v3 > 17).
VARIABLE LABEL filter_$ 'v3 > 17 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
*Spreidingsdiagram om de vorm van het verband te bepalen.
GRAPH
  /SCATTERPLOT(BIVAR)=v3 WITH v10
  /MISSING=LISTWISE .
*Enkelvoudige regressianalyse.
REGRESSION
  /DESCRIPTIVES MEAN STDDEV CORR SIG N
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS CI(95) R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT v10
  /METHOD=ENTER v3
  /SCATTERPLOT=(*ZRESID ,*ZPRED)
  /RESIDUALS HIST(ZRESID).

*Opgave b.
*Beschrijven van v73, inclusief spreidingsdiagram met internetgebruik.
FREQUENCIES
  VARIABLES=v73
  /STATISTICS=SKEWNESS SESKEW
  /ORDER= ANALYSIS .
GRAPH
  /SCATTERPLOT(BIVAR)=v73 WITH v10
  /MISSING=LISTWISE .
*Regressieanalyse.
REGRESSION
  /DESCRIPTIVES MEAN STDDEV CORR SIG N
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS CI(95) R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT v10
  /METHOD=ENTER v3 v73
  /SCATTERPLOT=(*ZRESID ,*ZPRED)
  /RESIDUALS HIST(ZRESID).

*Opgave c.
*Univariaat beschrijven van de variabele die de televisiekijktijd aangeeft.
FREQUENCIES
  VARIABLES=v5
  /ORDER= ANALYSIS .
*Spreidingsdiagram om de vorm van het verband te bepalen.
GRAPH
  /SCATTERPLOT(BIVAR)=v5 WITH v10
  /MISSING=LISTWISE .
*Regressieanalyse met 3 onafhankelijke variabelen.
REGRESSION
  /DESCRIPTIVES MEAN STDDEV CORR SIG N
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS CI(95) R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT v10
  /METHOD=ENTER v3 v73 v5
  /SCATTERPLOT=(*ZRESID ,*ZPRED)
  /RESIDUALS HIST(ZRESID).

*Opgave d.
*Hernoemen van v1 (sekse) tot 'man'.
*Define Variable Properties.
*v1.
VARIABLE LABELS v1 'Man'.
VALUE LABELS v1
   0 'niet'
   1 'wel' .
EXECUTE.
*Meervoudige regressieanalyse inclusief man dummyvariabele.
REGRESSION
  /DESCRIPTIVES MEAN STDDEV CORR SIG N
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS CI(95) R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT v10
  /METHOD=ENTER v3 v73 v5 v1
  /SCATTERPLOT=(*ZRESID ,*ZPRED)
  /RESIDUALS HIST(ZRESID).
*Enkelvoudige regressieanalyse met de man dummyvariabele.
REGRESSION
  /DESCRIPTIVES MEAN STDDEV CORR SIG N
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS CI(95) R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT v10
  /METHOD=ENTER v1
  /SCATTERPLOT=(*ZRESID ,*ZPRED)
  /RESIDUALS HIST(ZRESID).

*Opgave e.
*Beschrijving van V2.
FREQUENCIES
  VARIABLES=v2
  /ORDER= ANALYSIS .
*Dummyvariabelen maken voor opleidingsniveau.
RECODE
  v2
  (4 thru 5=1) (else =0) INTO Middelbaar .
VARIABLE LABELS Middelbaar 'Middelbaar onderwijsniveau'.
EXECUTE .
*Define Variable Properties.
*Middelbaar .
VALUE LABELS Middelbaar
   0 'niet'
   1 'wel' .
EXECUTE.
RECODE
  v2
  (6 thru 7=1) (else =0) INTO Hoger .
VARIABLE LABELS Hoger 'Hoger onderwijsniveau'.
EXECUTE .
*Define Variable Properties.
*Hoger .
VALUE LABELS Hoger
   0 'niet'
   1 'wel' .
EXECUTE.
*Meervoudige regressieanalyse.
REGRESSION
  /DESCRIPTIVES MEAN STDDEV CORR SIG N
  /MISSING LISTWISE
  /STATISTICS COEFF OUTS CI(95) R ANOVA
  /CRITERIA=PIN(.05) POUT(.10)
  /NOORIGIN
  /DEPENDENT v10
  /METHOD=ENTER v3 v73 v5 v1 Middelbaar Hoger
  /SCATTERPLOT=(*ZRESID ,*ZPRED)
  /RESIDUALS HIST(ZRESID).