Verklaring: Lineair model

Loading...

Lineaire regressie of lineaire trendlijn

Regressie-analyse is een statistische techniek voor het analyseren van gegevens (data) waarin (mogelijk) sprake is van een specifieke samenhang, aangeduid als regressie. Noemen we de afhankelijke te verklaren variabele Y en de onafhankelijke verklarende variabele x, dan is het verband: Y=f(x)+E

Hierin stelt E de foutenterm voor, die onafhankelijk is van x (d.w.z. dat men aanneemt dat de volledige variatie te wijten is aan een fout in Y).

In deze relatie is de functie f onbekend, maar door toepassing van regressie-analyse kan die met een beperkt aantal parameters beschreven worden.

Bij lineaire regressie is er sprake van een lineaire functie tussen de verklarende en te verklaren variabelen.

In het eenvoudigste geval is er slechts één verklarende variabele x. We spreken dan van enkelvoudige lineaire regressie. Het model voor Y wordt dan: Y = a + b x + E.

Meestal wordt van de foutenterm E verondersteld dat hij normaal verdeeld is (met gemiddelde 0 en standaardafwijking s=1).
In de meeste analyses op deze site (vooral bij sterfte) wordt de lineaire regressie enkel gebruikt om de evolutie in de tijd te schatten, en is dus de tijd (het aantal jaren) de enige verklarende variabele die in het lineaire model is opgenomen.

Met statistische methoden worden de parameters van deze lineaire relatie geschat.

Het analyseren van enkelvoudige lineaire regressie kan opgevat worden als het bepalen van de best passende lijn door de gegeven meetpunten
Wat "best passen" betekent is natuurlijk afhankelijk van het gehanteerde criterium. Eén zo'n criterium is het "kleinste-kwadratencriterium". Daarvoor wordt de kleinste-kwadratenmethode gebruikt. Van een lijn y=a+bx worden de coëfficiënten a en b zodanig berekend dat de som van de kwadraten van alle afwijkingen d i van het feitelijke meetpunt ten opzichte van de regressielijn (zie figuur) minimaal is.
Het "best passen" wordt dan op deze site uitgedrukt als de proportie verklaarde variantie of R² . Deze wordt berekend als het verschil tussen de totale variantie van de data t.o.v. de gemiddelde waarde (S[gem(y)-y]²), en de variantie t.o.v. de waarde voorspeld door de lineaire regressie (S[fx(y)-y]²). 
R² = 1: alle meetpunten vallen volledig met de lijn samen.
R² = 0,7: 70% van de trend van de meetpunten wordt verklaard door de lineaire regressie. 
lineair model 

Zijn er meer verklarende variabelen, maar is f wel een lineaire functie daarvan, dan spreken we van meervoudige lineaire regressie. Het model heeft de vorm:  Y = b 0 + b 1 x 1 + ... + b m x m+ E

Ook hier wordt verondersteld dat de foutenterm E normaal is verdeeld, en worden met de kleinste-kwadratenmethode de parameters ( b i ) geschat. De analyse verloopt geheel analoog aan de enkelvoudige lineaire regressie. Het is alleen rekentechnisch ingewikkelder.

Ga naar: Lineaire regressie op wikipedia.org