Regressione lineare

La regressione formalizza il problema di una relazione funzionale della misurazione tra variabili, sulla base di dati campionari estratti da un’ipotetica popolazione infinita.

Originariamente Galton utilizzava il termine come sinonimo di correlazione, tuttavia oggi in statistica l’analisi della regressione è associata alla risoluzione del modello lineare. Per ogni osservazione campionaria si dispone di una determinazione Y e di k determinazioni non stocastiche X1, X2, Xk... Si cerca quindi una relazione di tipo lineare tra la variabile Y e le k variabili deterministiche. Una prima analisi può essere condotta considerando un modello semplice a due variabili (si suppone in pratica che k sia pari a 1). Un tipico esempio è riscontrabile dall’esperienza economica considerando la relazione tra Consumi (C) e Reddito (Y). Ricercando una relazione funzionale in cui i consumi siano “spiegati” dal reddito si può ricorrere alla relazione lineare C=f(Y) generica relazione dei Consumi C=a+bY relazione lineare a rappresenta l’intercetta e b il coefficiente angolare della retta interpolatrice.

Generalizzando il problema a due variabili X e Y , scriveremo Yi=a+b*h(Xi)+ei

h(X) è una generica funzione di X e comunemente si assume h(X)=X Ponendo tale condizione senza perdita di generalità la formula diviene.

Yi = a + bXi + ei

Quindi la variabile dipendente Y viene “spiegata” attraverso una relazione lineare della variabile indipendente X (cioè: a + bX) e da una quantità casuale ei.

Il problema della regressione si traduce nella determinazione di a e b in modo da esprimere al ‘meglio’ la relazione funzionale tra Y e X. Per avvalorare di un significato statistico la scelta dei coefficienti occorre realizzare alcune ipotesi sul modello lineare di regressione.

X è una variabile deterministica
 E(ei)=0
 Var (ei) costante per ogni i
 Cov(ei ;ej)=0  per ogni i diverso da j
 

Date queste ipotesi si calcolano i coefficienti a e b secondo il metodo dei minimi quadrati proposto da Gauss (indicando con ** l'elevamento a potenza):

S=S(a,b)= Σ ei**2 =Σ (Yi– a – b Xi )** 2 = minimo rispetto (a ,b)

Le soluzioni si ricavano uguagliando a zero le derivate parziali di S rispetto ad a e b

δS/δa= -2 Σ (Yi – a – b Xi) = 0

δS/δb= -2 Σ (Yi – a – b Xi ) Xi = 0

Indicando con N il numero delle osservazioni

aN+b\sum_{i=1}^{N}X_i=\sum_{i=1}^{N}Y_i
a\sum_{i=1}^{N}X_i+b\sum_{i=1}^{N}X_i^2=\sum_{i=1}^{N}X_iY_i

da cui si ricavano le soluzioni

b=\frac{N\sum_iX_iY_i-\sum_iX_i\sum_iY_i}{N\sum_iX_i^2-(\sum_iX_i)^2}=\frac{S_{xy}}{S_{xx}}=\frac{cov_{xy}}{var_x}
a=\frac{\sum_iY_i\sum_iX_i^2-\sum_iX_i\sum_iX_iY_i}{N\sum_iX_i^2-(\sum_iX_i)^2}=\mu(y)-b\mu(x)


Essendo la varianza osservata data da :

S_{xx}=var_x=\frac{1}{N}\sum_{i=1}^{N}(X_i-\mu_x)^2

e la covarianza osservata da:

S_{xy}=cov_{xy}=\frac{1}{N}\sum_{i=1}^{N}(X_i-\mu_x)(Y_i-\mu_y)

dove μ è la media osservata , si possono scrivere i parametri nella forma

b = Sxy / Sxx
a = µ(y) – b µ(x)


Categoria:Statistica

See also: Regressione lineare, Campionamento statistico, Carl Friedrich Gauss, Covarianza, Derivata, Francis Galton, Media, Statistica, Varianza