Argomenti della lezione

Argomenti della lezione • Il modello algebrico lineare • Il modello statistico lineare • La regressione lineare semplice

Alcuni aspetti generali

Relazione diretta In una relazione diretta viene ad instaurarsi un legame tra una ben definita variabile X ed un’altra variabile Y e tale legame relazionale non è mediato da nessuna altra variabile Z X Y Ciò che accade ad Y è diretta conseguenza dei fatti che caratterizzano il comportamento di X.

In condizioni sperimentali controllate è possibile osservare una dipendenza univoca di Y dagli stati differenti che caratterizzano X. Sicché, è possibile dire che Y dipende funzionalmente da X quando, essendo noti i valori numerici che X può assumere i valori numerici ottenuti dalla variabile Y possono essere calcolati in maniera univoca a partire dai valori di X che vengono opportunamente trasformati utilizzando una regola, o algoritmo di trasformazione, che indicheremo con f. X f Y Sotto queste condizioni: Y dipende funzionalmente da X tramite f.

In altre condizioni sperimentali, non è possibile osservare una completa dipendenza di Y dai fatti che caratterizzano X. E’ però possibile dire che Y dipende funzionalmente da X amenodell’influenza diretta esercitata su Y da una terza variabile Z. Questa influenza potrà essere stimata tramite una funzione g(Z) dato però per certo che tra X e Z non sussista alcuna relazione funzionale k che sia nota a priori. In altri termini: non deve esistere un effetto indiretto (gk)(X) della variabile X sulla variabile Y tramite l’effetto diretto della variabile Z quantificato tramite g. Z In generale vale Y=f(X) + g(Z) + (gk)(X) k Non esistendo però alcuna funzione tra X e Z l’espressione si riduce a: g X f Y Y=f(X) + g(Z)

Il modello algebrico lineare

L’algebra del modello lineare Il modello algebrico lineare è rappresentabile con una equazione della forma: Variabile dipendente Y= a + bX. Variabile indipendente Questo modello individua una collezione di coppie (x,y) di valori numerici, presenti sul piano cartesiano X Y, ottenute tramite una condizione di dipendenzafunzionale di Y in rapporto ad X. Questa dipendenza funzionale ci permette di disporre tali coppie (x,y) lungo un ente geometrico detto retta. Per dipendenza funzionale va intesa la condizione in base alla quale prescelto un qualsiasi valore x dall’insieme X questo stesso valore permette, in maniera univoca, di conoscere il valore y di Y da assegnare alla coppia (x,y) in modo che questa giaccia sulla retta.

fa + b• (X) + • a b X Possiamo rappresentare il modello anche in formafunzionale con l’espressione: Y=f(X;a,b) e riscrivere la regola funzionale f nella seguente maniera: In maniera algoritmica avremo Y= a + b• (X) Significato: aggiungi a al prodotto tra b ed il valore x ottenuto come determinazione della variabile X.

Il modellolineare assume quindi l’esistenza di una dipendenza funzionale dei secondi termini delle coppie a partire dalla conoscenza dei valori assunti dai primi termini e dalla conoscenza dei parametrifunzionalia e b noti al modello. In questo modo è sempre possibile individuare una qualsiasi coppia sul piano cartesiano X  Y che risulti composta funzionalmente nel seguente modo: (x,y) = (x, (a+bx) = y)  Re2. Sotto queste circostanze il grafico della funzione apparirà composto da punti in XY allineati lungo una retta. Re2

Grafico della funzione Y=a+b(X) Y f(x,y)  Re2 yi y2 (xi, (yi=a+bxi)) y1 min f(X) = a x1 x2 xi X min(X)

Y f(x,y)  Re2 y2 b y1 (x,(y=a+bx)) (y|x0= min f(X)) = a x0 x1 x2 X min(X) Interpretazione dei valori a e b del modello a = minimo della variabile Y in corrispondenza del valore minimo della variabile X. b = incremento costante in Yper incremento costante in X: b=(y2-y1)/(x2-x1) in Y=f (X;a,b)

Retta passante per due punti noti L’espressione b=(y2-y1)/(x2-x1) permette di riconoscere come l’incremento nella variabile Y dal valore y1 al valore y2 sia rapportabile all’incremento della variabile X dal valore x1 al valore x2. Inoltre, il valore di b è costante per qualsiasi coppia di valori (yi, yj) ed (xi, xj) vengano scelti dai rispettivi insiemi. Y b b=(y2-y1)/ (x2-x1) y1y2 y2 y2-y1 a y1 c x2-x1 x1 x2 X x1x2 (y2-y1) = b (x2-x1)

Retta passante per l’origine Y Re2 p3 y3 p2 y2 p1 y1 o x1 x2 x3 X I punti sulla retta possono essere identificati tramite le loro coordinate sui due assi X e Y all’interno dello spazio euclideo Re2. p1=(x1,y1) p2=(x2,y2) p3=(x3,y3)

Retta passante per l’origine Y Re2 p3 y3 p2 y2 p1 y1 o x1 x2 x3 X I rapporti tra le lunghezze dei segmenti, ottenuti come proiezioni delle coppie (x,y) sulla variabile X e sulla variabile Y rispettivamente, ci permettono di valutare come tale insieme di valori si mantenga costante e come il risultato comune sia uguale a b.

La costante b viene anche detta coefficiente angolare e permette di calcolare l'inclinazione (o la pendenza) che la retta ha quando essa ha come punto d’origine l’intersezione tra i due assi rappresentanti le variabili X ed Y. Essendo quindi si ha che

II I -b b o III IV b -b Possiamo riscontrare che se la retta con origine in o sta nel I o nel III quadrante, il suo coefficiente angolare b è positivo. Se la retta sta nel II o nel IV quadrante, il suo coefficiente angolare b è negativo (-b).

In generale possiamo rappresentare il segno algebrico (+ o -) che il valore parametrico b assume in funzione dei segni algebrici che le variabili X ed Y ottengono all’interno dei quattro quadranti cartesiani. Re2 (-,+) -b (+,+) b (-,-) b (+,-) -b

Retta non passante per l'origine Y a a r’ a a r X’ o’ o X Se indichiamo con o’= (min(X), a) il punto in cui r’ incontra l'asse Y, e tracciamo un nuovo asse parallelo ad X che chiamiamo con X’ avremo eseguito una traslazione sul punto di ordinata a dell’asse X sul nuovo asse X’. Questa traslazione ci permette di trasferire l'origine o nel nuovo sistema di riferimento X’o’Y. In questa circostanza dobbiamo riscrivere l’equazione della retta r’ sul sistemadiriferimento degli assi XoY nella seguente maniera: Y=a+b(X); mentre in riferimento al sistema X’o’Y si ha Y=a+b(X’)-a= b(X’).

Verifica y’= b x’ Y=Y’ y’ X’ o’ y a x=x’ X o Per sostituzione: y’=y-a y’= b x’ x’=x y - a = b x y= b x + a

Se adesso confrontiamo la distanza tra le due rette r’ ed r possiamo verificare come questa distanza si mantenga costante e con valore uguale al parametro lineare a per qualsiasi valore venga scelto in X. y’= b x’ Y=Y’ y’ y’ a r’ a y = b x + a a y r x’ o’ X’ x=x’ a x o X (y’= b x’ ) - (y = b x + a) y’ - y= a + b(x’ - x) ma(x’ – x)= 0 quindi y’ - y= a è la distanza in Y tra le due rette parallele.

Fascio di rette di centro (x’,y’) y’ - y = b x’ - x Se la traslazione congiunta dei due assi avviene sul primo quadrante del sistema YoX possiamo scrivere l’equazione della retta nella seguente maniera: Y’ Y y’ X’ (x’, y’) =o’ x’ X (x,y)=o y’ - y = b x’ - bx y’ - y = b(x’ - x)

Il modello statistico lineare

Grafico del modello lineare statistico Re2 Y (x, (y=a+bx+e)) y e   (x, ( y=a+bx)) y y (x, (y=a+bx)) a x x X E’ necessario perciò considerare la famiglia di esiti  di un esperimento in senso statistico ed assumere che per le variabili X ed Y esistano delle leggi di probabilità che ne individuino il comportamento. Sotto queste circostanze il modello lineare statistico dovrà considerare la variabilità degli esiti che caratterizza l’osservazione della variabile Y fornita di una qualche regolarità statistica.

 Y = Equazione generale Possiamo allora descrivere il modello lineare statistico con l’equazione: yi=a+bx+ei Punto fuori dalla retta dove i=1,…,n; ed n é il numero di coppie di dati (x, y). Si tenga presente che sebbene il termine ei risulti scritto alla destra dell’equazione, esso riguarda la variabile dipendente Y e non la variabile indipendente X. Sicché potremmo più chiaramente scrivere: yi - ei = a+bx Punto sulla retta

Commento Il legame statistico lineare che mette in relazione la variabile X alla variabile Y può essere considerato composto da due termini tra loro indipendenti: da un lato abbiamo i valori attesi in base al modello lineare algebrico e indicati con y; dall’altro lato abbiamo invece la variazionecasuale dell’esito y che può essere ricondotta ad una legge di probabilità La variazione casuale in Y è rappresentata dalla quantità e del modello e viene anche indicata come termine d’errore.  Lo schema generale è: valori attesi dal modello Valori osservati in Y = + variazione casuale

In un modello lineare statistico l’insieme delle coppie (x,y) sul piano appare in genere nella maniera seguente: (x1, (y1=a+bx1+e)) r y1 x1 In questo caso i parametri a e b della retta sono entrambi positivi mentre per ciascuna delle coppie (x,y) della retta r il valore casuale e potrà assumere un segno positivo oppure negativo a seconda che il punto cada al di sopra o al di sotto di r.

La regressione lineare

La regressione lineare L’obbiettivo della regressione lineare è quello di calcolare i parametri a e b che meglio rappresentino l’insieme delle coppie (xi,yi)  Re2. (x1, (y1=a+bx1+e)) r y1 x1

Il metodo dei minimi quadrati Il metodo dei minimi quadrati permette di individuare il luogo geometrico della retta r in modo tale che questa renda minima la somma delle superfici quadrate delle distanze e dei singoli punti (x,y) dalla stessa retta. r (xi,yi) Y X e2

La stima dei parametri Re2 Y (x, (y=a+bx+e)) y e   (x, ( y=a+bx)) y y (x, (y=a+bx)) a x x X Per ottenere questo traguardo è necessario considerare l’area totale generata dagli n punti (x,y) e renderla minima rispetto al luogo geometrico della retta r passante all’interno della nube dei punti sul piano. Pertanto potremmo scrivere:

^ yi r Sul piano noi disponiamo di n termini d’errore casualee yi ei xi

r (xi,yi) Sugli stessi n termini d’errore casualepossiamo costruire le loro aree quadratee2 Y X e2 e sommarle

E’ adesso necessario rendere minima la somma dei quadrati e2 identificando quella retta r nel piano Re2 che sia in grado di rendere questo risultato possibile. Se adesso identifichiamo con S la funzione somma applicata all’n-pla relativa al campione dei dati ottenuti per Y. Se cioè: S(d1,d2,…,dn) Possiamo usare la seguente espressione funzionale:

Noi però sappiamo che il valore y dipende funzionalmente dal valore x possiamo quindi sostituire il termine y con il valore restituito dall’applicazione della regola funzionale g nella seguente maniera: S(d1,d2,…,dn)

Procedimento analitico Deriviamo adesso la funzione S rispetto al parametro a. Uguagliando a 0 e ordinando i termini si ottiene la primaequazionenormale della regressione lineare.

Deriviamo adesso la funzione S rispetto al parametro b. Uguagliando a 0 e ordinando i termini si ottiene la secondaequazionenormale della regressione lineare.

Esempio Deriviamo il parametro a Nel caso in cui n=3 Deriviamo il parametro b

Equazioni normali della retta di regressione Risolvendo simultaneamente il sistema di equazioni si ottengono le soluzioni volute per i parametri a e b. Per i=1,…,n

Valori dei parametri Per i=1,…,n

Equazioni del punto (mX,mY) sulla retta ^ y Re2 Y y e y (x, (y=a+bx)) a x x X Se assumiamo che il punto di coordinate(mX,mY)appartenga alla retta, possiamo calcolare le equazioni normali di regressione in funzione delle coordinate del punto (x, (y=a+bx)). Siano quindiE(X)=mXeE(Y)=mYi valori attesi centrali delle distribuzioni di probabilità delle variabili casuali X ed Y.

Partiamo dalla prima equazione normale del metodo dei minimi quadrati: Operiamo adesso il passaggio ai valori attesi E(X)=x e E(Y)=y (centratura in (x, y)) considerando questo punto come origine degli assi X ed Y. Essendo ed anche Si tenga anche presente che la quantità totale dei valori di una variabile casuale è nvolte più grande del suo valore atteso e cioè: e

Sostituendo le nuove espressioni all’interno della prima equazione normale otteniamo una nuova relazione della forma: Verifichiamo che l’espressione è ricavabile dividendo tutti i termini dell’equazione normale per la quantità n e risolvendo per a. Per i=1,…,n Chiaramente: e

Consideriamo adesso la seconda equazione normale Per i=1,…,n Anche i questo caso possiamo esprimere l’equazione nei termini dei valori attesi delle variabili X ed Y sostituendo il risultato precedentemente ottenuto per il parametro a e risolvendo per b.

Riassumendo Il parametro di regressione lineare a può essere calcolato a partire dai dati sperimentali ottenuti per le variabili casuali X ed Y essendo però noti i valori attesi delle due variabili; cioè: x e y. Il parametro di regressione lineare b è più complesso nella struttura del calcolo ma può anch’esso essere direttamente ottenuto a partire dai dati sperimentali impiegando la formula:

Fascio di rette di centro(mX,mY) ^ y y- y = b x - x Re2 Y y e y x X x Noi sappiamo che sul sistema centrato su(mX,mY) è valida la relazione: Dalla quale sappiamo ricavare l’espressione: y- y= b(x - x)

^ ^ ^ y y y Re2 Y p=(x’,y) y e y x’ X h o’=x x o X k Possiamo riconoscere osservando il grafico che la posizione del punto p di coordinate (x’,y) riferita all’origine relativa (mX,mY) degli assi X ed Y può essere ottenuta geometricamente tramite la lunghezza del segmento (y, y) in corrispondenza del valore x’. Sappiamo inoltre che una parte di questa lunghezza è da noi ricavabile in base alla dipendenza funzionale esistente tra le due variabili. Possiamo quindi per ogni valore di X ricavare la lunghezza del segmento ( , y) essendo = f(x’). Qualora il sistema non dovesse essere centrato su (mX,mY) si dovrà sempre considerare il segmento (o,mY)=h e il segmento(o,mX)=k .

Retta interpolante y- y = b x - x Abbiamo visto che il parametro di regressione b è quello importante poiché il parametro a può essere determinato sulla base della conoscenza di b e dei valori medi delle variabili X ed Y. y- y= b(x - x) Noi però sappiamo che una retta passante per l’origine ha equazione: y = b x

Per considerare il sistema centrato sulla coppia (mX,mY) è necessario annullare il valore del parametro a traslando l’asse X sull’origine mx e l’asse Y sul valore mY. r y’ y h=y y x’ o x Dato che x k= x y- y= b(x - x) [( y’+y) - y]= b[(x’ + x) - x] quindi y’ = b x’ Se trasliamo gli assi di una quantità pari ai valori delle due medie possiamo utilizzare l’equazione di una retta passante per l’origine posta sul baricentro gravitazionale delle due variabili casuali X ed Y rispettivamente; mentre y’ e x’sono i rispettivi scarti dalle medie.

^ ^ y y Possiamo indicare per semplicità che y = + e Dei due addendi solo il primo è da noi predicibile in base al valore x; mentre il secondo è mutevole da prova a prova ed è dovuto a fattoricasuali che incidono occasionalmente a modificare il valore del risultato finale. Se riprendiamo i risultati precedentemente ottenuti possiamo sostituire l’elemento di conoscenza di natura non casuale e quindi possiamo scrivere: y = a+ bx + e Dato osservato Valore previsto Variazione casuale

^ y y = + e y = a+ bx + e In riferimento alle medie delle due variabili noi adesso sappiamo che il parametro a è calcolabile con: Se sostituiamo questo risultato nella precedente espressione otteniamo: y = y - bx +bx + e = y+bx - bx + e = y + b(x -x) + e La distanza tra il dato osservato e la media y della variabile Y è con ciò definito dalla relazione: y- y = b(x -x) + e

Argomenti della lezione