A cura di : Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,

Corso di Laurea in StatisticaMatematica etrattamentoInformaticodeiDatiati Università di Genova Applicazione del modello di regressione di Poisson e del modello logistico in Epidemiologia Lezione 1 Introduzione al modello di Poisson negli studi di coorte Esercitazione pratica nell’ambito del Corso di Modelli Statistici - Anno Accademico 2006-2007 A cura di: Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma, c/o Servizio di Epidemiologia e Biostatistica, Direzione Scientifica, Istituto G. Gaslini, Largo G. Gaslini 5, 16147 Genova - Tel: 010 5636 301 - 423, Fax: 010 377 6590, e-mail: stefanoparodi@ospedale-gaslini.ge.it

Il disegno dello studio in Epidemiologia • L’Epidemiologia è la scienza che studia la distribuzione nello spazio e nel tempo delle malattie, delle loro cause e dei loro rimedi. • A tal fine si avvale di diverse tipologie di studio (disegni dello studio), che possono essere raggrupati in tre grandi categorie: a) studi sperimentali c) studi semi-sperimentali d) studi osservazionali

test di laboratorio sperimentazioni cliniche (clinical trials) sperimentale interventi di comunità Disegno dello studio in Epidemiologia quasi-sperimentale (o semi-sperimentale) ecologico descrittivo trasversale (cross-sectional) osservazionale di coorte (follow-up) analitico caso-controllo

Gli studi sperimentali (o esperimenti) sono indagini in cui la distribuzione del fattore in studio viene decisa dallo sperimentatore, attraverso una procedura denominata randomizzazione. • Tale procedura consiste nell’assegnare in modo casuale il fattore (ad esempio un trattamento rispetto a un placebo) nei soggetti in studio. • I principali studi sperimentali sono i test di laboratorio, le sperimentazioni cliniche (clinical trials) e gli interventi di comunità.

Il loro vantaggio principale risiede nella possibilità di isolare gli effetti di interesse dai fattori estranei che possono influenzare le stime osservate, persino nel caso in cui questi non siano completamente noti. • Tali fattori sono noti come fattori di confondimento o confondenti. • Per tale motivo gli studi sperimentali sono considerati come altamente probanti.

Gli studi semi-sperimentali sono caratterizzati dalla possibilità di manipolare il fattore in studio, senza però utilizzare la randomizzazione. • Ciò può avvenire, ad esempio, quando ogni soggetto in un solo gruppo viene osservato prima e dopo un determinato trattamento oppure quando il fattore in studio viene rilevato su volontari. • Gli studi semi-sperimentali comprendono alcune indagini di laboratorio, clinical trials, e studi di valutazione degli interventi di politica sanitaria (introduzione di un limite di velocità, adozione di un divieto al fumo in luoghi pubblici, ecc...).

Gli studi osservazionali sono indagini in cui il ricercatore non può manipolare il fattore in studio. • In tali indagini l’osservazione viene condotta in modo da assomigliare il più possibile a un esperimento (osservazione pianificata). • Ad esempio, è possibile selezionare due gruppi di operai, di cui uno esposto a sostanze potenzialmente tossiche, e seguirli entrambi nel tempo per verificare se vi sono differenze nella comparsa di malattie.

Gli studi osservazionali possono essere distinti in due categorie: • gli studi descrittivi, che comprendono lo studio ecologico (spesso considerato come lo studio descrittivo “per eccellenza”) e lo studio trasversale (cross-sectional); • gli studi analitici, tra cui i più importanti sono lo studio di coorte e lo studio caso-controllo, che costituiranno l’oggetto della presente esercitazione. • Infatti in tale ambito vengono principalmente applicate le due metodiche di analisi di regressione che verranno illustrate, ovvero: il modello logistico e il modello di Poisson.

Lo studio di coorte • Nell’ambito degli studi osservazionali, lo studio di coorte, o studio di follow-up, è considerato lo studio analitico per eccellenza. • Infatti permette di osservare l’insorgenza della patologia dopo l’avvenuta esposizione, di misurare quindi i tempi di esposizione e di ottenere stime di associazione tra l’esposizione e la probabilità di contrarre una determinata patologia. • Tale procedura consiste nel confronto tra gruppi, denominati “coorti”, costituiti da soggetti esposti e da soggetti non-esposti.

Lo stesso disegno di studio viene spesso adottato anche nell’ambito degli studi sperimentali o semi-sperimentali, per esempio per valutare la diversa comparsa di ricadute in gruppi di pazienti sottoposti a trattamenti diversi e quindi per confrontare l’efficacia di tali trattamenti. • Sulla base della selezione dei soggetti si distinguono diverse tipologie di coorti, tra cui le due principali sono: • la coorte chiusa • la coorte aperta.

Nella coorte chiusa il campione in studio viene identificato interamente in un preciso istante temporale. • Solitamente, vengono identificati simultaneamente i fattori di interesse per lo studio, ovvero la presenza di esposizioni in soggetti sani o il tipo di trattamento per quanto riguarda gli studi clinici. • I soggetti vengono quindi seguiti nel tempo per rilevare la comparsa dell’evento di interesse (patologie, decesso, ricadute o recidive negli studi clinici), come illustrato nella Figura 2.

ESEMPIO SCHEMATICO DI UNO STUDIO DI COORTE CHIUSA 1 2 Esposti 3 4 Popolazione in studio 5 6 Non-esposti 7 8 7 8 1 2 3 4 5 6 Periodo di follow-up (anni) = Evento

In uno studio di coorte chiusa è possibile stimare direttamente la probabilità del verificarsi degli eventi di interesse durante il periodo di osservazione. • Infati è sufficiente calcolare la frequenza con cui tali eventi si sono verificati entro tale periodo. • La probabilità del verificarsi degli eventi, condizionata al tempo di osservazione prende il nome di Rischio.

1 Esposti 2 3 4 5 Non-esposti 6 7 8 7 8 1 2 3 4 5 6 Periodo di follow-up (anni) • Nell’esempio sopra illustrato il rischio di ammalarsi negli esposti durante il periodo di osservazione (8 anni) sarà quindi pari al 50% (2 eventi osservati su 4 soggetti in studio), mentre il corrispondente rischio nei soggetti non esposti sarà del 25% (1 evento osservato su 4 soggetti).

1 Esposti 2 3 4 5 Non-esposti 6 7 8 7 8 1 2 3 4 5 6 Periodo di follow-up (anni) • Il rapporto tra tali rischi, denominato Rischio Relativo(RR), può quindi essere utilizzato come misura dell’associazione tra l’avvenuta esposizione e la probabilità di comparsa della malattia.

Nell’esempio sopra illustrato la stima del rischio relativo dovuto all’esposizione sarà quindi pari a 2, indicando che gli esposti presentano un rischio doppio di ammalarsi rispetto ai non esposti. • Il RR tenderà ad assumere valori vicini a 1 se non vi è associazione tra il fattore in studio e la probabilità di insorgenza della patologia, mentre valori superiori a 1 saranno osservati per quei fattori (detti, appunto, fattori di rischio) che sono associati a tali patologie. • Valori compresi tra 0 e 1 saranno invece osservati per fattori associati inversamente al rischio (che verranno denominati “fattori protettivi”).

1 Esposti 2 3 4 5 Non-esposti 6 7 8 7 8 1 2 3 4 5 6 Periodo di follow-up (anni) • Si noti come le stime di rischio siano condizionate alla durata del tempo di osservazione (periodo di follow-up). Infatti se tale periodo fosse stato di soli tre anni si sarebbero osservati 0 eventi in entrambi i gruppi di esposizione e quindi le corrispondenti stime di rischio sarebbero state entrambe pari a zero.

1 Esposti 2 3 4 5 Non-esposti 6 7 8 7 8 1 2 3 4 5 6 Periodo di follow-up (anni) • Se invece il tempo di osservazione fosse stato di 6 anni, si sarebbe osservato un rischio del 25% in entrambi i gruppi, e di conseguenza la stima di RR sarebbe stata pari a 1.

Il Rischio, essendo una probabilità, può assumere solo valori compresi tra 0 e 1 ed è adimensionale (ovvero è un numero puro, privo di unità di misura). • Per distinguerlo dal rischio istantaneo (ovvero dal valore cui tenderebbe in un intervallo temporale tendente a zero) viene anche denominato Rischio Cumulativo, in quanto rappresenta una probabilità cumulativa.

In una coorte aperta, al contrario del caso precedente, la perdita del soggetto durante il follow-up può avvenire anche per motivi diversi dalla fine del periodo di osservazione o dal manifestarsi dell’evento di interesse. • Il soggetto può risultare “perso di vista” (ad esempio per fenomeni di migrazione), oppure può decedere per cause diverse da quella in studio. • In tal caso il tempo di osservazione si definisce troncato (censored).

ESEMPIO SCHEMATICO DI UNO STUDIO DI COORTE APERTA 1 2 Esposti 3 4 Popolazione in studio 5 6 Non-esposti 7 8 7 8 1 2 3 4 5 6 = Osservazione troncata (censored) Periodo di follow-up (anni) = Evento

Un caso particolare, ma molto comune di coorte aperta, è la coorte dinamica, che è costituita da individui che possono cambiare nel tempo, per movimenti naturali, anagrafici o amministrativi. • Un esempio può essere rappresentato dalla maggior parte delle coorti occupazionali. • Una coorte lavorativa infatti, si può formare solo in piccola parte al momento dell’apertura di uno specifico impianto (assunzione). • In genere il periodo di studio è molto lungo e nel tempo nuove maestranze sono assunte, mentre altre escono dall’azienda per pensionamento, trasferimento, licenziamento, ecc...

ESEMPIO SCHEMATICO DI UNO STUDIO DI COORTE DINAMICA 1 2 Esposti 3 4 Popolazione in studio 5 6 Non-esposti 7 8 7 8 1 2 3 4 5 6 = Osservazione troncata (censored) Periodo di follow-up (anni) = Evento

ESEMPIO SCHEMATICO DI COORTE APERTA RICAVATA DA UNA COORTE DINAMICA 1 2 Esposti 3 4 Popolazione in studio 5 6 Non-esposti 7 8 7 8 1 2 3 4 5 6 = Osservazione troncata (censored) Periodo di follow-up (anni) = Evento

1 Esposti 2 3 4 5 6 Non-esposti 7 8 7 8 1 2 3 4 5 6 Periodo di follow-up (anni) • In genere la presenza del troncamento impedisce di produrre stime dirette del rischio, dato che i tempi di osservazione per i diversi soggetti sono diversi.

1 Esposti 2 3 4 5 6 Non-esposti 7 8 7 8 1 2 3 4 5 6 Periodo di follow-up (anni) • Una possibilità per ottenere stimatori di rischio relativo è quella di stimare un’altra fondamentale grandezza utilizzata in Epidemiologia, ovvero il Tasso.

La definizione di tasso può essere ricavata dalla relazione che lega il rischio al tempo in una coorte chiusa: • La quantità l costituisce il tasso di comparsa degli eventi nella coorte e misura quindi la velocità con cui tali eventi si verificano nel tempo.

Per molte patologie la variazione di l rispetto al tempo può essere considerata (almeno approssimativamente) trascurabile, da cui: • Nel caso in cui si studino patologie rare, per le quali il tasso di insorgenza risulti “piccolo” (nell’ordine, ad esempio, di un evento per 10-3 – 10-6 persone per anno), si può adottare la seguente utile approssimazione:

ANDAMENTO DEL RISCHIO IN FUNZIONE DEL TASSO 1.0 0.9 l1 0.8 l2 l3 0.7 l4 0.6 Rischio l1 = 0.0010.t-1 0.5 l2 = 0.0005.t-1 0.4 l3 = 0.0003.t-1 0.3 l4 = 0.0002.t-1 0.2 0.1 0.0 1 2 3 4 5 6 7 8 9 10 Tempo di osservazione (follow-up)

1.0 0.9 l1 0.8 l2 l3 0.7 l4 0.6 Rischio l1 = 0.0010.t-1 0.5 l2 = 0.0005.t-1 0.4 l3 = 0.0003.t-1 0.3 l4 = 0.0002.t-1 0.2 0.1 0.0 1 2 3 4 5 6 7 8 9 10 Tempo di osservazione (follow-up) • Si può osservare l’andamento approssimativamente lineare di tale relazione per bassi valori di lt.

Si Il tasso medio l può essere stimato dal rapporto tra gli eventi osservati e la sommatoria dei tempi di osservazione m per ogni singolo soggetto: dove O sono gli eventi osservati e m viene denominata “massa persone-tempo a rischio”.

Dalla relazione tra rischio e tasso per eventi rari si evince che il rapporto tra tassi (rate ratio) può essere impiegato come stimatore di rischio relativo: dove il pedice E indica la sub-coorte degli esposti e il pedice NE quella dei non-esposti.

Variabilità della stima dei tassi e distribuzione di Poisson • La variabilità della stima di un tasso e il confronto tra tassi diversi necessitano di assunzioni sulla distribuzione di probabilità che si ritiene generi gli eventi osservati. • Nella grande maggioranza delle applicazioni, la variabilità della stima della popolazione a rischio viene considerata trascurabile rispetto alla variabilità del numero degli eventi stessi. • Quindi si assume che solamente il numeratore contribuisca alla variabilità della stima del tasso.

Si può assumere che gli eventi osservati in un intervallo di tempo Dt siano generati da una distribuzione binomiale (condizionata al tempo t) con parametri: p  dimensioni della popolazione a rischio, R  rischio di ammalarsi nel tempo Dt e O  numero di eventi osservati in Dt .

Considerando invariante la popolazione a rischio, la funzione binomiale può essere riparametrizzata nel modo seguente: • Se applicata allo studio di patologie rare, tale distribuzione può essere approssimata dalla distribuzione di Poisson, che presenta una formulazione analitica più semplice.

Essendo:

P(O) segue una distribuzione di Poisson, con parametro m che rappresenta sia il valore atteso che la varianza, e che corrisponde al prodotto p.R della corrispondente distribuzione binomiale. • La varianza della stima di un tasso è facilmente calcolabile assumendo che la massa persone-tempo m a rischio sia invariante e che gli eventi osservati O rappresentino una stima di m:

Variabilità del rapporto tra tassi e inferenza statistica • Applicando alla stima del logaritmo di RR l’approssimazione alla distribuzione normale se ne possono ottenere gli intervalli di confidenza a uno specifico valore di 1-a: che si ricava applicando la seguente formula approssimata per la stima della varianza del logaritmo di un tasso (metodo delta):

L’applicazione di tale formula per l’inferenza statistica nello studio di coorte può essere illustrata mdiante il seguente esempio. • Si supponga di aver osservato la mortalità per tumori maligni dell’apparato respiratorio in una coorte di lavoratori, tra i quali un gruppo era esposto a sostanze potenzialmente cancerogene e uno era non esposto, entrambi osservati per un periodo di tempo adeguato agli obiettivi dello studio.

La stima del tasso per anno di osservazione negli esposti è: • Il corrispondente tasso nei non esposti è:

da cui: • i relativi intervalli di confidenza al 95% sono:

Dal momento che tali intervalli comprendono il valore di 1, atteso sotto l’ipotesi nulla di uguaglianza del rischio nei due gruppi a confronto, tale ipotesi non può essere rigettata. • Si può quindi concludere che nel campione in studio non vi è evidenza di alcun effetto dell’esposizione. • Un risultato del tutto analogo si sarebbe potuto ottenere mediante il modello di regressione di Poisson.

STIMA DI UN RAPPORTO TRA TASSI MEDIANTE IL MODELLO DI REGRESSIONE DI POISSON • Come sopra brevemente illustrato, il numeratore di un tasso, stimato per una patologia rara, può essere considerato come la realizzazione di una variabile Poissoniana con parametro ignoto m. • Di conseguenza, la relazione che lega il tasso a variabili di interesse, ad esempio esposizioni in soggetti sani o trattamenti farmacologici in pazienti, può essere modellata mediante un modello di regressione di Poisson.

Come ampiamente illustrato nelle lezioni teoriche del Corso, il modello di Poisson può essere esplicitato nella forma seguente: • con:

Comunemente si utilizza una funzione di link logaritmico, che permette di evitare valori attesi negativi (che non hanno senso se si tratta di modellare un conteggio). • Si noti però che il modello di Poisson adotta come variabile risposta un conteggio, mentre la variabile di interesse negli esempi sopra riportati è un tasso, ottenuto come rapporto di un conteggio e di una costante. • Risulta quindi opportuno introdurre nel modello tale costante (cioè gli anni persona a rischio), oppure la sua trasformata logaritmica se il modello è log-lineare, sotto forma di OFFSET.

In un GLM l’offset rappresenta un predittore che viene introdotto nel predittore lineare con coefficiente pari a 1. • A seconda della funzione di link, tale predittore deve essere opportunamente trasformato; ad esempio, se il link è la funzione logaritmo, anche l’offset deve essere trasformato mediante trasformazione logaritmica) . • Nel caso di una sola variabile (dummy) di esposizione E, con valore 0 per i non-esposti e 1 per gli esposti, i valori stimati attesi di un modello di regressione log lineare di Poisson saranno:

da cui si ricava che l’antilogaritmo del coefficiente per la dummy di esposizione rappresenta la stima di RR ricercata: dove lE e lNE rappresentano rispettivamente il tasso negli esposti e nei non esposti.

Utilizzando la stima dell’errore standard di b1 ricavata dal modello, si possono produrre gli intervalli di confidenza a un prefissato valore di 1- a (tipicamente, al 95%) mediante il metodo di Wald. • L’anti-logaritmo di tali limiti di confidenza fornisce l’intervallo di confidenza corrispondente per la stima di RR, utilizzabile ai fini dell’inferenza statistica:

Grazie a tale modellamento, il modello di Poisson risulta del tutto analogo ad un modello di regressione lineare semplice o multipla che utilizzi come variabile risposta il logaritmo di un tasso. • Tra i vantaggi dell’applicazione di un modello di Poisson vi è la possibilità di analizzare matrici di dati in cui sono presenti zero osservazioni in una o più categorie di interesse . • Inoltre il modello di Poisson non assume l’omoscedasticità della variabile risposta nelle varie categorie dei predittori, che è parte degli assunti del modello lineare generale.

IL CONFONDIMENTO IN UNO STUDIO DI COORTE • Nell’analisi di dati epidemiologici occorre valutare la presenza di variabili che, se associate sia alla variabile risposta (incidenza, mortalità, ecc...) che al fattore in studio (esposizione, trattamento, fattori genetici, ecc...) possono produrre distorsioni nelle stime di associazione. • Tali fattori prendono il nome di confondenti, il fenomeno viene denominato “confondimento” e l’eventuale distorsione indotta nelle stime viene denominata “bias da confondimento”.

A cura di : Stefano Parodi, Fondazione Italiana per la lotta al Neuroblastoma,