Definizione di funzione legame
La funzione legame (o link function,
Scopo e Necessità
Il principale scopo della funzione legame è permettere di modellare variabili risposta che non seguono una distribuzione normale e per le quali la relazione tra la risposta e i predittori non è necessariamente lineare. In particolare, consente di mappare il range del valore atteso della variabile risposta, che spesso è limitato (ad esempio, le probabilità sono confinate tra 0 e 1), all’intero asse dei numeri reali, su cui opera il predittore lineare.
Le proprietà desiderate per
Ruolo nei Modelli Lineari Generalizzati (GLM)
All’interno di un GLM, la funzione legame è uno dei tre elementi costitutivi, insieme alla componente casuale (la distribuzione della variabile risposta, appartenente alla famiglia esponenziale naturale) e alla componente sistematica (il predittore lineare).
La relazione fondamentale per la famiglia esponenziale è
Esempi Pratici di Funzioni Legame
La scelta della funzione legame dipende dalla distribuzione assunta per la variabile risposta:
-
Regressione Lineare (Distribuzione Normale):
- Funzione Legame: Identità
. - Esempio Immaginifico: Si vuole prevedere l’altezza media (
) di una popolazione in base all’età (X). Si assume che l’altezza sia normalmente distribuita. Il modello sarà semplicemente , cioè l’identità tra il valore atteso e il predittore lineare.
- Funzione Legame: Identità
-
Regressione Logistica (Distribuzione Bernoulli/Binomiale):
- Funzione Legame: Logit
. Qui, è la probabilità di “successo” , che varia tra 0 e 1. La funzione logit mappa questo intervallo a . - Esempio Immaginifico: Prevedere la probabilità di default di un cliente (
) in base al suo saldo del conto (X). Poiché è una probabilità, il suo valore è tra 0 e 1. La funzione logit trasforma questa probabilità in log-odds, che possono variare su tutto l’asse reale: .
- Funzione Legame: Logit
-
Regressione di Poisson (Distribuzione Poisson):
- Funzione Legame: Log
. Qui, è il tasso di eventi o il conteggio atteso, che deve essere non negativo. La funzione logaritmo garantisce che il valore atteso sia sempre positivo. - Esempio Immaginifico: Modellare il numero di incidenti stradali in un incrocio (
) in base al volume di traffico (X). Il numero di incidenti è un conteggio, quindi . La funzione logaritmica assicura che il valore atteso sia sempre coerente: .
- Funzione Legame: Log
-
Regressione Gamma (Distribuzione Gamma):
- Funzione Legame: Log
(più comune) o Inversa . Utilizzata per variabili continue positive e spesso asimmetriche, come tempi o costi. - Esempio Immaginifico: Stimare il costo medio dei sinistri assicurativi auto (
) in base all’età del conducente (X). I costi sono valori positivi, e la distribuzione Gamma è adatta per variabili continue positive con asimmetria. Il modello con link logaritmico sarebbe .
- Funzione Legame: Log
Stima dei Parametri
Nei GLM, i parametri del modello (
Diagnostica GLM
Distinzione Cruciale: vs.
È fondamentale notare che nei GLM la trasformazione (