Definizione di distanza di Cook
La distanza di Cook (
Scopo e Definizione: Il suo obiettivo primario è identificare le osservazioni che, se rimosse dal dataset di addestramento, altererebbero significativamente i risultati del modello. A differenza di altre misure diagnostiche, la distanza di Cook combina due aspetti cruciali dell’influenza di un’osservazione: l’essere un outlier (ovvero avere un residuo ampio) e l’avere una leva elevata (ossia essere un punto estremo nello spazio delle variabili esplicative).
Formula e Componenti: Matematicamente, la distanza di Cook per l’i-esima osservazione è definita come:
è il vettore dei coefficienti stimati utilizzando tutte le osservazioni. è il vettore dei coefficienti stimati escludendo l’i-esima osservazione. è la matrice del modello (design matrix). è la matrice dei pesi (in un GLM, questi dipendono dalla funzione legame e dalla funzione di varianza). è il numero di parametri nel modello. è la stima del parametro di dispersione.
Una forma equivalente e più intuitiva, che ne evidenzia le componenti di outlier e leva, è:
- Residuo (
): Rappresenta la grandezza dell’errore di previsione per l’i-esima osservazione. Un residuo elevato indica un outlier, ovvero un’osservazione la cui risposta osservata è inaspettata rispetto a quanto previsto dal modello. - Leva (
): Gli elementi diagonali della hat matrix ( ) sono gli elementi di leva ( ). Essi misurano quanto un’osservazione è “lontana” dal centro dello spazio delle variabili esplicative. - Un’alta leva (
vicino a 1, con soglie indicative come o ) indica che l’osservazione è isolata e ha un alto potenziale di influenzare le stime. - Una bassa leva (
) significa che l’osservazione è vicina al centro dei dati e ha poco potenziale di influenza, anche se può comunque essere un outlier.
- Un’alta leva (
Interpretazione: La distanza di Cook quantifica quanto la rimozione di un’osservazione modificherebbe le stime dei coefficienti. Non esiste una soglia universale per definire un punto “influente”, ma delle regole empiriche comuni suggeriscono che un’osservazione è:
- Altamente influente se
. - Moderatamente influente se
.
Un’osservazione può essere influente se è un outlier con alta leva, o se è un outlier così estremo da essere influente anche con bassa leva, o se ha una leva estremamente alta anche senza essere un outlier. In altre parole, l’influenza si verifica quando un’osservazione “tira” la retta di regressione verso di sé a causa della sua posizione isolata o del suo residuo elevato.
Rappresentazione Grafica: La distanza di Cook viene spesso visualizzata graficamente per facilitare l’identificazione di punti influenti. Un tipico “Cook’s distance plot” mostra la distanza di Cook per ogni osservazione, spesso con una linea orizzontale che indica una o più soglie di riferimento (es.
Un’altra visualizzazione utile è l‘“influence plot” o “bubble plot”. Questo grafico combina sui suoi assi i residui standardizzati (y-axis) e i valori di leva (x-axis), mentre la dimensione dei “bubble” (i punti) è proporzionale alla distanza di Cook.
- Esempio immaginifico: Immagina di modellare il prezzo di case (
) in funzione della loro dimensione ( ). Se hai un punto dati che rappresenta una villa enorme (alta leva) ma con un prezzo molto basso (outlier), la distanza di Cook per quel punto sarà elevata perché sta tirando la linea di regressione significativamente lontano dalla sua posizione originale, distorcendo la stima del coefficiente dimensione. Se fosse una villa enorme con un prezzo coerente (alta leva, basso residuo), potrebbe non essere influente, ma se fosse una casa di dimensioni medie con un prezzo anomalo (bassa leva, alto residuo), potrebbe essere un outlier ma meno influente sulle stime complessive.
Relazione con altre Misure Diagnostiche: La distanza di Cook è strettamente correlata ad altre misure di influenza come DFBETAS e DFFITS:
- DFBETAS misura il cambiamento nei singoli coefficienti (
) quando l’i-esima osservazione viene esclusa. - DFFITS misura il cambiamento nei valori predetti (
) quando l’i-esima osservazione viene esclusa.
Mentre DFBETAS e DFFITS offrono una visione più granulare dell’influenza (su quali coefficienti o predizioni agisce un punto), la distanza di Cook fornisce una sintesi complessiva dell’impatto di un’osservazione sull’intero modello.