La correlazione lineare per variabili quantitative è un concetto fondamentale nella statistica che descrive la forza e la direzione di una relazione lineare tra due variabili. Quando si studiano due variabili, come ad esempio il rischio di infarto e il numero di sigarette fumate al giorno, o l’età di un’automobile usata e il suo valore di vendita, si è interessati a quantificare la loro dipendenza. A differenza delle relazioni deterministiche, le relazioni statistiche sono affette da incertezza, il che significa che a ogni valore di una variabile possono esserne associati più di uno dell’altra.
Covarianza: Misura la variazione congiunta di due variabili
La covarianza di due variabili casuali
Una formula alternativa e spesso più pratica per il calcolo della covarianza è:
Cosa misura la covarianza: La covarianza indica se valori superiori alla media di una variabile tendono a verificarsi con valori superiori alla media dell’altra variabile (e viceversa), oppure se valori superiori alla media di una variabile tendono a verificarsi con valori inferiori alla media dell’altra.
- Se
, le variabili sono dette positivamente correlate o in concordanza. Ciò significa che tendono a prendere valori piccoli o grandi all’unisono. Ad esempio, l’età e l’altezza di una persona sono tipicamente associate positivamente. - Se
, le variabili sono dette negativamente correlate o in discordanza. Ciò implica che tendono a prendere valori in controtendenza, cioè quando una variabile assume valori grandi, l’altra tende ad assumere valori piccoli. - Se
, le variabili sono dette non correlate (o ortogonali se variabili complesse).
Proprietà importanti della covarianza:
- Generalizzazione della varianza: La varianza di una variabile è un caso speciale della covarianza, ovvero
. - Linearità: La covarianza è bilineare. Ad esempio,
per costanti . - Varianza della somma di variabili: La covarianza influisce sulla varianza della somma di variabili:
. - Sensibilità alla scala: Il valore assoluto della covarianza è sensibile alle unità di misura delle variabili. Ad esempio, cambiare le unità di altezza da metri a centimetri aumenterebbe la covarianza età-altezza di un fattore 100. Questa sensibilità rende la covarianza non adatta per quantificare la forza dell’associazione tra due quantità in modo universale.
- Relazione con l’indipendenza: Se due variabili casuali sono indipendenti, la loro covarianza è zero. Tuttavia, la conversione non è generalmente vera: una covarianza pari a zero non implica necessariamente l’indipendenza delle variabili. Ci sono eccezioni, come nel caso delle distribuzioni normali multivariate, dove una covarianza pari a zero implica l’indipendenza. In generale, non essere correlati è una condizione molto più debole dell’indipendenza.
Coefficiente di Correlazione Lineare di Pearson ( ): Indice relativo di correlazione lineare, varia tra -1 e 1.
Il coefficiente di correlazione lineare di Pearson (
Caratteristiche e interpretazione del coefficiente di correlazione di Pearson:
- Intervallo di variazione: Il coefficiente di correlazione di Pearson varia sempre tra -1 e 1, ovvero
. Questo intervallo è una conseguenza della disuguaglianza di Cauchy-Schwarz. - Invarianza alla scala: A differenza della covarianza,
è invariante alle trasformazioni di scala. Se le unità di misura di o vengono cambiate, il coefficiente di correlazione rimane lo stesso, il che lo rende più utile per confrontare la forza delle relazioni in contesti diversi. - Direzione della relazione lineare:
: Indica una correlazione positiva. Quando i valori di aumentano, i valori di tendono ad aumentare. : Indica una correlazione negativa. Quando i valori di aumentano, i valori di tendono a diminuire. : Indica assenza di correlazione lineare. Questo non significa che non ci sia alcuna relazione tra le variabili, ma solo che non c’è una relazione lineare.
- Forza della relazione lineare:
vicino a +1 o -1: Indica una forte correlazione lineare. Un valore di 1 o -1 implica una perfetta correlazione lineare, significando che tutti i punti giacciono esattamente su una retta (con pendenza positiva o negativa, rispettivamente). In questo caso, i residui di una regressione lineare sarebbero tutti zero. vicino a 0: Indica una debole correlazione lineare. I valori critici per interpretare la forza variano, ma come regola generale, può indicare una correlazione debole, mentre può indicare una forte correlazione.
- Prevedibilità e regressione: Un’alta correlazione implica un’alta prevedibilità. Il coefficiente di correlazione è strettamente legato al coefficiente angolare della retta di regressione lineare. La migliore predizione lineare di
data è la regressione lineare di su , e l’errore quadratico minimo di questa predizione è direttamente proporzionale a . - Coefficiente di determinazione (
): Il quadrato del coefficiente di correlazione di Pearson, , è chiamato coefficiente di determinazione. Questo valore indica la proporzione della varianza totale della variabile dipendente che è spiegata dal modello lineare (cioè dalla variazione di ). Varia tra 0 e 1. Ad esempio, se , il 26.67% della variazione di è spiegato dalla relazione lineare con , mentre il restante 73.33% rimane inspiegato. significa che il modello spiega completamente la varianza di e i residui sono tutti nulli. - Test di ipotesi: È possibile testare l’ipotesi nulla che il coefficiente di correlazione della popolazione sia zero (
).
In sintesi, mentre la covarianza misura la direzione della relazione lineare e la sua variazione congiunta, il coefficiente di correlazione di Pearson normalizza questa misura per fornire un indice relativo della forza e della direzione della relazione lineare, indipendente dalle unità di misura e variabile tra -1 e 1.