La correlazione lineare per variabili quantitative è un concetto fondamentale nella statistica che descrive la forza e la direzione di una relazione lineare tra due variabili. Quando si studiano due variabili, come ad esempio il rischio di infarto e il numero di sigarette fumate al giorno, o l’età di un’automobile usata e il suo valore di vendita, si è interessati a quantificare la loro dipendenza. A differenza delle relazioni deterministiche, le relazioni statistiche sono affette da incertezza, il che significa che a ogni valore di una variabile possono esserne associati più di uno dell’altra.

Covarianza: Misura la variazione congiunta di due variabili

La covarianza di due variabili casuali e , denotata come , misura la variazione congiunta di queste variabili. È definita come il valore atteso del prodotto degli scarti di ciascuna variabile dalla propria media: .

Una formula alternativa e spesso più pratica per il calcolo della covarianza è: .

Cosa misura la covarianza: La covarianza indica se valori superiori alla media di una variabile tendono a verificarsi con valori superiori alla media dell’altra variabile (e viceversa), oppure se valori superiori alla media di una variabile tendono a verificarsi con valori inferiori alla media dell’altra.

  • Se , le variabili sono dette positivamente correlate o in concordanza. Ciò significa che tendono a prendere valori piccoli o grandi all’unisono. Ad esempio, l’età e l’altezza di una persona sono tipicamente associate positivamente.
  • Se , le variabili sono dette negativamente correlate o in discordanza. Ciò implica che tendono a prendere valori in controtendenza, cioè quando una variabile assume valori grandi, l’altra tende ad assumere valori piccoli.
  • Se , le variabili sono dette non correlate (o ortogonali se variabili complesse).

Proprietà importanti della covarianza:

  • Generalizzazione della varianza: La varianza di una variabile è un caso speciale della covarianza, ovvero .
  • Linearità: La covarianza è bilineare. Ad esempio, per costanti .
  • Varianza della somma di variabili: La covarianza influisce sulla varianza della somma di variabili: .
  • Sensibilità alla scala: Il valore assoluto della covarianza è sensibile alle unità di misura delle variabili. Ad esempio, cambiare le unità di altezza da metri a centimetri aumenterebbe la covarianza età-altezza di un fattore 100. Questa sensibilità rende la covarianza non adatta per quantificare la forza dell’associazione tra due quantità in modo universale.
  • Relazione con l’indipendenza: Se due variabili casuali sono indipendenti, la loro covarianza è zero. Tuttavia, la conversione non è generalmente vera: una covarianza pari a zero non implica necessariamente l’indipendenza delle variabili. Ci sono eccezioni, come nel caso delle distribuzioni normali multivariate, dove una covarianza pari a zero implica l’indipendenza. In generale, non essere correlati è una condizione molto più debole dell’indipendenza.

Coefficiente di Correlazione Lineare di Pearson (): Indice relativo di correlazione lineare, varia tra -1 e 1.

Il coefficiente di correlazione lineare di Pearson () è un indice relativo che misura la forza e la direzione di una relazione lineare tra due variabili quantitative e . È una versione normalizzata della covarianza, ottenuta dividendo la covarianza per il prodotto delle deviazioni standard delle due variabili: .

Caratteristiche e interpretazione del coefficiente di correlazione di Pearson:

  • Intervallo di variazione: Il coefficiente di correlazione di Pearson varia sempre tra -1 e 1, ovvero . Questo intervallo è una conseguenza della disuguaglianza di Cauchy-Schwarz.
  • Invarianza alla scala: A differenza della covarianza, è invariante alle trasformazioni di scala. Se le unità di misura di o vengono cambiate, il coefficiente di correlazione rimane lo stesso, il che lo rende più utile per confrontare la forza delle relazioni in contesti diversi.
  • Direzione della relazione lineare:
    • : Indica una correlazione positiva. Quando i valori di aumentano, i valori di tendono ad aumentare.
    • : Indica una correlazione negativa. Quando i valori di aumentano, i valori di tendono a diminuire.
    • : Indica assenza di correlazione lineare. Questo non significa che non ci sia alcuna relazione tra le variabili, ma solo che non c’è una relazione lineare.
  • Forza della relazione lineare:
    • vicino a +1 o -1: Indica una forte correlazione lineare. Un valore di 1 o -1 implica una perfetta correlazione lineare, significando che tutti i punti giacciono esattamente su una retta (con pendenza positiva o negativa, rispettivamente). In questo caso, i residui di una regressione lineare sarebbero tutti zero.
    • vicino a 0: Indica una debole correlazione lineare. I valori critici per interpretare la forza variano, ma come regola generale, può indicare una correlazione debole, mentre può indicare una forte correlazione.
  • Prevedibilità e regressione: Un’alta correlazione implica un’alta prevedibilità. Il coefficiente di correlazione è strettamente legato al coefficiente angolare della retta di regressione lineare. La migliore predizione lineare di data è la regressione lineare di su , e l’errore quadratico minimo di questa predizione è direttamente proporzionale a .
  • Coefficiente di determinazione (): Il quadrato del coefficiente di correlazione di Pearson, , è chiamato coefficiente di determinazione. Questo valore indica la proporzione della varianza totale della variabile dipendente che è spiegata dal modello lineare (cioè dalla variazione di ). Varia tra 0 e 1. Ad esempio, se , il 26.67% della variazione di è spiegato dalla relazione lineare con , mentre il restante 73.33% rimane inspiegato. significa che il modello spiega completamente la varianza di e i residui sono tutti nulli.
  • Test di ipotesi: È possibile testare l’ipotesi nulla che il coefficiente di correlazione della popolazione sia zero ().

In sintesi, mentre la covarianza misura la direzione della relazione lineare e la sua variazione congiunta, il coefficiente di correlazione di Pearson normalizza questa misura per fornire un indice relativo della forza e della direzione della relazione lineare, indipendente dalle unità di misura e variabile tra -1 e 1.