Analisi del discriminante (DA)
L’Analisi Discriminante (DA) è una tecnica statistica per la classificazione che ha l’obiettivo di assegnare nuove osservazioni a classi predefinite. La sua metodologia si basa sul Teorema di Bayes e cerca di trovare funzioni discriminanti che siano in grado di separare al meglio queste classi.
Gli obiettivi principali dell’Analisi Discriminante includono:
- Classificazione: assegnare nuove osservazioni a una delle classi prestabilite.
- Descrizione: caratterizzare le differenze tra i gruppi di osservazioni.
- Riduzione dimensionale: trovare proiezioni informative dei dati che massimizzino la separazione tra le classi.
- Interpretazione: identificare le variabili più importanti per la discriminazione tra i gruppi.
Il Teorema di Bayes è fondamentale per l’Analisi Discriminante e si esprime come:
è la probabilità a posteriori che un’osservazione appartenga alla classe . è la verosimiglianza dei dati data la classe . è la probabilità a priori della classe . è la probabilità marginale di .
Il classificatore di Bayes ottimale assegna un’osservazione
- Le probabilità a priori
vengono stimate dalla proporzione di osservazioni nella classe nel training set ( ). - Le verosimiglianze
richiedono specifiche ipotesi sulla distribuzione di condizionata a .
Assunzione di Normalità Condizionale
Un’assunzione cruciale nell’Analisi Discriminante è che le variabili esplicative
Linear Discriminant Analysis (LDA)
La Linear Discriminant Analysis (LDA) è una variante dell’Analisi Discriminante. La sua assunzione distintiva è che tutte le classi condividano la stessa matrice di covarianza (
Caratteristiche e calcolo dell’LDA:
- Funzione discriminante lineare: Inserendo la densità normale multivariata (con covarianza comune) nella regola di classificazione logaritmica e semplificando, si ottiene una funzione discriminante
che è lineare in : . Questa può essere scritta anche come . - Confini di decisione: Il confine di decisione tra due classi
e è definito dall’uguaglianza , che corrisponde a un iperpiano (una funzione lineare) nello spazio delle variabili. Geometricamente, se le probabilità a priori sono uguali, il confine di decisione è perpendicolare alla linea che congiunge le medie delle classi. - Stima dei parametri: I parametri vengono stimati dai dati di addestramento:
- Probabilità a priori:
. - Media della classe
: . - Matrice di covarianza comune:
.
- Probabilità a priori:
LDA come tecnica di Riduzione Dimensionale (Criterio di Fisher):
- L’LDA può essere utilizzata anche per ridurre la dimensionalità dei dati. Cerca proiezioni che massimizzino la separazione tra le classi.
- Il Criterio di Fisher (o indice discriminante di Fisher) mira a massimizzare il rapporto tra la varianza tra i gruppi (
) e la varianza entro i gruppi ( ): . (dispersione intra-classe) misura quanto i punti si discostano dalla media della loro classe. (dispersione inter-classe) cattura la distanza tra le medie delle classi dalla media globale.
- Questo si risolve come un problema agli autovalori generalizzato (
). Gli autovettori corrispondenti agli autovalori maggiori definiscono le direzioni ottimali di proiezione. - L’LDA può estrarre fino a
dimensioni, dove è la dimensione originale e è il numero di classi. Per due classi, lo spazio LDA è 1-dimensionale. - È una tecnica supervisionata perché utilizza le etichette delle classi.
- Fisher (1936) è accreditato per aver applicato l’idea di restringere le medie dei componenti a un sottospazio lineare e per aver proposto l’Analisi Discriminante Lineare (LDA).
Vantaggi e limitazioni dell’LDA:
- Vantaggi: Semplicità, interpretabilità, efficienza computazionale, stabilità, richiede meno dati rispetto alla QDA.
- Limitazioni: I confini di decisione lineari possono essere troppo rigidi. Assume che le classi abbiano covarianze simili.
Quadratic Discriminant Analysis (QDA)
La Quadratic Discriminant Analysis (QDA) è un’altra variante dell’Analisi Discriminante. A differenza dell’LDA, la QDA permette a ogni classe di avere la propria matrice di covarianza (
Caratteristiche e calcolo della QDA:
- Funzione discriminante quadratica: La funzione discriminante
nella QDA è quadratica in : . - Confini di decisione: Il confine di decisione tra due classi è descritto da una quadrica (come un’ellissoide, paraboloide o iperboloide). La forma specifica dipende dalle matrici di covarianza delle classi.
- Stima dei parametri: I parametri vengono stimati dai dati di addestramento:
- Probabilità a priori:
. - Media della classe
: . - Matrice di covarianza per la classe
: . - La stima della matrice di covarianza per ogni classe richiede un numero maggiore di parametri (
per ogni data la simmetria) rispetto all’LDA.
- Probabilità a priori:
Vantaggi e limitazioni della QDA:
- Vantaggi: Maggiore flessibilità e capacità di catturare confini di classe più complessi, particolarmente utile quando le covarianze delle classi sono chiaramente diverse.
- Limitazioni: Richiede più parametri da stimare, il che significa che necessita di più dati per una stima affidabile. Ha un bias minore ma una varianza maggiore rispetto all’LDA. Può essere sensibile agli outlier e incontrare difficoltà con dati ad alta dimensionalità.
In sintesi, la scelta tra LDA e QDA dipende dalla natura dei dati e dalle risorse disponibili. L’LDA è preferibile quando le covarianze delle classi sono simili o i dati di addestramento sono limitati, offrendo maggiore stabilità. La QDA, con la sua maggiore flessibilità nei confini di decisione, è più adatta quando le covarianze tra le classi differiscono significativamente e si dispone di un’abbondanza di dati. Entrambe le tecniche forniscono probabilità di appartenenza alle classi.