Definizione di Naive Bayes
Il Naive Bayes è un Classificatore probabilistico basato sul Teorema di Bayes.
- È definito "ingenuo" (naive) per via della sua assunzione fondamentale di indipendenza condizionale tra le caratteristiche (o predittori) dato un certo valore della classe.
- Nonostante questa semplificazione, spesso non vera nel mondo reale, il Naive Bayes si dimostra efficace in molte applicazioni pratiche e richiede relativamente pochi dati per l’addestramento.
Formula di un classificatore bayesiano
Il classificatore si fonda sulla seguente espressione del Teorema di Bayes:
Dove:
è la probabilità a posteriori della classe dato il vettore di caratteristiche . è la verosimiglianza, ovvero la probabilità di osservare data la classe . è la probabilità a priori della classe . è la probabilità marginale di .>
Come funziona il Naive Bayes
Il classificatore Naive Bayes assegna a una nuova osservazione la classe (
- Calcolare le probabilità a priori delle classi e le probabilità condizionate delle caratteristiche dai dati di training.
- Per ogni nuovo dato, calcolare la probabilità di ciascuna classe usando il Teorema di Bayes e l’assunzione di indipendenza ingenua.
- Assegnare la classe con la probabilità a posteriori maggiore.
Punti di forza e limitazione:
- Punti di forza: è semplice (computazionalmente efficiente), richiede pochi dati di addestramento, gestisce bene le caratteristiche irrilevanti e funziona efficacemente in domini con molte caratteristiche. Se l’obiettivo è classificare i record in base alla loro probabilità (ranking), può dare buoni risultati anche con stime di probabilità biasate.
- Limitazioni: la sua performance può degradare quando l’assunzione di indipendenza è fortemente violata. Le stime di probabilità prodotte dal classificatore Naive Bayes possono essere distorte (biased).
L’Assunzione “Naive”
L’assunzione chiave è che, data la classe
Questa assunzione semplifica notevolmente il modello e riduce i requisiti computazionali, rendendolo una buona scelta in situazioni dove la dimensione del campione (
Varianti di Naive Bayes
- Gaussian Naive Bayes: per caratteristiche continue, assume che i valori seguano una distribuzione normale all’interno di ogni classe.
- Multinomial Naive Bayes: per dati discreti che rappresentano conteggi (es. frequenza di parole nell’analisi del testo, o “bag-of-words”).
- Bernoulli Naive Bayes: per caratteristiche binarie che indicano presenza o assenza (es. una parola è presente o meno in un documento).
Relazione con Altri Classificatori
Il Naive Bayes, Linear Discriminant Analysis (LDA) e Quadratic Discriminant Analysis (QDA) sono tutti classificatori che utilizzano il Teorema di Bayes stimando la funzione di densità