Stima Statistica
La Stima Statistica è il processo inferenziale che permette di utilizzare i dati raccolti da un campione per inferire o generalizzare i valori dei parametri sconosciuti di una popolazione più ampia. Questo processo è intrinsecamente caratterizzato da incertezza, che può derivare dalla variabilità campionaria (l’analisi di campioni diversi produrrebbe risultati differenti) e dagli errori di misurazione. L’obiettivo principale è stimare un vettore di parametri
Stimatore
Uno stimatore è una funzione delle variabili aleatorie (v.a.) che compongono un campione casuale
Stima
La stima è la realizzazione numerica dello stimatore ottenuta applicando la funzione
Proprietà degli Stimatori
Per valutare la “bontà” di uno stimatore, si considerano diverse proprietà desiderabili:
-
Non Distorsione (Correttezza): Uno stimatore
è definito non distorto (o corretto) per un parametro se il suo valore atteso coincide con il vero valore del parametro, ovvero . Ciò significa che, se si potessero ripetere infinite volte il processo di campionamento e di stima, la media delle stime ottenute sarebbe esattamente uguale al parametro vero. La distorsione (Bias) di uno stimatore è la differenza tra il suo valore atteso e il parametro vero: . Uno stimatore non distorto ha un bias pari a zero. - Esempio pratico: La media campionaria
è uno stimatore non distorto della media della popolazione . La varianza campionaria è uno stimatore non distorto della varianza della popolazione , a differenza di , che è uno stimatore distorto. La correzione di Bessel ( al denominatore) serve proprio a eliminare questo bias.
- Esempio pratico: La media campionaria
-
Efficienza: L’efficienza di uno stimatore è una misura della sua precisione, spesso valutata attraverso l’Errore Quadratico Medio (MSE). Dati due stimatori
e del parametro , è considerato più efficiente di se per ogni , e la disuguaglianza è stretta per almeno un . L’MSE di uno stimatore è definito come . L’MSE può essere decomposto come la somma della varianza dello stimatore e del quadrato della sua distorsione: . Per stimatori non distorti, l’MSE coincide con la varianza, rendendo il confronto di efficienza equivalente al confronto delle varianze. - Trade-off Bias-Varianza: Questo concetto è fondamentale nella statistica e nell’apprendimento statistico. Modelli statistici più flessibili tendono ad avere un bias minore ma una varianza maggiore, mentre modelli meno flessibili presentano un bias maggiore ma una varianza minore. L’obiettivo è trovare un equilibrio che minimizzi l’errore di previsione su dati non visti (test MSE). Un modello troppo flessibile può “overfittare” i dati di training, imparando anche il rumore e i pattern casuali, risultando in un MSE di training basso ma un MSE di test elevato. La figura 2.11 illustra la curva a U dell’MSE di test all’aumentare della flessibilità del modello, mostrando il punto ottimale tra bias e varianza.
-
Consistenza: Uno stimatore è consistente se, all’aumentare della dimensione campionaria
, la successione di stimatori converge in probabilità al vero valore del parametro . Formalmente, per ogni arbitrariamente piccolo, . Perché uno stimatore sia consistente, sono sufficienti due condizioni: - Non distorsione asintotica:
. - Varianza tendente a zero:
. - Esempio pratico: La media campionaria
è uno stimatore consistente della media della popolazione , poiché è non distorta e la sua varianza ( ) tende a zero all’aumentare di .
- Non distorsione asintotica:
-
Statistiche Sufficienti: Una statistica sufficiente per un parametro
è una funzione del campione che riassume tutte le informazioni rilevanti contenute nel campione riguardo a quel parametro. Formalmente, una statistica è sufficiente per se la distribuzione condizionata di dato non dipende da . Ciò implica che, una volta conosciuto il valore della statistica sufficiente, ulteriori dettagli del campione non aggiungono informazioni su . Lo stimatore di massima verosimiglianza, se esiste, è una funzione di una statistica sufficiente.
Metodi di Costruzione degli Stimatori
Esistono diversi metodi per costruire stimatori:
-
Metodo dei Momenti: Questo metodo consiste nell’eguagliare i momenti campionari (come la media campionaria, la varianza campionaria, ecc.) ai corrispondenti momenti teorici della popolazione (espressi in termini dei parametri ignoti) e risolvere il sistema di equazioni risultante per ottenere le stime dei parametri.
-
Metodo della Massima Verosimiglianza (MLE - Maximum Likelihood Estimation): Il Metodo della Massima Verosimiglianza (MLE) è il più diffuso e potente per la costruzione di stimatori. Si basa sull’idea di scegliere come stima dei parametri
il valore che rende massimamente probabile l’osservazione del campione dato. -
Funzione di Verosimiglianza: Data una popolazione con funzione di probabilità/densità
e un campione casuale (indipendenti e identicamente distribuite), la densità congiunta del campione è il prodotto delle densità marginali: . La funzione di verosimiglianza è questa densità congiunta, interpretata come una funzione del parametro per un campione osservato. -
Log-Verosimiglianza: Per motivi computazionali e analitici, è spesso più conveniente massimizzare il logaritmo della funzione di verosimiglianza, chiamato log-verosimiglianza,
. Massimizzare la log-verosimiglianza equivale a massimizzare la verosimiglianza, dato che la funzione logaritmo è monotona crescente. -
Per trovare lo stimatore
, si calcola la derivata prima della log-verosimiglianza rispetto a e la si pone uguale a zero, risolvendo l’equazione (o un sistema di equazioni se è un vettore). -
Esempio pratico: Per una variabile
, lo stimatore di massima verosimiglianza per è la media campionaria . Nell’ambito dei Modelli Lineari Generalizzati (GLM), i parametri sono stimati tramite massima verosimiglianza. -
Proprietà degli Stimatori di Massima Verosimiglianza (MLE):
- Invarianza: Se
è lo stimatore di massima verosimiglianza di , e è una funzione biunivoca, allora è lo stimatore di massima verosimiglianza di . - Efficienza Asintotica: L’MLE è asintoticamente efficiente. Se esiste uno stimatore non distorto ed efficiente per
, allora questo è lo stimatore di massima verosimiglianza. - Non Distorsione Asintotica: L’MLE è asintoticamente non distorto.
- Consistenza: L’MLE è consistente.
- Distribuzione Asintoticamente Normale: L’MLE si distribuisce asintoticamente come una distribuzione Normale.
- Invarianza: Se
-
Informazione di Fisher: La Matrice di Informazione di Fisher misura la quantità di informazione che i dati campionari contengono riguardo al parametro
. Matematicamente, l’Informazione di Fisher è definita come meno la derivata seconda attesa della log-verosimiglianza, , che per le distribuzioni della famiglia esponenziale spesso coincide con . Nell’ambito dei GLM, la matrice di informazione di Fisher assume una forma compatta come , dove è il parametro di dispersione, è la matrice del design, e è una matrice di pesi che dipende dal modello. Questa matrice è cruciale negli algoritmi iterativi per la stima dei GLM, come l’Iterative Weighted Least Squares (IWLS), dove sostituisce la matrice Hessiana nella ricerca dei coefficienti ottimali. Essa è simmetrica e positiva definita per i modelli della famiglia esponenziale con link canonico. L’inverso della matrice di Informazione di Fisher fornisce un limite inferiore alla varianza di qualsiasi stimatore non distorto (Cramér-Rao lower bound) e, asintoticamente, alla varianza dell’MLE.
-