Stima Statistica

La Stima Statistica è il processo inferenziale che permette di utilizzare i dati raccolti da un campione per inferire o generalizzare i valori dei parametri sconosciuti di una popolazione più ampia. Questo processo è intrinsecamente caratterizzato da incertezza, che può derivare dalla variabilità campionaria (l’analisi di campioni diversi produrrebbe risultati differenti) e dagli errori di misurazione. L’obiettivo principale è stimare un vettore di parametri che caratterizza la distribuzione di probabilità di un carattere di interesse nella popolazione. Questo ragionamento è induttivo, passando dal campione osservato alla popolazione ignota.

Stimatore

Uno stimatore è una funzione delle variabili aleatorie (v.a.) che compongono un campione casuale , denotata come , utilizzata per approssimare il valore di un parametro ignoto della popolazione. Per esempio, se si vuole stimare l’altezza media della popolazione italiana, assumendo che , la media campionaria è uno stimatore di .

Stima

La stima è la realizzazione numerica dello stimatore ottenuta applicando la funzione ai valori osservati in un particolare campione . Mentre lo stimatore è una variabile aleatoria (funzione del campione), la stima è un valore fisso derivato da un singolo campione.

Proprietà degli Stimatori

Per valutare la “bontà” di uno stimatore, si considerano diverse proprietà desiderabili:

  1. Non Distorsione (Correttezza): Uno stimatore è definito non distorto (o corretto) per un parametro se il suo valore atteso coincide con il vero valore del parametro, ovvero . Ciò significa che, se si potessero ripetere infinite volte il processo di campionamento e di stima, la media delle stime ottenute sarebbe esattamente uguale al parametro vero. La distorsione (Bias) di uno stimatore è la differenza tra il suo valore atteso e il parametro vero: . Uno stimatore non distorto ha un bias pari a zero.

    • Esempio pratico: La media campionaria è uno stimatore non distorto della media della popolazione . La varianza campionaria è uno stimatore non distorto della varianza della popolazione , a differenza di , che è uno stimatore distorto. La correzione di Bessel ( al denominatore) serve proprio a eliminare questo bias.
  2. Efficienza: L’efficienza di uno stimatore è una misura della sua precisione, spesso valutata attraverso l’Errore Quadratico Medio (MSE). Dati due stimatori e del parametro , è considerato più efficiente di se per ogni , e la disuguaglianza è stretta per almeno un . L’MSE di uno stimatore è definito come . L’MSE può essere decomposto come la somma della varianza dello stimatore e del quadrato della sua distorsione: . Per stimatori non distorti, l’MSE coincide con la varianza, rendendo il confronto di efficienza equivalente al confronto delle varianze.

    • Trade-off Bias-Varianza: Questo concetto è fondamentale nella statistica e nell’apprendimento statistico. Modelli statistici più flessibili tendono ad avere un bias minore ma una varianza maggiore, mentre modelli meno flessibili presentano un bias maggiore ma una varianza minore. L’obiettivo è trovare un equilibrio che minimizzi l’errore di previsione su dati non visti (test MSE). Un modello troppo flessibile può “overfittare” i dati di training, imparando anche il rumore e i pattern casuali, risultando in un MSE di training basso ma un MSE di test elevato. La figura 2.11 illustra la curva a U dell’MSE di test all’aumentare della flessibilità del modello, mostrando il punto ottimale tra bias e varianza.
  3. Consistenza: Uno stimatore è consistente se, all’aumentare della dimensione campionaria , la successione di stimatori converge in probabilità al vero valore del parametro . Formalmente, per ogni arbitrariamente piccolo, . Perché uno stimatore sia consistente, sono sufficienti due condizioni:

    • Non distorsione asintotica: .
    • Varianza tendente a zero: .
    • Esempio pratico: La media campionaria è uno stimatore consistente della media della popolazione , poiché è non distorta e la sua varianza () tende a zero all’aumentare di .
  4. Statistiche Sufficienti: Una statistica sufficiente per un parametro è una funzione del campione che riassume tutte le informazioni rilevanti contenute nel campione riguardo a quel parametro. Formalmente, una statistica è sufficiente per se la distribuzione condizionata di dato non dipende da . Ciò implica che, una volta conosciuto il valore della statistica sufficiente, ulteriori dettagli del campione non aggiungono informazioni su . Lo stimatore di massima verosimiglianza, se esiste, è una funzione di una statistica sufficiente.

Metodi di Costruzione degli Stimatori

Esistono diversi metodi per costruire stimatori:

  1. Metodo dei Momenti: Questo metodo consiste nell’eguagliare i momenti campionari (come la media campionaria, la varianza campionaria, ecc.) ai corrispondenti momenti teorici della popolazione (espressi in termini dei parametri ignoti) e risolvere il sistema di equazioni risultante per ottenere le stime dei parametri.

  2. Metodo della Massima Verosimiglianza (MLE - Maximum Likelihood Estimation): Il Metodo della Massima Verosimiglianza (MLE) è il più diffuso e potente per la costruzione di stimatori. Si basa sull’idea di scegliere come stima dei parametri il valore che rende massimamente probabile l’osservazione del campione dato.

    • Funzione di Verosimiglianza: Data una popolazione con funzione di probabilità/densità e un campione casuale (indipendenti e identicamente distribuite), la densità congiunta del campione è il prodotto delle densità marginali: . La funzione di verosimiglianza è questa densità congiunta, interpretata come una funzione del parametro per un campione osservato.

    • Log-Verosimiglianza: Per motivi computazionali e analitici, è spesso più conveniente massimizzare il logaritmo della funzione di verosimiglianza, chiamato log-verosimiglianza, . Massimizzare la log-verosimiglianza equivale a massimizzare la verosimiglianza, dato che la funzione logaritmo è monotona crescente.

    • Per trovare lo stimatore , si calcola la derivata prima della log-verosimiglianza rispetto a e la si pone uguale a zero, risolvendo l’equazione (o un sistema di equazioni se è un vettore).

    • Esempio pratico: Per una variabile , lo stimatore di massima verosimiglianza per è la media campionaria . Nell’ambito dei Modelli Lineari Generalizzati (GLM), i parametri sono stimati tramite massima verosimiglianza.

    • Proprietà degli Stimatori di Massima Verosimiglianza (MLE):

      • Invarianza: Se è lo stimatore di massima verosimiglianza di , e è una funzione biunivoca, allora è lo stimatore di massima verosimiglianza di .
      • Efficienza Asintotica: L’MLE è asintoticamente efficiente. Se esiste uno stimatore non distorto ed efficiente per , allora questo è lo stimatore di massima verosimiglianza.
      • Non Distorsione Asintotica: L’MLE è asintoticamente non distorto.
      • Consistenza: L’MLE è consistente.
      • Distribuzione Asintoticamente Normale: L’MLE si distribuisce asintoticamente come una distribuzione Normale.
    • Informazione di Fisher: La Matrice di Informazione di Fisher misura la quantità di informazione che i dati campionari contengono riguardo al parametro . Matematicamente, l’Informazione di Fisher è definita come meno la derivata seconda attesa della log-verosimiglianza, , che per le distribuzioni della famiglia esponenziale spesso coincide con . Nell’ambito dei GLM, la matrice di informazione di Fisher assume una forma compatta come , dove è il parametro di dispersione, è la matrice del design, e è una matrice di pesi che dipende dal modello. Questa matrice è cruciale negli algoritmi iterativi per la stima dei GLM, come l’Iterative Weighted Least Squares (IWLS), dove sostituisce la matrice Hessiana nella ricerca dei coefficienti ottimali. Essa è simmetrica e positiva definita per i modelli della famiglia esponenziale con link canonico. L’inverso della matrice di Informazione di Fisher fornisce un limite inferiore alla varianza di qualsiasi stimatore non distorto (Cramér-Rao lower bound) e, asintoticamente, alla varianza dell’MLE.