I teoremi del limite centrale o teorema limite classico

Qualche spiegazione del teorema centrale del limite detto anche teorema limite classico utilizzato in statistica e nelle scienze applicate.

Il teorema ed i teoremi ed una legge

Storicamente la statistica e la probabilità si sono evolute prima in modo intuitivo e poi in modo rigoroso.

Prima l’idea di probabilità pensata come legge dei grandi numeri: il rapporto tra il numero di eventi favorevoli che si verifica ed il numero di eventi verificati approssima la probabilità dell’evento e l’approssimazione sarà tanto migliore più il numero di prove sarà elevato.

Poi il teorema, dovuto a Bernoulli, che dimostra che questa legge si può dimostrare.

Dopo il caso più generale dovuto a De Moivre e Laplace, noto anche come teorema limite classico o più frequentemente come teorema del limite centrale di cui quello di Bernoulli è un caso particolare.

Infine, altre generalizzazioni del teorema di De Moivre- Laplace dovuti a Cebychev, Markov, Ljapunov riassunti nella formulazione di Lindeberg e Levi.

Questo blog non è un blog di dimostrazioni ma solo di indagine per capire le definizioni ed i concetti della Matematica. Voglio solo dare un’idea generale del teorema e la sua utilità.

La distribuzione

I dati sono distribuiti con una distribuzione, non c’è dubbio su questo. La distribuzione può essere discreta o continua e comunque non simmetrica e discontinua. La indichiamo con il simbolo rho e definiamo due parametri chiamati media e varianza:

 \lang x \rang=E(x)=\overline{x}=\mu:=\int_{-\infin}^{\infin}x\rho(x) dx  \newline
 E((x- \mu )^2)=\sigma^2:=\int_{-\infin}^{\infin}(x-\mu)^2\rho(x) dx  \newline

per semplicità le scrivo solo in forma continua ma le formule corrispondenti per il caso discreto sono ben note, al più potete usare l’integrale di Stieltjes e torna tutto.

La cosa importante da capire è che media e varianza sono definibili per qualsiasi distribuzione, non è necessario che abbia una gobba o molte. Da un punto di vista matematico bisogna anche ipotizzare che entrambi gli integrali esistano e siano finiti. Giusto. Ma nella pratica non ho presente una distribuzione in cui almeno uno dei due parametri non esiste o è infinito quindi è una ipotesi che possiamo sottintendere o meglio dire esplicitamente all’inizio e poi non ripetere più. Esistono testi che non fanno altro che ripeterla pedissequamente appesantendo non poco la scorrevolezza e la comprensione del testo, il dubbio ogni volta è che la condizione sia diversa e vada controllata ma siccome è sempre la stessa si tratta di ripetizione inutile. Questo succede quando una teoria non è ben ambientata, se state scrivendo una teoria o un testo o anche semplicemente una lezione o un programma per computer e vi rendete conto di ripetere sempre la stessa cosa pensate di metterla nel contesto del discorso cioè di ambientare correttamente i concetti eliminando la maggior parte dei tecnicismi.

Le misure o prove e le stime campionarie

Facciamo una campagna di misure, Il numero di prove che facciamo le limitiamo ad N e ne facciamo K a gruppi di N quindi in totale KN prove.

Per ogni gruppo possiamo calcolare la media campionaria e la varianza campionaria corretta:

\mu_1=\frac{1}{N}\sum_{i=1}^Nx_i \newline
\mu_2=\frac{1}{N}\sum_{j=1}^Nx_j \newline
\dots \newline
\mu_K=\frac{1}{N}\sum_{l=1}^Nx_l \newline
\sigma^2_1=\frac{1}{N-1}\sum_{i=1}^N(x_i-\mu_1)^2 \newline
\sigma^2_2=\frac{1}{N-1}\sum_{j=1}^N(x_j-\mu_2)^2 \newline
\dots \newline
\sigma^2_K=\frac{1}{N-1}\sum_{l=1}^N(x_l-\mu_K)^2 \newline

per ogni gruppo di prove di N elementi ho tentato, spero con chiarezza, di distinguere le medie di ogni gruppo e le loro varianze con indici che vanno da 1 a K e usando indici diversi nelle somme come i, j, l per specificare che si trattano di misure diverse tratte dal primo campione di N elementi, dal secondo campione di N elementi e così via.

La varianza campionaria è detta corretta per via di quel denominatore N-1 la cui presenza adesso non spieghiamo perché fuori dallo scopo del post. Il fatto che sia media che varianza vengano dette campionarie è per via del fatto che vengono effettuate sulle misure e non per calcolo dalla distribuzione.

Medie campionarie e medie vere

Ci si aspetta che le medie campionarie siano una approssimazione della media vera definita sopra e lo stesso per le varianze campionarie corrette che siano una approssimazione della varianza vera sempre calcolata tramite la definizione.

L’intuito corrisponde alla realtà ma questo non è il risultato del teorema centrale del limite. Il teorema cerca di andare oltre e si chiede come sono distribuiti i valori della media campionaria attorno al valore medio vero.

Le medie campionarie non sono altro che variabili aleatorie dipendenti da N variabili anch’esse aleatorie. I valori medi dividono il campione in modo pesato, come abbiamo visto qui, ogni loro variazione attorno al valore medio vero ce la si aspetta simmetrica. Intuitivamente la distribuzione delle medie campionarie deve essere simmetrica, ma qual è questa distribuzione ? Personalmente tendo a pensare alla gaussiana ma mi rendo conto che il mio intuito è mio e non credo sia uguale a quello degli altri. Anche che sia simmetrica è basata sul mio intuito ma forse ad acuni potrebbe suonare male.

Comunque, meglio affidarsi ad una dimostrazione, il teorema centrale del limite dice proprio questo, le medie campionarie si distribuiscono secondo una gaussiana di media mu e varianza sigma quadro su N:

\mu_G:=\mu \qquad \sigma_G^2:=\frac{\sigma^2}{n}

Il pedice G sta per gaussiana.

Bene, finito qui. Soddisfatti ? Spero di no.

Via le credenze!

Eliminiamo una credenza che ho visto più volte. Non è vero che le distribuzioni si possono approssimare con una gaussiana basta che il numero delle prove N sia abbastanza grande. La distribuzione di partenza è arbitraria e rimane tale, è la distribuzione delle medie campionarie che si approssima ad una gaussiana.

La convergenza è debole, lo abbiamo visto qui, quindi le medie campionarie sono vicine alla media vera con alta probabilità e lontane con bassa probabilità. Anche la distribuzione converge debolmente quindi nella pratica non vedrete un istogramma delle medie campionarie che formano una gaussiana sempre meglio ma una curva che gli oscilla intorno anche per numero di prove abbastanza elevate.

Il teorema vale con il numero di prove che tende all’infinito, non ha senso parlare di un numero di prove abbastanza alto. Nonostante questo si ritiene che i numeri tornino nella pratica quando il numero di prove è superiore a 10, 20, 30, 40, 100… dipende dall’autore.

Perché è importante? Parte 1, legge dei grandi numeri.

Facciamo una misura, supponiamo che il valore cada in un intervallo numerico [a, b] oppure nel suo insieme complementare. Oppure che la misura fornisca un valore qualitativo tipo Testa oppure nel suo insieme complementare (Croce).

In generale il nostro spazio degli eventi lo possiamo sempre pensare come un evento di nostro interesse A ed il suo complementare:

A\cup A^c \newline
P(A)=p \qquad P(A^c)=1-p=q

Gli eventi hanno le probabilità indicate necessariamente.

Ora consideriamo la variabile aleatoria che vale 1 se l’evento A accade e 0 se accade l’evento complementare. In N prove avremo:

X=\lbrace 1,1,0,0,0,1,0,1,1,1,0,1,0,0,1,1,1,1,0,0,1, \dots \rbrace

La distribuzione di questa variabile aleatoria è semplicissima. La variabile assume sono due valori, lo 0 e l’1, lo 0 con probabilità q e l’1 con probabilità p. Sapreste disegnare la distribuzione ? Dai, è facile. Ve lo dico per non lasciare nulla al caso… Nello studio dei concetti importanti è un dovere dell’insegnante.

Sull’asse delle ascisse segnate il punto 0 ed il punto 1, sull’asse delle ordinate segnate i punti p e q. Ottenete due miseri punti nel piano e questa è la distribuzione. Ve l’avevo detto che era semplice.

Calcoliamo il valore medio e la varianza:

\mu=0q+1p=p \newline
\sigma^2=(0-p)^2q+(1-p)^2p=p^2q+q^2p=pq(q+p)=pq

Basta ricordare nel calcolo la definizione di media e varianza e che le due probabilità sono legate dal fatto che la somma fa 1.

Ora ripensate alla variabile aleatoria X che abbiamo introdotto prima ed al valore della media campionaria:

\mu_1=\frac{n}{N}

Il valore n a numeratore è la somma degli 1 assunti dalla variabile in N prove ma, anche, il numero di volte in cui si è verificato l’evento A.

Il teorema centrale del limite afferma che la media campionaria tende debolmente verso la media vera con distribuzione gaussiana.

Questo significa che nel nostro specifico caso:

\frac{n}{N} \to p \newline
\sigma^2_G \to \frac{pq}{N}

I limiti vanno intesi in senso debole cioè in probabilità come già detto ma insisto.

Questo significa che la frazione costruita come rapporto tra eventi favorevoli ed eventi totali approssima la probabilità dell’evento e la distribuzione delle frazioni è gaussiana con la varianza data dalla seconda formula. Questo è il teorema centrale del limite per questo caso specifico ed è il teorema di Bernoulli, che dimostra la legge dei grandi numeri discussa anche qui.

Questo risultato è fondamentale perché lega statistica e probabilità e giustifica il concetto di probabilità.

La media delle medie

Partiamo da una distribuzione arbitraria, facciamo N prove per K volte per un totale di NK prove.

Sappiamo tutto sulle possibili K medie campionarie e le K varianze campionarie corrette. Bene, allora possiamo riapplicare il teorema centrale e calcolare la media delle medie, che sono i nuovi valori, e la varianza corretta, stiamo applicando il teorema alla gaussiana quindi otteniamo una nuova gaussiana che pensiamo come gaussiana 2 ed abbiamo:

\mu_{g_2}=\mu_g=\mu \newline
\sigma_{G_2}^2=\frac{\sigma_G^2}{K}=\frac{\sigma^2/N}{K}=\frac{\sigma^2}{NK}

Inoltre sappiamo che la media si può stimare con la media delle medie:

\mu_{G_2} \approx \frac{\mu_1+\mu_2 + \dots + \mu_K}{K}= \newline
=\frac{1}{K}\lbrace \frac{1}{N}\sum_{i=1}^Nx_i+\dots + \frac{1}{N}\sum_{l=1}^Nx_l \rbrace= \newline
=\frac{1}{KN}\lbrace \sum_{j=1}^{NK}x_j \rbrace

che non è altro che la media su tutte le NK misure.

La media delle varianze

Prendiamo le varianze campionarie, come sono distribuite ? Non lo so. Semplicemente non lo so, anche il teorema centrale non lo dice, parla solo della distribuzione delle medie. Ma a noi non importa, possiamo applicare il teorema alla distribuzione delle varianze a calcolare il valor medio delle varianze. Non calcoleremo il valore della varianza delle varianze perché per quello ci serve la varianza della distribuzione delle varianze che non è nota e quindi nemmeno la sua varianza.

Il valor medio è distribuito come una gaussiana e quindi possiamo stimare il valore della varianza con il valore medio delle varianze campionarie. Stiamo parlando di una terza gaussiana e stiamo considerando le varianze campionarie corrette delle variabili casuali, non bisogna confonderci con i valori campionari originali:

\sigma_{G_3}^2\approx \frac{\sigma^2_1+\dots + \sigma^2_K}{K}

Qualcuno avrà notato che il denominatore non è corretto, infatti è una media aritmetica, inoltre per K=1 ha perfettamente senso come ci si aspetta.

Ora consideriamo la seguente identità:

\sigma_1^2=\frac{1}{N}\sum^N_{i=1}(x_i-\mu_1)^2=\frac{1}{N}\sum_{i=1}^Nx_i^2- \mu_1 \newline
\sigma_2^2=\frac{1}{N}\sum^N_{j=1}(x_j-\mu_2)^2=\frac{1}{N}\sum_{j=1}^Nx_j^2- \mu_2 \newline
\dots \newline
\sigma_K^2=\frac{1}{N}\sum^N_{l=1}(x_l-\mu_K)^2=\frac{1}{N}\sum_{l=1}^Nx_l^2- \mu_K \newline

e sostituendo nella stima della varianza si ottiene, con pochi calcoli che essendo semplici non riporto:

\sigma^2=\sigma_{G_3}^2\approx \frac{\sigma^2_1+\dots + \sigma^2_K}{K}= \newline
=\frac{1}{NK}\sum_{w=1}^{NK}x_w^2- \frac{1}{K}\sum_{v=1}^K\mu_v= \newline
=\frac{1}{NK}\sum_{w=1}^{NK}x_w^2- \frac{1}{NK}\sum_{w=1}^{NK}x_w

la seconda espressione è la varianza campionaria di tutte le NK prove che quindi approssima la varianza della distribuzione dei dati, non delle varianze mi raccomando non bisogna confondersi.

Perché è importante ? Parte 2, stime

Quando facciamo una campagna di misure poi calcoliamo media e varianza campionaria.

Tramite il teorema centrale del limite possiamo dire che le medie campionarie si distribuiscono come una gaussiana attorno al valore medio vero e quindi che le medie campionarie sono una stima del valor medio vero.

Non possiamo dire molto sulla varianza ma applicando il teorema alla distribuzione delle varianze campionarie, che non conosciamo, possiamo fare una stima del valore medio della distribuzione delle varianze

Il valore medio della distribuzione delle varianze è per definizione la varianza esatta dei dati e quindi la media delle varianze campionarie l’approssima in modo debole.

La media delle varianze campionarie risulta essere la varianza campionaria di tutte le NK prove.

Ora possiamo prendere K=1 e calcolare media campionaria e varianza campionaria corretta come si fa solitamente ed usarle come stime per la media e la varianza esatte.

Il fattore K non è inutile, se facciamo una campagna di misure con K strumenti o K gruppi di lavoro ed ognuno fa N misure poi si possono mettere insieme come una unica campagna di misura facendo la media delle medie e la media delle varianze campionarie. Bisogna fare attenzione però che gli strumenti siano uguali per precisione altrimenti i decimali non tornano. In questo caso bisogna fare le medie pesate ma tutto ciò richiede di prendere i considerazione sensibilità e precisione che ora non abbiamo considerato e non abbiamo il tempo in questo post.

Altro ?

Come ho detto ad inizio post ci sono molti teoremi centrali del limite ma ho fatto una esposizione intuitiva e sembra che riguardi un solo teorema o due con Bernoulli. In realtà le varie versioni del teorema si distinguono per le condizioni sulle approssimazioni e sulle stime delle variabili e dei dati. Mi sembra di aver mostrato un caso molto generale.

Per meggior dettaglio dovete vedere le dimostrazioni nei libri.

A proposito, la dimostrazione ? Troppo lunga e tediosa. Si tratta di sviluppi in serie e approssimazioni varie.

Concludendo

Forse in questo post non sono stato abbastanza esaustivo sui dettagli. Ho voluto dare un approccio più intuitivo ed operativo. Qui non si tratta di definire un nuovo concetto ma di capire un teorema nelle sue infinite sfaccettature. Mi piace l’idea di Bernoulli e spero l’abbiate apprezzata, per me è sempre di grande eccitazione. Mi piace anche l’idea di applicare il teorema a se stesso, alla media delle medie per ricavare la stima della varianza.

Il 3 Marzo ho compiuto un anno. È un anno che lavoro da casa e non esco da casa se non eccezionalmente. Mi sento steatopigio e vi invito a leggere il dizionario che fa dimagrire se ci credi.

Bibliografia

Consulta la pagina a questo link

/ 5
Grazie per aver votato!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.