La distribuzione gaussiana è presente in tutti i libri di statistica e probabilità ma la sua derivazione è un argomento poco trattato. Vediamo da dove salta fuori.
La storia
Johann Friedrich Carl Gauss (1777-1855) è stato un matematico di grandezza straordinaria, ai suoi tempi si occupava di moltissime cose tra cui l’astronomia. A partire da alcune osservazioni si potevano calcolare le orbite dei pianeti, comete e qualsiasi altra cosa girasse nel sistema solare. Tra gli astronomi era uso misurare dei parametri orbitali più volte per poi calcolarne la media ed utilizzarli nei calcoli necessari per derivare gli altri parametri orbitali. Tale procedimento non era però giustificato da un punto di vista statistico perché la statistica era ancora in fase di invenzione.
D’altra parte Gauss utilizzava il metodo di minima verosimiglianza per poter interpolare i punti osservati con le curve il che forniva delle stime per il valore ottimale dei parametri; per cui si trovava con due idee: la media delle osservazioni e i parametri ottimali che massimizzavano la verosimiglianza. La domanda sorge spontanea: quale distribuzione permette di far coincidere sempre i valori medi con i valori ottimali? La risposta è la distribuzione di Gauss ma non serve conoscere l’astronomia per derivare la gaussiana.
Proprietà degli errori casuali
Se eseguo la misura di una variabile x più volte non ottengo sempre lo stesso valore perché la misura è affetta da errori casuali ε. Questi errori ε si distribuiscono attorno al valore vero con una distribuzione che deve avere le seguenti proprietà:
- i piccoli errori sono più probabili degli grandi errori
- gli errori in eccesso sono equiprobabili agli errori in difetto
- in presenza di molte misure la loro media aritmetica coincide con il valore più verosimile della distribuzione.
- le misure sono statisticamente indipendenti e quindi anche gli errori
Vediamo di spiegare meglio. La prima proprietà dice che la distribuzione ha una sola gobba con massimo attorno al valore vero.
La seconda proprietà dice che la distribuzione è simmetrica attorno al valore vero.
La terza proprietà balza dagli errori ai valori e quindi richiede una spiegazione più dettagliata. Se la media dei valori delle misure tende al valore più verosimile, cioè al valore vero, allora la media degli errori deve tendere a 0.
Supponiamo che g sia una funzione che rispetti i criteri precedenti, conviene introdurre la variabile errore ε, invece della variabile x e del valore vero μ, possiamo scrivere:
\epsilon:=x-\mu \newline g(\epsilon)=g(x-\mu)
Supponiamo di effettuare N misure della variabile x. la quarta proprietà assume che le misure siano indipendenti e che quindi la probabilità che si verifichino quelle N misure sia pari al prodotto delle probabilità che si verifichino le singole misure. Volendo esprimere tutto in funzione degli errori abbiamo:
S=\{ x_1, x_2, \dots , x_N \} \newline
\Epsilon=\{\epsilon_1=x_1-\mu ,\epsilon_2=x_2-\mu,\dots ,\epsilon_N=x_N-\mu \} \newline
\overline{x}:=\frac{1}{N}\left( x_1+x_2+\dots x_N \right) \newline
g(\epsilon_1,\epsilon_2,\dots \epsilon_N)=g(\epsilon_1)g(\epsilon_2)\dots g(\epsilon_N) \newline
Si noti anche il valore medio degli errori:
\overline{\epsilon}:=\frac{1}{N}\left( \epsilon_1+\epsilon_2+\dots \epsilon_N \right)= \newline
\frac{1}{N}\left( x_1-\mu+x_2-\mu+\dots x_N-\mu \right)= \newline
\frac{1}{N}\left( x_1+x_2+\dots x_N \right)+\frac{1}{N}\left( -\mu-\mu+\dots -\mu \right)= \newline
\overline{x}-\mu \newline
\overline{\epsilon}:=\overline{x}-\mu Se ci si aspetta che l’errore medio si nullo ci si aspetta che il valore medio coincida con il valore vero.
La verosimiglianza
Riprendiamo la probabilità totale che dipende dal valore vero μ perché è implicitamente presente negli errori.
Voglio massimizzare la probabilità come funzione di μ ed imporre che il valore massimizzante coincida con la media degli errori. Posso farlo derivando rispetto a μ e imponendo la derivata a 0 quando il valore del valore vero coincide con la media aritmetica delle misure.
Facciamo la furbata di massimizzare il logaritmo per evitare di avere a che fare con le derivate del prodotto:
g(\epsilon_1,\epsilon_2,\dots \epsilon_N)=g(\epsilon_1)g(\epsilon_2)\dots g(\epsilon_N) \newline
\log{g(\epsilon_1,\epsilon_2,\dots \epsilon_N)}=\log{g(\epsilon_1)g(\epsilon_2)\dots g(\epsilon_N)}= \newline
\log{g(\epsilon_1)}+\log{g(\epsilon_2)}+\dots +\log{g(\epsilon_N)} \newline
\frac{d}{d\mu}\log{g(\epsilon_1,\epsilon_2,\dots \epsilon_N)}\vert_{\mu=\overline{x}}=0Per alleggerire la notazione ci conviene introdurre una nuova funzione:
b(\epsilon):=\log{g(\epsilon)}=b(x-\mu) \newline
b(\epsilon_i)=b(x_i-\mu)La derivata diventa:
\frac{d}{d\mu}\log{g(\epsilon_1,\epsilon_2,\dots \epsilon_N)}\vert_{\mu=\overline{x}}=0 \newline
\frac{d}{d\mu}\left( b(\epsilon_1)+b(\epsilon_2)+\dots+b(\epsilon_N)\right)\vert_{\mu=\overline{x}}=0 \newline
La derivata è composta, si noti che:
\frac{d}{d\mu}b(\epsilon_i)=b'(\epsilon_i)\frac{d}{d\mu}\epsilon_i= \newline
b'(\epsilon_i)\frac{d}{d\mu}(x_i-\mu) =-b'(\epsilon_i) \newlineAlla fine la condizione diventa:
-b'(\epsilon_1)\vert_{\mu=\overline{x}}-b'(\epsilon_2)\vert_{\mu=\overline{x}}-\dots-b'(\epsilon_N)\vert_{\mu=\overline{x}}=0 \newline
b'(\epsilon_1)\vert_{\mu=\overline{x}}+b'(\epsilon_2)\vert_{\mu=\overline{x}}+\dots+b'(\epsilon_N)\vert_{\mu=\overline{x}}=0 \newline
b'(x_1-\overline{x})+b'(x_2-\overline{x})+\dots+b'(x_N-\overline{x})=0Bene, la condizione di verosimiglianza massima è ben espressa e adesso?
Una scelta opportuna e necessaria
La condizione espressa deve valere per tutti gli N e per ogni scelta delle misure ma non è semplice trovare un modo per andare oltre nell’argomentazione. L’unica cosa che viene in mente è di fare una scelta oculata dei valori, la condizione deve comunque valere ma si passa ad una condizione necessaria e non più necessaria e sufficiente.
Cerchiamo di semplificare, il problema ha senso con almeno due misure su cui ha senso calcolare la media, ma vogliamo che sia valido con N misure. Possiamo ridurre a due variabili tenendone N? Gauss ci suggerisce di imporre N-1 variabili uguali:
x_1 \newline x_2=x_3=\dots=x_N \newline
in questo modo:
\overline{x}=\frac{x_1+(N-1)x_2}{N}essendo molti i valori identici la media è vicina ad x_2.
La condizione di massima verosimiglianza si trasforma in:
b'(\frac{(N-1)}{N}x_1-\frac{(N-1)}{N}x_2)+(N-1)b'(-\frac{1}{N}x_1-\frac{1}{N}x_2)=0 \newline
b'(\frac{(N-1)}{N}\left(x_1-x_2)\right)+(N-1)b'(-\frac{1}{N}\left(x_1-x_2)\right)=0 ora si hanno due variabili reali arbitrarie e un parametro intero naturale arbitrario per i quali la condizione deve necessariamente valere.
Quello che si vede è che quello che conta non sono le singole variabili ma la loro differenza. Inoltre possiamo eliminare la N a denominatore introducendo la seguente variabile che rimane arbitraria:
x_1-x_2=Nu \newline b'((N-1)u)+(N-1)b'(-u)=0
Che deve valere per ogni N ed in particolare per N=2:
b'(u)+b'(-u)=0 \newline b'(u)=-b'(-u)
Questo mostra che b’ deve essere antisimmetrica quindi b è simmetrica e quindi anche g che è anche una delle ipotesi di partenza che viene automaticamente soddisfatta.
Usando l’antisimmetria otteniamo:
b'((N-1)u)=-(N-1)b'(-u) \newline b'((N-1)u)=(N-1)b'(u)
dovendo valere per tutti gli u reali deve valere in particolare per:
u=\frac{1}{N-1} \newline
b'((N-1)\frac{1}{N-1})=(N-1)b'(\frac{1}{N-1}) \newline
b'(1)=(N-1)b'(\frac{1}{N-1}) \newline
\frac{b'(1)}{N-1}=b'(\frac{1}{N-1}) Ora proviamo con:
u=\frac{M}{(N-1)^2} \newline
b'((N-1)\frac{M}{(N-1)^2})=(N-1)b'(\frac{M}{(N-1)^2}) \newline
b'(\frac{M}{(N-1)})=(N-1)Mb'(\frac{1}{(N-1)^2}) \newline
b'(\frac{M}{(N-1)})=(N-1)M\frac{b'(1)}{(N-1)^2} \newline
b'(\frac{M}{(N-1)})=b'(1)\frac{M}{(N-1)} \newlineI numeri interi naturali M ed N sono arbitrari per cui possiamo dire che per tutti i razionali:
\forall r \in ℚ \newline b'(r)=b'(1)r \newline
bisogna imporre la continuità per fare in modo che la relazione valga per tutti i reali:
b'(u)=b'(1)u \newline b'(1)=b'(1)1
la seconda riga dice che il valore di b'(1) è del tutto arbitrario per cui lo scegliamo negativo (dopo sarà chiaro perché):
b'(u)=-\alpha u \newline
b(u)=-\frac{1}{2}\alpha u^2+\beta \newline
b(u)=b(x-\mu)=-\frac{1}{2}\alpha (x-\mu)^2+\beta \newline
\log{g(x-\mu)}=-\frac{1}{2}\alpha (x-\mu)^2+\beta \newline
g(x-\mu)=\exp(-\frac{1}{2}\alpha (x-\mu)^2+\beta)=\exp(\beta)\exp(-\frac{1}{2}\alpha (x-\mu)^2) \newline
g(x-\mu)=A\exp(-\frac{1}{2}\alpha (x-\mu)^2) \newlineaffinché la funzione abbia integrale finito è necessario che l’esponente sia negativo, ecco perché ho scelto un segno meno in questo modo la costante α è positiva.
Integrando rispetto alla variabile x su tutta la retta reale ed imponendo il tutto ad 1 si determina la costante di normalizzazione A:
g(x-\mu)=\sqrt{\frac{\alpha}{2\pi}}\exp(-\frac{1}{2}\alpha (x-\mu)^2) \newlineessendo α positiva possiamo cambiarle nome:
\alpha=\frac{1}{\sigma^2} \newline
g(x-\mu)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{1}{2}(\frac{x-\mu}{\sigma})^2) \newlineche è la famigerata gaussiana.
Una sufficienza inaspettata
Non bisogna lasciarsi prendere dall’entusiasmo, questa funzione discende da una condizione di necessità cioè solo per alcuni dati particolari manca la sufficienza. Forse però la funzione trovata ha la proprietà giusta, inaspettata. Posso rifare tutti i calcoli da capo ma con questa funzione nota la condizione di verosimiglianza diventa:
\log{g(\epsilon_1,\epsilon_2,\dots \epsilon_N)}=\log{g(\epsilon_1)g(\epsilon_2)\dots g(\epsilon_N)}= \newline
\log{g(\epsilon_1)}+\log{g(\epsilon_2)}+\dots +\log{g(\epsilon_N)}= \newline
\log{\left(\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{1}{2}(\frac{x_1-\mu}{\sigma})^2)\right)}+\dots+\log{\left(\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{1}{2}(\frac{x_N-\mu}{\sigma})^2)\right)}= \newline
N\log{\frac{1}{\sqrt{2\pi}\sigma}}-\frac{1}{2}(\frac{x_1-\mu}{\sigma})^2-\dots-\frac{1}{2}(\frac{x_N-\mu}{\sigma})^2= \newline
N\log{\frac{1}{\sqrt{2\pi}\sigma}}-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_i-\mu)^2derivando rispetto al parametro μ ed imponendo a 0 il risultato si ottiene facilemente:
\frac{d}{d\mu}\left(\frac{N}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}\sum_{i=1}^{N}(x_i-\mu)^2\right)=0 \newline
-\frac{1}{2\sigma^2}\sum_{i=1}^{N}2(x_i-\mu)(-1)=0 \newline
\sum_{i=1}^{N}(x_i-\mu)=0 \newline
\sum_{i=1}^{N}x_i=N\mu \newline
\frac{\sum_{i=1}^{N}x_i}{N}=\mu \newline
\overline{x}=\muquindi il parametro ottimale coincide con la media aritmetica delle misure.
Concludendo
L’astronomia porta a considerare la media aritmetica di misure e il valore vero della distribuzione degli errori. Poiché N misure sono indipendenti è possibile pensare la probabilità delle N misure come il prodotto delle probabilità delle singole misure.
Cercando di massimizzare la probabilità in funzione del valore vero è possibile scrivere una condizione di massima verosimiglianza in cui è possibile imporre la condizione che il valore medio delle misure coincida con il valore di massima verosimiglianza.
L’equazione per quale tipo di distribuzioni vale? L’idea per risolvere questo problema è di cercare una qualche condizione necessaria sperando che restringa abbastanza la forma della distribuzione da poterla individuare. Scegliendo opportunamente i valori delle misure si ottiene una equazione funzionale che è possibile risolvere. Questo risultato ci permette di restringere fortemente la classe di funzioni ad un solo tipo: la gaussiana. Imponendo la normalizzazione si fissa anche la costante di proporzionalità.
La distribuzione trovata soddisfa ad una condizione necessaria, ma verificando si vede che soddisfa anche la condizione sufficiente… che fortuna, per non dire altro.
Certi geni come Gauss sono solo geni o anche fortunati?
Nota: articolo aggiornato il 25/11/2025 per correggere ortografia e qualche dettaglio.
Bibliografia
Consulta la pagina a questo link