Teorema di Bayes, la spiegazione

Non puoi capire Bayes se non sai cosa sono deduzione, induzione e abduzione. Capito quello ci sono un paio di formule di Bayes da ricavare.

Deduzione, induzione ed abduzione

Per capire il teorema di Bayes è fondamentale capire alcuni elementi di logica al limite della filosofia da cui resteremo a distanza di sicurezza. Senza questi elementi il teorema di Bayes rimane un accozzaglia di simboli stampati sulla pagina di difficile interpretazione. In effetti la dimostrazione del teorema è semplice, ma perché si debba ricavare quella formula non è molto chiaro.

Sono un po’ ai miei limiti in questo post che mi è costato molto tempo ma spero che possa essere utile e che non contenga stupidaggini.

Come sapete a partire da alcune premesse si ottengono delle conseguenze tramite delle inferenze che chiamiamo anche sillogismi o più volgarmente ragionamenti. Cerco di dare una panoramica essenziale.

Ci sono 3 elementi ed altrettante relazioni tra loro da considerare:

  • l’insieme H
  • l’elemento x
  • la proprietà p

A volte l’insieme H si chiama insieme delle ipotesi ma potete pensare anche ad un sacco di fagioli, dopo vediamo meglio. L’elemento x invece non è detto che appartenga all’insieme, vive di vita propria e la sua natura è ignota. Infine la proprietà p è anche essa arbitraria ed in generale non definisce l’insieme.

Tra questi tre elementi possono esistere delle relazioni:

  • x appartiene ad H oppure no
  • x gode della proprietà p oppure no
  • H gode della proprietà p oppure no

per quanto riguarda l’ultimo punto dire che un insieme gode di una proprietà significa che ogni elemento dell’insieme gode di quella proprietà, con abuso di linguaggio per il bene della semplicità diciamo che la proprietà è goduta dall’insieme.

Possiamo avere una panoramica nel disegno qui sotto:

Mainfach
Mainfach

ora possiamo parlare delle inferenze che sono tre, deduzione, induzione e abduzione

Deduzione

se H gode di p e x appartiene ad H allora x gode di p

direi che la deduzione è abbastanza semplice da capire, se tutti gli elementi di un insieme godono di una certa proprietà mi aspetto che scegliendo un elemento qualsiasi dell’insieme anche questo goda della stessa proprietà. Si dice che il ragionamento per deduzione parte da premesse che contengono tutta la verità e per specializzazione se ne deduce la verità anche nel caso particolare.

Per dirla con i fagioli, se ho un sacco (l’insieme H) con scritto fagioli ( cioè che gode della proprietà p) ed estraggo un elemento dal sacco (l’elemento x) mi aspetto che sia, con certezza, un fagiolo (l’elemento gode della proprietà fagiolo).

Il ragionamento deduttivo è l’unico che fornisce certezza della conclusione.

Induzione

se x gode di p e x appartiene ad H allora H gode di p

Nel ragionamento per induzione qualche cosa non va. Dal particolare si vuole indurre la proprietà a tutti gli elementi dell’insieme. Come dire: se io la penso così allora tutti la pensiamo allo stesso modo.

Detta con i fagioli: se ho un fagiolo (x gode di p), il fagiolo proviene dal sacco (l’insieme H) su cui non è scritto niente (x appartiene ad H) allora il sacco contiene fagioli (H gode di p).

Detta così questa inferenza non vale niente ma ora provate a pensarla con ulteriori informazioni:

L’oggetto x preso dal sacco è un fagiolo, l’oggetto y preso dal sacco è un fagiolo, l’oggetto z preso dal sacco è un fagiolo… e così via per un po’. Mano a mano che i fagioli diventano numerosi il dubbio sale: vuoi vedere che sono tutti fagioli? Cambiamo il modo di ragionare:

se x gode di p e x appartiene ad H allora H probabilmente gode di p

se aggiungiamo la parola probabilmente suona meglio vero? Certo un solo fagiolo non fa primavera… ma se raccogliamo molte prove la probabilità cambia ed aumenta fino a che il sacco è vuoto, in tal caso sappiamo con certezza che sono tutti fagioli e quindi il probabilmente assume valore 100% che esprime certezza.

Abduzione

Deduzione ed induzione sono inferenze note dall’antichità e sono legate ai soliti nomi: Aristotele, Socrate. Nell’ 800 Charles Sanders Peirce introduce anche questa inferenza (combinando i vari elementi non ce ne sono altre):

se x gode di p e H gode di p allora x probabilmente appartiene ad H

Il ragionamento conclude quindi che l’elemento appartiene all’insieme in virtù del fatto che gode della stessa proprietà. Come dire che se ho l’insieme dei gatti neri ed ho un animale nero allora l’animale è un gatto; invece è un toro.

Nel linguaggio dei fagioli abbiamo: se ho un fagiolo (x gode di p) ed a fianco un sacco di fagioli (H gode di p) allora probabilmente il fagiolo proviene da quel sacco (x appartiene ad H).

In questo caso diciamo che se le condizioni al contorno sono buone la probabilità aumenta. Per esempio potremmo verificare che non ci sono altri sacchi, che i fagioli sono dello stesso tipo, colore e freschezza, risalire a chi o cosa ha determinato la fuoriuscita dei fagioli dal sacco e restringere il campo delle possibilità fino a ritenere molto probabile o certo che i fagioli provengano da quel sacco.

Bayes e probabilità

Ai tempi di Bayes si conoscevano la deduzione e l’induzione ma non si aveva coscienza dell’abduzione, forse, dico forse perché non ne ho la certezza, si facevano ragionamenti di abduzione senza riconoscerli come tali e confondendoli con l’induzione.

Bayes, da quello che ho capito, prende l’induzione e vuole quantificare la probabilità del ragionamento giungendo alla sua formula. A mio parere il teorema di Bayes più che un teorema è un modello matematico dell’induzione e della abduzione, sì, a me pare che modelli anche l’abduzione.

Ipotesi e test.

Cominciamo a considerare i vari oggetti che fanno parte dell’induzione ed dell’abduzione. Per quanto riguarda l’insieme H dobbiamo pensare che l’oggetto x potrebbe non appartenergli e quindi serve almeno l’insieme complementare. L’oggetto x potrebbe a sua volta appartenere ad un altro insieme e così via. Possiamo pensare allo spazio degli eventi elementari e ad una sua partizione con un numero finito di insiemi disgiunti:

\Omega=\cup_{i=1}^n H_i \newline
H_j \cap H_k = \empty \qquad \forall j, k \qquad j\ne k

Ora dobbiamo avere un insieme che modelli il fatto che la proprietà p è goduta da un elemento o meno: facile! Prendiamo l’insieme degli elementi che godono della proprietà p. Per mia comodità, a dispetto della notazione normalmente in uso, userò la lettera T come test:

T=:\lbrace x\in \Omega | x \text{ gode di } p\rbrace

Il test, questo sconosciuto

Peschiamo un elemento x e verifichiamo se ha la proprietà p. Matematicamente basta verificare se appartiene a T o meno ma in pratica bisogna proprio ideare un esperimento che sia in grado tramite un vero test di dirci se x gode o meno della proprietà p.

In realtà la matematica ci dice che esiste anche l’insieme complementare di T fatto dagli elementi che non godono della proprietà p.

Facciamo degli esempi pratici perché a mio parere c’è un po’ di confusione.

La pallina è nera

il test è chiaro, i testi sono pieni di palline estratte da urne, basta decidere il colore e l’evento appartiene all’insieme T, cosa appartiene all’insieme complementare? le palline di colore non nero: bianca, blu, rossa, ecc.

Il test diagnostico è positivo

Il test diagnostico è interessante, in medicina se ne fanno tanti e si misura una quantità chimica o fisica che è un’indicatore della malattia. Qui c’è il primo punto da chiarire, non si misura la malattia ma un indicatore correlato alla malattia; ad esempio una proteina nel sangue, la concentrazione di un elemento chimico nelle urine, la temperatura corporea. È possibile che l’indicatore sia positivo ma per motivi diversi dalla malattia ed il test fornisca un falso positivo. In generale si ha una situazione di soglia come in figura:

Meinfach
Meinfach

al di sopra di una soglia superiore il test è positivo, al di sotto è non positivo. Dire che è non positivo non significa dire per forza negativo, il test è negativo al di sotto di una soglia inferiore ma tra le due soglie in generale esiste un intervallo di valori in cui il test è considerato non decisivo.

In figura ho fatto l’esempio della febbre. Se la temperatura è al di sopra di 37.5 gradi sicuramente si ha la febbre, a 36 gradi o meno non la si ha ( a molto meno di 36 si ha qualche cosa che non va comunque) ma tra i 36 ed i 37.5 si ha quella che alcuni genitori chiamano febbriciattola una temperatura fastidiosa ma non ancora da considerarsi febbre, spesso è dovuta a stanchezza e non a qualche malattia. A proposito, la febbre è l’indicatore di quale malattia ? Beh, non di una sola, comunque è indicatore che qualcosa non va, per essere precisi è la malattia del “qualcosa che non va” esattamente…

Il risultato del test è comunque ha la febbre o non ha la febbre, é positivo o è non positivo.

Altri possibili risultati di un test:

  • positivo, non positivo
  • colore nero, colore non nero
  • sì, non sì
  • negativo, non negativo
  • no, non no
  • yin, non yin
  • yang, non yang
  • sopra la soglia, non sopra la soglia

Come si vede tutti i test hanno un risultato dicotomico, parola dotta che significa a due valori, questo rispecchia il fatto che la proprietà p è goduta o è non goduta dall’elemento x.

Bayes e l’abduzione

Cominciamo con la parola probabilità che compare nell’abduzione, è la parte più semplice e ci servirà per modellare l’induzione.

Vediamo per cominciare come abbiamo pensato al nostro spazio degli eventi tramite la seguente figura:

Tutto lo spazio è stato suddiviso in insiemi H detti delle ipotesi. Nello spazio è anche presente l’insieme test T dei punti che godono di una certa proprietà p. L’insieme T rispetto agli altri insiemi può avere intersezione vuota, come il caso di H_1 in figura, intersezione parziale come in quasi tutti gli altri tranne che per H_6 in cui l’insieme è contenuto completamente in T e quindi l’intersezione è H_6 stesso. Il complementare dell’insieme T contiene i punti per cui si ha il non test.

Ora prendiamo una variabile aleatoria che fornisce un elemento x a caso. Questi cade certamente in uno degli insiemi H perché costituiscono una partizione di tutto l’insieme degli eventi elementari, ma non è detto che cada nell’insieme T del test.

Possiamo metterci nell’idea che conosciamo le probabilità degli eventi H cioè la probabilità che il punto x cada in uno degli insiemi H. Queste probabilità vengono chiamate probabilità a priori.

Ora possiamo pensare di conoscere le probabilità condizionate seguenti:

P(T | H_i) \qquad \forall i = 1,\dots, n

che sono le probabilità che dato che x sia caduto in un dato insieme H_i il test sia in grado di rilevare la probabilità che x goda della proprietà p.

  • Se H e T hanno intersezione vuota allora la probabilità condizionata è zero.
  • Se H è contenuto interamente in T allora la probabilità condizionata è 1.
  • Se H e T hanno intersezione non vuota e H non è completamente contenuto in T allora la probabilità condizionata sarà un valore intermedio tra 0 e 1 come ci si aspetta.

Potremmo anche pensare alla probabilità condizionata come una misura di efficienza del test sull’insieme H il nome normalmente utilizzato è quello di verosimiglianza.

Ora viene la parte più interessante. Per renderla semplice pensiamo ai fagioli di prima nel caso di abduzione. Gli H sono sacchi di fagioli e di non fagioli (se vuoi puoi pensare alle fave). Un elemento x potrebbe essere un fagiolo o meno. Supponiamo che casualmente venga pescato un elemento e che il test ci dica che si tratta di un fagiolo. Questo significa che si è verificato l’evento T. La domanda di abduzione è: qual è la probabilità che provenga dal sacco 1, qual è la probabilità che provenga dal sacco 2 … e così via fino al sacco n.

Il problema richiede la valutazione delle probabilità condizionate:

P( H_i | T) \qquad \forall i = 1,\dots, n

simbolicamente è scritto: la probabilità del sacco H_i dato che il test T si è verificato.

Ora basta sapere come sono collegate le varie probabilità e si ottiene magicamente il teorema di Bayes per l’abduzione.

Bastano tre passi per dimostrare Bayes.

Il primo passo lo abbiamo visto qui ma per comodità lo riporto. In pratica è l’espressione della probabilità condizionata e la formula di come calcolarla:

P(A|B)=\frac{P(A\cap B)}{P(B)} \newline
P(B|A)=\frac{P(B\cap A)}{P(A)} \newline

dalla banale osservazione che l’intersezione commuta si ottiene:

P(A|B)P(B)=P(B|A)P(A)

che si può invertire da entrambe le parti visto che A e B sono insiemi qualsiasi:

P(A|B)=\frac{P(B|A)P(A)}{P(B)} \newline
P(B|A)=\frac{P(A|B)P(B)}{P(A)}

A volte entrambe queste formule sono dette formule o teorema di Bayes. Ma abbiamo ancora due passi.

Il secondo passo è un teorema e si chiama teorema della partizione ma anche teorema della probabilità assoluta. Supponiamo che l’insieme campionario normalmente indicato con la lettera omega maiuscola sia partizionato in un numero finito n di sottoinsiemi disgiunti a due a due:

\Omega=\bigcup_{i=1}^n A_i \newline
A_i \cap A_j = \empty \qquad \forall i, j ; i\ne j

ora un insieme qualsiasi B possiamo scriverlo come:

B=\bigcup_{i=1}^n (A_i \cap B)

Questo è possibile perché gli A_i coprono tutto l’insieme degli eventi.

Osservando che le intersezioni degli elementi presenti nell’unione sono ad intersezione vuota a due a due:

(A_i \cap B)\cap(A_j \cap B)=\empty \qquad \forall i, j ; i\ne j

dubbi ? Dai, è facile. Gli A_i hanno intersezione vuota per ipotesi, gli insiemi ottenuti intersecando gli A_i con B sono sottoinsiemi degli A_i e quindi a maggior ragione hanno intersezione vuota.

Allordunque possiamo calcolare la probabilità di B come somma delle probabilità delle unioni:

P(B)=\sum_{i=1}^n P(A_i \cap B)

La probabilità dell’ intersezione si può esprimere tramite la probabilità condizionata vista al primo passo e quindi otteniamo:

P(B)=\sum_{i=1}^n P(B|A_i )P(A_i)

che è la formula del teorema di partizione o probabilità assoluta.

Se avessimo utilizzato l’espressione simmetrica avremmo ottenuto:

P(B)=\sum_{i=1}^n P(A_i |B)P(B)=P(B)\sum_{i=1}^n P(A_i |B)

e dovendo valere per tutti gli insiemi B si ottiene:

1=\sum_{i=1}^n P(A_i |B)

ora non ci serve ma ne riparleremo.

Il terzo passo si ottiene mettendo insieme il primo ed il secondo passo:

P(A_j|B)=\frac{P(B|A_j)P(A_j)}{P(B)} \newline
P(A_j|B)=\frac{P(B|A_j)P(A_j)}{\sum_{i=1}^n P(B|A_i )P(A_i)} 

Questa ultima formula è nota anche con formula di Bayes.

La riscriviamo con la notazione utilizzata fino ad ora:

P(H_j|T)=\frac{P(T|H_j)P(H_j)}{P(T|H_1 )P(H_1)+P(T|H_2)P(H_2)+ \dots P(T|H_n )P(H_n)} 

Come si vede a sinistra abbiamo la probabilità a posteriori mentre a destra quella a priori.

Le probabilità ottenute sono una probabilità per lo spazio dell’insieme T partizionato con gli insiemi delle intersezioni degli H con T. Ecco perché la somma delle probabilità condizionate vale 1 come visto nella formula sopra durante la dimostrazione del teorema della partizione; il secondo passo.

Proviamo

Vediamo cosa dice la formula in qualche caso particolare. Supponiamo di avere un solo sacco di fagioli, la formula diventa:

P(H_1|T)=\frac{P(T|H_1)P(H_1)}{P(T|H_1 )P(H_1)}=1 

non essendoci altre possibilità il fagiolo deve provenire per forza dall’unico sacco presente, si noti che non importa se il test non ha l’efficienza del 100%.

Se abbiamo n sacchi di fagioli e sono equiprobabili la formula diventa:

P(H_i)=p \qquad \forall i=1, \dots, n \newline
P(H_j|T)=\frac{P(T|H_j)p}{P(T|H_1 )p+P(T|H_2)p+ \dots P(T|H_n )p} = \newline
=\frac{P(T|H_j)}{P(T|H_1 )+P(T|H_2)+ \dots P(T|H_n )} 

quindi la probabilità a posteriori diventa indipendente dalla probabilità a priori di scegliere quel sacco e dipende solamente dall’efficienza del test sul singolo sacco.

Se consideriamo solo l’ipotesi sacco e non sacco cioè altri sacchi:

P(H|T)=\frac{P(T|H)P(H)}{P(T|H )P(H)+P(T|H^c)P(H^c)}  \newline
P(H^c|T)=\frac{P(T|H^c)P(H^c)}{P(T|H )P(H)+P(T|H^c)P(H^c)}

dove altri sacchi è l’ipotesi rappresentata dall’ipotesi complementare. In questo caso potete pensare al famoso esempio del malato e non malato con il test diagnostico con falsi positivi. Questo è un esempio storico che ha cambiato il modo di vedere la diagnostica medica in generale.

Se H rappresenta la popolazione con una determinata malattia e H complementare la popolazione senza la malattia e T un test diagnostico che su H ha l’efficienza del 95% e su H complementare del 3% (falsi positivi) allora dato un paziente con test positivo qual è la probabilità che provenga effettivamente dalla popolazione con la malattia e non sia un falso positivo? La popolazione con la malattia si suppone dell’ 1%:

P(H)=1\% \newline
P(H^c)=100-1=99\% \newline
P(T|H)=95\% \newline
P(T|H^c)=3\% \newline

sostituendo i valori si ottiene:

P(H|T)=\frac{95\% 1\%}{95\% 1\%+3\% 99\%}=  24.2\% \newline
P(H^c|T)=\frac{3\% 99\%}{95\% 1\%+3\% 99\%}= 75.8\%

come si vede, la probabilità di trovare a caso un malato è dell’1% e tramite il test la probabilità sale al 24.2% che è migliore ma non molto elevata. Infatti la probabilità di essere un falso positivo è del 75.8% molto ma molto maggiore!

Il motivo è semplice, la probabilità di falso positivo si applica all’intera popolazione e quindi genera un elevato numero di falsi positivi, la percentuale di positivi rimane piccola rispetto ai falsi positivi.

Se ne esce elegantemente rifacendo il test a tutti i positivi, ora la popolazione è ridotta e si ottiene:

P(H|T)=\frac{95\% 24.2\%}{95\% 24.2\%+3\% 75.8\%}=  91.0\% \newline
P(H^c|T)=\frac{3\% 75.8\%}{95\% 24.2\%+3\% 75.8\%}= 9.0\%

Come si vede il test ora aumenta considerevolmente i positivi e riduce i falsi positivi. Ovviamente si può andare avanti e rifare il test una terza volta.

Faccio una precisazione, l’esempio numerico è tratto dalla mia immaginazione, non conosco dati reali della diagnostica medica quindi non prendeteli ad esempio di alcun test diagnostico che avete fatto. In internet potete trovare molti esempi con numeri diversi e risultati diversi ma l’idea è del tutto simile, i falsi positivi rendono problematici i test diagnostici.

Bayes e l’induzione

Veniamo ora al caso dell’induzione, il caso che ha ispirato Bayes, ricordo che l’abduzione ai suoi tempi non era ancora stata formalizzata mentre Bacone con il suo metodo avrebbe potuto influenzare le idee di Bayes ma questa è una mia idea senza basi storiche verificate.

Come già accennato se pesco da un sacco un fagiolo, poi ne pesco un altro e poi ancora un altro e così via potrei cominciare a pensare che con una certa probabilità il sacco contenga solo fagioli. In generale se prendo una manciata di legumi dal sacco e vedo che la percentuale di fagioli è x% e poi un’altra manciata mi da un risultato vicino anche se non identico e così via potrei pensare che nel sacco c`è una percentuale vicina ad x% di fagioli. Problema: quantificare la probabilità che il sacco abbia una composizione di x% di fagioli.

Il problema è risolvibile con l’abduzione vista in precedenza ma dobbiamo avere una visione differente del problema.

La probabilità della probabilità

La domanda che ci poniamo chiede quale sia la percentuale di fagioli. Tale percentuale potrebbe essere presente in vari intervalli:

H_1=\lbrace h | 0\%< h < 10\% \rbrace \newline
H_2=\lbrace h | 10\%< h < 20\% \rbrace\newline
\dots \newline
H_{10}= \lbrace h | 90\%< h < 100\%\rbrace \newline

facciamo il test cioè peschiamo n legumi dal sacco e contiamo i k fagioli, la percentuale misurata dal campione è k/n circa 12.5% quindi possiamo pensare che l’ipotesi H_2 sia quella buona. Rifacciamo il test, ora la percentuale di fagioli pescati è 21.8% allora potrebbe essere in H_3. La percentuale misurata varia e la variazione dipende dal numero di fagioli pescati e dal campione scelto. I fagioli potrebbero non essere uniformemente miscelati nel sacco con gli altri legumi.

Direi che ora l’idea su come affrontare l’induzione dovrebbe esservi sbocciata in mente. Se non vi è venuta fermatevi, prendete una pausa e rileggiate quanto detto per l’abduzione forse non vi è chiaro bene il concetto infine tornate qui e rileggete, se ancora non vi viene riprovate ma dopo un po’ di iterazioni fermatevi e leggete la soluzione qui di seguito.

Gli intervalli scritti sopra sono una partizione dell’intervallo reale da 0 a 100 ma possiamo anche pensare il tutto in un intervallo da 0 ad 1. Questi sono i nostri H_1, H_2… H_n.

Possiamo usare l’abduzione per risolvere il problema? Sì, ora vediamo di definire tutti gli elementi.

Qual è il test T? Beh, lo abbiamo già detto: prendiamo una manciata di fagioli e misuriamo la percentuale campionaria, otteniamo un numero p_n=k/n e poi in una misura successiva otteniamo un altro valore ma adesso rimaniamo su questo. Ci chiediamo, dato un valore misurato di percentuale di fagioli con quale probabilità possiamo affermare che il sacco contiene una percentuale di fagioli nell’intervallo H_1 oppure nell’intervallo H_2 e così via fino ad H_n ? Facile, è un caso particolare di abduzione e possiamo scrivere:

P(H_j|p_n)=\frac{P(p_n|H_j)P(H_j)}{P(p_n|H_1 )P(H_1)+P(p_n|H_2)P(H_2)+ \dots P(p_n|H_n )P(H_n)} 

Ottimo ma non fermiamoci qui.

Abbiamo scelto 10 intervalli, un limite facilmente rimovibile infatti la formula scritta sopra ha n intervalli. Li abbiamo presi equidistanti del 10% ma non è necessario, possiamo prendere un partizionamento dell’intervallo 0-100% oppure di 0-1 qualsiasi, la formula vale ancora.

Spingiamoci oltre. Proviamo a passare ad intervalli infinitesimali dh. Proviamo:

P(H)=P(a < h < b) \newline
P(H)=P(a < h < a +dh)=\rho(h)dh

nella prima riga abbiamo scritto la probabilità dell’evento H che è un intervallo da a a b. Nella seconda riscriviamo la probabilità con un intervallo infinitesimo da a a a+dh. Alla fine della formula la scriviamo come un infinitesimo. Inventiamo una densità di probabilità rho e la calcoliamo nel punto h. Deve valere:

\int_0^1\rho(h)dh=1

abbiamo pensato l’intervallo tra 0 e 1 (non tra 0 e 100). Ovviamente per intervalli finiti si avrebbe:

\int_a^b\rho(h)dh=P(H)

Fino a qui tutto chiaro. Ora vediamo la probabilità del test dato l’intervallo infinitesimo.

Visto che abbiamo k successi (fagioli) in n prove (legumi) possiamo utilizzare il buon vecchio Bernoulli (Jakob per essere precisi)

P(p_n|H)=P(k/n|a < h < a+ dh)=\binom{n}{k}h^k(1-h)^{n-k} \newline

ogni elemento della somma a denominatore ed anche quello a numeratore si può scrivere:

P(p_n|H )P(H)=P(p_n|H )\rho(h)dh=\binom{n}{k}h^k(1-h)^{n-k}\rho(h)dh

A denominatore la somma su tutti gli intervalli infinitesimi si trasforma in un integrale sull’intero intervallo 0-1. A numeratore rimane l’infinitesimo:

P(H|p_n)=P(a < h < a +dh |p_n)=\frac{\binom{n}{k}h^k(1-h)^{n-k}\rho(h)dh}{\int_0^1\binom{n}{k}h^k(1-h)^{n-k}\rho(h)dh} \newline

Il coefficiente binomiale sopra e sotto si semplifica. Questo ha un significato ben preciso: non importa l’ordine di estrazione dei fagioli, basta che siano n, che se ne estragga uno alla volta o una manciata non cambia niente.

A denominatore rimane un integrale definito che è una costante di normalizzazione P(T), per semplicità scriviamo la formula con questo simbolo:

P(T)=\int_0^1h^k(1-h)^{n-k}\rho(h)dh \newline
P(H|p_n)=P(a < h < a +dh |p_n)=\frac{h^k(1-h)^{n-k}\rho(h)dh}{P(T)} \newline

per avere un risultato finito e non infinitesimo dobbiamo pensare al termine a sinistra come una densità di probabilità ed integrare

P(a < h < b|p_n)=\int_a^bP(a < h < a+dh |p_n)dh=\frac{\int_a^bh^k(1-h)^{n-k}\rho(h)dh}{P(T)}

ecco fatto. Questa è la formula di Bayes per l’induzione o se preferite la formula di Bayes con un’infinità continua di intervalli infinitesimi.

Proviamo

Nel lavoro di Bayes pubblicato postumo la formula appena ricavata è per il caso particolare con rho costante e quindi uguale ad 1:

P(a < h < b|p_n)=\frac{\int_a^bh^k(1-h)^{n-k}dh}{\int_0^1h^k(1-h)^{n-k}dh} \newline

questa è un po’ più semplice ma rimane non facile.

Sotto integrale c’è un polinomio nella variabile h di integrazione; si tratta di un caso particolare della funzione beta che qui non trattiamo, possiamo utilizzare un paio di risultati noti sulla funzione beta.

P(T)=\int_0^1h^k(1-h)^{n-k}dh=\frac{k!(n-k)!}{(n+1)!}

di conseguenza la formula si semplifica leggermente:

P(a < h < b|p_n)=\frac{(n+1)!}{k!(n-k)!} \int_a^bh^k(1-h)^{n-k}dh \newline

La formula dice che se ho una stima data dal test di k/n allora la probabilità che l’intero sacco abbia una percentuale tra a e b di fagioli è data dalla formula qui sopra.

La formula è comunque una distribuzione sull’intervallo 0-1 e possiamo pensare che sia concentrata attorno al valore di test p_n=k/n per valori di n grandi. Gli integrali in giuoco non sono semplici ma possiamo calcolare analiticamente il valore medio della distribuzione o valore di aspettazione:

E( h )=\frac{(n+1)!}{k!(n-k)!} \int_0^1h^{k+1}(1-h)^{n-k}dh=\frac{k+1}{n+2} \newline

anche qui il calcolo dell’integrale non è banale e lo diamo per noto tramite lo studio della funzione beta; fatevene una ragione. Il risultato è dovuto a Pierre Simon Laplace.

Nel caso particolare che il test fornisca sempre n successi su n casi (sempre fagioli) la formula diventa:

E( h)=\frac{n+1}{n+2} 

Notiamo che anche senza test, cioè per n=0, partiamo dicendo che abbiamo una confidenza del 50% che ci siano fagioli nel sacco o se preferite che ci sia una probabilità del 50% che non ci siano fagioli nel sacco.

Ed ora possiamo citare alcuni problemi famosi:

Sorgerà il sole ? (Laplace)

Prendiamo una persona maggiorenne, 18 anni per esattezza, chiediamogli se il prossimo anno sorgerà il sole. In base alla sua esperienza che non sono altro che i suoi compleanni può dire che 18 volte su 18 il sole è sorto e quindi si aspetta che sorga ancora con probabilità:

\frac{18+1}{18+2}=0.95

se invece gli chiedessimo la probabilità che domani sorga il sole allora la sua esperienza è maggiore e si ha:

\frac{365\cdot 18+1}{365\cdot 18+2}=0.99985

l’esempio è interessante perché mostra come l’orizzonte temporale possa cambiare la probabilità.

Il tacchino induttivista (Bertrand Russell)

Prendiamo un tacchino adulto, 6 mesi per essere precisi, chiediamogli se domani mangerà alle 9. In base alla sua esperienza per 6 mesi l’allevatore gli ha fornito cibo tutte le mattine alle 9 indipendentemente dai fattori ambientali come caldo o freddo, pioggia o sole. Si aspetta quindi di ricevere cibo alle 9 con probabilità:

\frac{30\cdot 6 +1}{30\cdot 6 +2}=0.9945

ma il giorno dopo è il giorno del ringraziamento e sarà lui ad essere mangiato!

Questo esempio è dovuto a Russel e ricorda che il ragionamento per induzione non è sempre vero. Il tacchino induttivista viene spesso citato in ambiente filosofico legato al nome di Bacone e altri.

Il sacco di fagioli

Finiamo con l’esempio da cui siamo partiti, da un sacco cominciamo ad estrarre il contenuto e troviamo un fagiolo, due fagioli, ecc. Piano piano cominciamo a convincerci che tuto il sacco contenga fagioli. Dopo un manciata di fagioli possiamo calcolare la probabilità media che il sacco sia pieno di fagioli. Possiamo stimare che una manciata di fagioli ne contenga 50:

\frac{50+1}{50+2}=0.981

questo esempio è interessante perché l’induzione non considera la dimensione del sacco. Sia che si tratti di un sacco che di un silos si ha una confidenza maggiore del 98% che tutto il sacco o tutto il silos contengano solo fagioli.

Meinfach
Meinfach

Si può ovviare a questo difetto tenendo conto della distribuzione rho che abbiamo posto costante ed uguale ad 1. Possiamo modellizzare rho facendola decrescere alle alte percentuali riducendo così la nostra confidenza.

Notate anche che il test stima la percentuale di fagioli a partire da una manciata. Il problema posto all’inizio invece cambia percentuale pescando ogni volta un legume dal sacco ed osservando che si tratta di un fagiolo. La cosa funziona ma quando si arriva ad estrarre tutti i fagioli per quanto siano tanti la formula non ci da la certezza che il sacco contenga solo fagioli. Qui si vede una piccola ma significativa differenza, il test è su un campione di un numero finito di legumi inferiore al numero totale e finito di legumi presenti nel sacco. Ogni test non è definitivo. Fare un test con tutti i legumi del sacco cambia l’efficienza del test o verosimiglianza che diventa certezza ed il problema perde di senso.

Basta. Finisco qui.

Concludendo

Che fatica! Questo post mi è costato davvero molto tempo. Allora, siamo partiti dai ragionamenti ed abbiamo visto che ce ne sono tre: deduzione, induzione ed abduzione. Poi abbiamo visto che induzione ed abduzione non danno una verità assoluta come la deduzione ma solo un ragionamento probabile. Bayes ha cercato di quantificare la probabilità del ragionamento per induzione ma, indirettamente ha risolto anche il problema della quantificazione della probabilità per l’abduzione.

Schematizzando abbiamo visto che ci serve una partizione dello spazio degli eventi elementari con insiemi H detti delle ipotesi ed un insieme T che io chiamo test. Se si conoscono le probabilità che si verifichi H e l’efficienza del test su H (la verosimiglianza) è possibile ricavare una formula che fornisce la probabilità che dato il test verificato l’evento elementare provenga da H. Questa formula risolve il problema dell’abduzione e si può applicare ad ogni problema che data una classificazione attraverso gli H ed un test richiede di calcolare la probabilità che l’evento elementare appartenga ad una particolare classificazione H. Abbiamo visto degli esempi: da dove viene la pallina nera? Se il test è positivo il paziente viene dall’insieme dei malati o dei sani (falso positivo)?

Poi siamo passati al problema dell’induzione vera e propria. Abbiamo visto che può essere ricondotta al problema dell’abduzione partizionando lo spazio delle probabilità. Inoltre viene naturale passare ad una forma continua degli insiemi ed ad integrali invece che somme. Il problema però diventa difficile per via del calcolo degli integrali. In forma molto semplificata abbiamo calcolato dei valor medi e con questi affrontato alcuni problemi molto semplici ma significativi come: il sole che sorge, il tacchino induttivista ed infine abbiamo risolto il problema di partenza del sacco di fagioli.

Nell’esempio finale e più semplice abbiamo anche messo in luce che la distribuzione della scelta degli intervalli (la rho) è da tenere in considerazione quando si fanno stime basandosi su campioni piccoli rispetto al problema. Inoltre abbiamo anche mostrato che prendere un campione pari a tutto il sacco cambia la natura del problema che si riflette sulla funzione di efficienza del test o verosimiglianza.

Ora la pasta e fagioli è pronta e vi lascio per gustarmela.

Bibliografia

Consulta la pagina a questo link

/ 5
Grazie per aver votato!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.