Paradosso di Simpson

Il paradosso di Simpson è in statistica la situazione in cui una relazione tra due fenomeni viene apparentemente modificata o persino invertita dai dati in possesso a causa di altri fenomeni non presi in considerazione nell'analisi. È alla base di "frequenti" errori nelle analisi statistiche nell'ambito delle scienze sociali e mediche, ma non solo.

Ai problemi creati dal paradosso può essere ovviato facendo ricorso alla standardizzazione delle variabili.

Storia

George Udny Yule lo descrisse nell'articolo "Notes on the theory of association of attributes in Statistics", comparso in Biometrika nel 1903 e E. H. Simpson con l'articolo "The interpretation of interaction in contingency tables" nel Journal of the Royal Statistical Society (1951).

Definizione formale

Benché

P(X|BC) > P(X|bC)
P(X|Bc) > P(X|bc)

accade che

P(X|B) < P(X|b)

dove

P(X|YZ) è la probabilità di X condizionata dall'evento congiunto Y e Z
b è l'evento complementare di B
c è l'evento complementare di C

Esempio

Si ipotizzi una situazione nella quale, a parità di età, tra i diplomati o laureati la percentuale di disoccupati sia la metà di quella che si ha tra chi non ha conseguito il diploma. Si consideri però pure il fatto che, per motivi storici, tra le generazioni più anziane i diplomati siano in numero molto minore e che, per motivi legati al mercato del lavoro, tra i giovani il tasso di disoccupazione è più elevato che tra gli anziani.

Partendo dalle seguenti due statistiche ipotetiche

               L A V O R A T O R I
            senza diploma   con diploma     TOTALE
 Giovani        20              80            100
 Anziani       120              30            150
 TOTALE        140             110            250
 
             TASSO DI DISOCCUPAZIONE = disoccupati ogni 100 lavoratori
            senza diploma   con diploma
 Giovani        30,0%          15,0%     
 Anziani         5,0%           2,5%    
 

dove abbiamo che in entrambi i casi la disoccupazione è sempre doppia tra i non diplomati, rispetto ai diplomati, possiamo calcolare il numero di disoccupati:

               LAVORATORI DISOCCUPATI
            senza diploma   con diploma     TOTALE
 Giovani         6              12            18
 Anziani         6               1             7
 TOTALE         12              13            25            
 

Questi valori assoluti ci permettono ora di calcolare il tasso di disoccupazione per i non diplomati e per i diplomati senza tenere conto dell'età: si ottiene

               Percentuale di 
            lavoratori disoccupati
 Senza diploma: 12/140 =  8,6%
 Con diploma:   13/110 = 11,8%
 

improvvisamente si scopre che tra i diplomati il tasso di disoccupazione invece che essere la metà è di un quarto maggiore che tra i non diplomati, esattamente il contrario di quello che si era ipotizzato.

Questo paradosso è detto appunto di Simpson ed è dovuto al fatto che il tasso di disoccupazione è nettamente maggiore nel gruppo che ha una maggiore percentuale di diplomati; trascurare l'esistenza di due relazioni fondamentali (quella tra disoccupazione e età, nonché quella tra età e titolo di studio) fa giungere a conclusioni errate.

Mentre in questo caso preparato a tavolino la contraddizione è evidente, nelle analisi statistiche reali può capitare di non accorgersi delle relazioni implicite esistenti tra le variabili e limitarsi ad analizzare dati aggregati senza incrociarli con le variabili essenziali; la contraddizione non verrebbe allora minimamente percepita, e si potrebbero trarre conclusioni completamente opposte alla vera distribuzione, con conseguenze potenzialmente molto gravi.

In situazioni meno estreme di quelle dell'esempio, le stesse cause del paradosso di Simpson possono portare a sovrastimare o sottostimare differenze tra gruppi, senza però capovolgere il "segno" della relazione.

I dati prodotti dal paradosso di Simpson chiaramente non sono sbagliati in sé, ma semplicemente devono essere letti in modo diverso di quanto non farebbe un lettore o analista superficiale:

Mentre sbagliata è la conclusione superficiale che usa concetti di causa-effetto, come

Volendo usare concetti di causa effetto (spesso l'unico motivo per il quale si analizzano i dati), ma avendo a disposizione tutti i dati, si può dire

  1. I giovani sono sei volte più soggetti alla disoccupazione rispetto agli anziani
  2. ma sia tra i giovani che tra gli anziani avere un diploma riduce il "rischio disoccupazione" alla metà


Categoria:Statistica Categoria:Paradossi

See also: Paradosso di Simpson, 1903, 1951, Biometrika, George Udny Yule, Probabilità, Probabilità condizionata, Royal Statistical Society, Tasso di disoccupazione