Statistica da maneggiare con cura

La statistica è una disciplina pericolosa. Il mio primo pensiero in merito è che l’appassionato di statistica è una persona che, se tiene la testa in un forno e i piedi in un congelatore, ti dice “la mia temperatura, in media, è buona!”…

Il secondo è che tendiamo a patire parecchi problemi quando ci imbattiamo nei numeri. Nella quasi totalità dei casi ci vengono fornite informazioni incomplete, che confondono il nostro giudizio. Molto spesso vengono omesse le determinanti del dato statistico, come la specifica del campione usato, oppure quali siano esattamente gli attributi o i risultati che inducano a conteggiare o meno un evento, oppure che accezioni siano state adottate. Nell’asserzione “il 5% degli studenti termina l’università in tempo” manca un buon ammontare di informazioni: studenti italiani o di che nazione? I campione è relativo a tutte le università di Italia? A quelle statali o anche alle istituzioni private? In che anni è stato effettuato il rilevamento e per che durata? È cioè un dato ‘istantaneo’ (“in questo anno accademico”) o ‘di durata’ (“negli ultimi 25 anni”)? Come si definisce “in tempo”? Alla data esatta del compimento di un certo anno di età dello studente, oppure in funzione dell’iscrizione all’anno accademico ‘fuori corso’, oppure rispetto a un’altra media?

Prendiamo un altro esempio: “I reati in Italia sono diminuiti del 3%”. Intendiamo il numero di reati o la gravità dei reati? Che periodo di tempo stiamo confrontando con qual altro? Lo scorso anno solare con due anni fa? O in questo decennio in confronto allo scorso decennio? O questo mese rispetto al mese precedente? O questo mese rispetto all’analogo mese dell’anno precedente? Stiamo ragionando a parità di perimetro (magari qualche reato è stato ‘depenalizzato’, ovvero ne sono stati introdotti di nuovi)? Sono solo i reati di rilevanza penale? Qual è la varianza del dato, a livello locale? Si tratta di una media nazionale ‘abbastanza omogenea’ (bassa varianza) oppure in alcune zone d’Italia i reati sono aumentati tantissimo e in altre sono crollati (alta varianza)? Quale la varianza per tipologia di reato? Se la media dei ‘micro-reati’ è diminuita del 3% ma omicidi e rapine sono aumentati fortemente è cosa ben diversa da una diminuzione uniforme. La frase si riferisce ai reati ‘perpetrati’ in quel lasso di tempo, oppure ai reati ‘registrati’ dal Ministero degli Interni, oppure alle condanne per reato sentenziate in quel periodo dalla magistratura? Un reato può essere commesso e mai denunziato, oppure può essere commesso al finir di un anno, scoperto o denunciato l’inizio d’anno seguente, e dopo due anni può essere emessa la sentenza in cui si determina che “il fatto non costituisce reato”. E poi magari la sentenza stessa può essere ribaltata in un grado di giudizio superiore. Poniamo il caso che, a esser diminuiti, siano i “reati registrati ufficialmente” per denuncia alle forze d’ordine: una diminuzione del 3% deve essere interpretata come una civilizzazione sociale, oppure come il buon effetto di nuove misure d’ordine pubblico e di sicurezza, oppure come un incremento dell’impunità (!) o dell’omertà? In altre parole, a diminuire è stato il numero degli stupri, o è aumentato il numero di casi di stupro non denunciati?

L’economia, materia dalle velleità scientifiche, è una fonte continua di dati e statistiche, e il giornalismo economico non difetta dal bombardarci di dati, sensazionalistici quanto parziali, che confondono spesso i lettori.

“Il PIL dell’Italia rivisto a +0,4%”. Mi domando che deduzioni dovrebbe scatenare nel lettore o ascoltatore questa informazione che data una settimana da quand’è scritto questo articolo. La risposta è che, più che deduzioni, dovrebbe comportare una serie di ragionamenti.

Intanto arricchiamo qualitativamente l’informazione: l’incremento del 4‰ si riferisce al PIL italiano dell’anno solare 2008 rispetto al medesimo registrato nel 2007. Poiché siamo ancora in corso d’anno, si tratta del confronto fra un dato ‘consuntivo’ (diciamo comunque che è riferito a un periodo conclusosi) e un dato previsionale. Essendo un dato previsionale ci interessa venire a conoscenza di altre due informazioni: chi ha effettuato la previsione e quanto di norma sia attendibile. Il grado di attendibilità è ovviamente dato dall’intervallo di confidenza storico delle previsioni; si viene così a scoprire che, storicamente, un centro studi ha sbagliato (finora…) le previsioni per difetto con un massimo del 45%, e per eccesso con un massimo del 10%: ciò significherebbe che il 4‰ potrebbe essere un 5,8‰ oppure un 3,6‰, ovvero un 4,7‰±1,1.

Ci interesserà poi sapere la serie storica del PIL negli ultimi decenni, per cercare di intuire se siamo all’interno di una tendenza (in aumento, in diminuzione), o se sembra che siamo prossimi a un massimo o un minimo storico, o se stiamo seguendo una fase ‘laterale’. Una rappresentazione grafica è spesso la via più intuitiva e più facilmente interpretabile rispetto a una visione tabellare o di mera elencazione.

Sarà importante anche apprendere, purché a condizioni omogenee, quali siano i riferimenti confrontabili di altre nazioni. Vorremo raffrontare, se possibile sempre graficamente, gli andamenti di nazioni nella nostra stessa area (l’Unione Europea magari), e gli andamenti di nazioni comparabili alla nostra (che, ad esempio, abbiano grandezze assolute di PIL simili). Vorremmo anche confrontare i PIL pro capite delle nazioni di cui sopra, o quanto meno raffrontarci anche con quelle con popolazioni attualmente simili. Così come vorremo tener conto dell’adeguamento in termini del potere d’acquisto della moneta negli anni. [Nell’articolo originariamente pubblicato erano inserite] delle elaborazioni grafiche dei dati sul PIL con dati tratti dalla banca dati dell’I.M.F., cioè del Fondo Monetario Internazionale.

Più di tutto vorremmo capire cosa sia il PIL. Non nel senso cosa significhi, poiché è abba- stanza noto che sia il Prodotto Interno Lordo, ma cosa esprima ‘veramente’, come venga misurato e quanto sia attendibile.

Nel Dornbusch-Fisher si spiegava che il PIL è il valore di tutti i beni e di tutti i servizi prodotti all’interno di una nazione, in un dato periodo. Il PIL è calcolato sui valori finali, o “al consumo”, e quindi non tiene conto dei valori ‘intermedi’. L’esempio classico è che se si produce un’automobile, essa sarà calcolata solo per il suo valore finale, di vendita, e non anche sommata al valore delle sue singole parti prodotte. Per ciò si intende a calcolare il PIL unicamente sui “valori aggiunti”, considerando ossia gli incrementi di valore lungo la catena produttiva – allo stesso modo del funzionamento dell’I.V.A., che infatti è l’Imposta sul Valore Aggiunto.

Il dato del PIL, di fatto, comporta una serie di problemi pratici. Intanto, come accennato sopra, può essere rilevante rapportarlo alla popolazione nazionale, o addirittura alla popolazione in età e capacità produttiva, o alla popolazione occupata. Il PIL ha il difetto di contenere anche produzioni ‘sostitutive’ o comunque connesse ad eventi negativi. Ad esempio se una catastrofe devasta una regione, le opere di ricostruzione vengono conteggiate nel PIL. In realtà non è stata “prodotta nuova ricchezza”, ma sono stati spesi denari per ripristinare opere infrastrutturali pre esistenti. Inoltre ci sono numerosi problemi legati alla rilevazione stessa del dato, e le informazioni sul PIL vengono rettificate, corrette e riviste per lungo tempo successivo al periodo al quale si riferiscono. Infine tralasciano, inevitabilmente, tutto “il sommerso”: tuttavia, ancorché irregolare, sotto banco, illecito eccetera, si tratta di un gruppo di attività che produce beni e servizi…

Informazioni che hanno per oggetto il PIL vengono però continuamente diffuse dai media, e nella quasi totalità dei casi con intenzionalità di rappresentare vuoi il termometro della salute economica di un paese, vuoi il benessere di una popolazione. Personalmente non credo che l’asserto “il PIL dell’Italia rivisto a +0,4%”, isolato in un trafiletto di giornale più o meno allungato, sia significativo. Di sicuro non indica che nel 2008 il benessere degli italiani sia aumentato, né dello 0,4 di qualcosa, né di un’altra qualsiasi percentuale di qualcos’altro.

Più in generale il benessere di una nazione non si misura con strumenti statistici, meno che mai col dato del PIL comunicato provvisoriamente dall’IStat o da qualche altro ente. Inizio anzi a credere che il benessere non sia un’unità misurabile, ma semplicemente uno stato soggettivo più o meno definibile in termini di percezione istantanea e personale.

Qualsiasi altra rappresentazione mi appare come semplicistica riduzione a regole statistiche, che hanno la pretesa di apparire “scientifiche” (e quindi “precise”), ma che, alla fine, hanno la stessa importanza ontologica del gatto di Erwin Schrödinger, vivo al 50% e morto al 50%,… cioè nessuna.

Articolo precedentemente pubblicato dal bimestrale: “CR&M”, settembre’08.

Lascia un commento