di Andrea Lanza
Il nostro amico e socio Andrea Lanza, a partire da quello che vede in Canada – dove vive – e segue a distanza dall’Italia, riflette sull’uso delle statistiche mediche al tempo della quarantena: la confusione tra dati e realtà, la costruzione delle variabili osservate, i giochi di prestigio, l’uso rituale. Consigli su come resistere alla mistica della statistica anche in tempi ordinari.
In questo tempo di coronavirus le statistiche sono diventate il principale strumento per rappresentare il pericolo invisibile. Su di esse si basano le decisioni delle autorità. La loro riproduzione massiva non solo legittima la riduzione delle libertà individuali, ma condiziona i nostri comportamenti, studiati a loro volta da altre statistiche, più o meno improvvisate quali quelle messe a disposizione da google.
Se guardo dalla finestra, vedo i marciapiedi quasi vuoti. Qui in Canada il confinamento non è imposto da controlli di polizia, ma da calorosi inviti a non uscire e non meglio precisate sanzioni per chi non dovesse rispettare i due metri di distanza dalle persone con cui non convive. Tutto sommato si potrebbe dire che i governi dei diversi livelli della federazione si stiano muovendo con una ragionevole calma e determinazione, se non si ricordasse che, come dice un twitter di relativo successo da queste parti, “elogiare Doug Ford [governatore dell’Ontario] per come gestisce la crisi sanitaria dopo che ha distrutto il sistema sanitario dell’Ontario è come elogiare dei piromani che hanno spostato la loro macchina per liberare il passaggio ai pompieri”. In linea con quasi tutti i governi del mondo, anche quelli di qui, supportati da media e dalla gente comune, hanno adottato uno slogan che tre mesi fa sarebbe potuto al massimo essere un tormentone per nerd di statistica: “abbassiamo la curva!”. E per abbassarla, ovunque, cittadine e cittadini sono sollecitati a guardare numeri e grafici in cui la curva si rivela. Il governatore dello Stato di New York sintetizza alla perfezione questa mistica statistica: “Questa curva è una pura funzione di ciò che facciamo giorno dopo giorno” (“USA Today”, 8 aprile).
In Italia (come in altri paesi), Governo e Protezione Civile hanno istituito una quotidiana condivisione dei dati che appare in tutto come un rituale collettivo dell’arte divinatoria. La quotidianità della cerimonia nega il senso stesso delle statistiche esposte sull’altare virtuale. Le tendenze emergono su scale temporali sufficientemente estese da minimizzare le inevitabili oscillazioni. Voler dedurre una tendenza da un dato quotidiano è come voler comprendere la rotta di una barca a vela a ogni virata. Ma i rituali, si sa, rispondono a funzioni altre da quelle ostentate.
Di fronte a questa mobilitazione dei grafici, le reazioni si polarizzano. Alla credenza cieca si oppone una serpeggiante diffidenza. Ne scaturisce uno pseudo-dibattito in cui opinioni estemporanee si contrappongono sterilmente. È già stato così, per esempio, con i vaccini: la radicalizzazione dei no-vax e dei sì-vax ha di fatto reso impossibile l’articolazione di ragionamenti, impossibile riflettere e dividersi su chi e come debba decidere tempi e modi delle vaccinazioni, produrre i vaccini o investire nella loro messa a punto.
Occorre fare un passo indietro per non cadere nella sterile dicotomia statistiche affidabili vs inaffidabili. Certamente esistono statistiche inaffidabili, elaborate su basi erronee. Più spesso vi sono statistiche il cui uso è distorto. Le distorsioni non risultano necessariamente da un disegno unico, ma da un sommarsi di leggerezza, ignoranza, interesse e bisogno. Se antepongo leggerezza e ignoranza a interesse e bisogno è perché queste prime sono ed erano diffuse non solo nell’uso pubblico delle statistiche, ma anche in quello scientifico, in tempi meno sospetti.
Facciamo allora il passo indietro. Le statistiche si fondano sull’astrazione di dimensioni rilevabili, ovvero isolabili e quantificabili. Questo punto di partenza appare ovvio, ma viene sistematicamente dimenticato. Le statistiche circolano e più circolano, più ci si dimentica del loro senso, ovvero dei limiti all’interno dei quali avevano un senso. Sono cioè indebitamente generalizzate, attraverso distorsioni di natura diversa. Classifico le distorsioni in quattro categorie per infine attirare l’attenzione su un gioco di prestigio con cui spesso si occultano queste distorsioni.
Il dato rilevato si confonde con la realtà
Ci si dimentica che le rilevazioni isolano delle limitate dimensioni quantificabili. Nel momento in cui si produce, usa o legge una statistica, significato e affidabilità sono relative ai limiti della rilevazione. In questi giorni di coronavirus, ricorre esasperatamente la confusione fra “positivi ai test” e “contagiati”. Si confonde cioè un dato rilevato (l’esito di un test, che implica una soglia minima di riproduzione del virus nel corpo del testato, ovvero un tempo non quantificato dal momento del contagio, e un margine d’errore) per una realtà. Inoltre si confonde un campione per la totalità, in questo caso senza che vi sia neppure la velleità di ritenere il campione rappresentativo: i tamponi vengono fatti a categorie ritenute a rischio (per sintomi o per esposizione diretta a contagiati) e quindi nulla ci dicono della diffusione del virus fra le persone non testate.
Un uso tanto distorto delle statistiche non sorprende. Intere discipline scientifiche sono strutturalmente inficiate da questo errore. È il caso per esempio della semantica storica in cui molto, troppo spesso i rilevamenti sugli insiemi di testi indicizzati sono confusi per uno studio delle realtà degli usi delle parole. Si prende il numero di occorrenze in un corpus (scritto, trasmesso e digitalizzato) per un uso effettivo in un contesto storico.
Un altro esempio: le statistiche storico-economiche sono quasi sempre relative alla partecipazione degli attori agli scambi monetari e ignorano tutto ciò che attiene all’autoproduzione o agli scambi non monetizzati, ma vengono invece usate come rappresentative delle condizioni socio-economiche di una popolazione nel suo complesso.
Il riflesso dell’osservatore nell’oggetto rilevato
Le statistiche rilevano un numero limitato di dimensioni isolabili e quantificabili. Vi è allora una selezione a priori delle dimensioni da rilevare e un’operazione di quantificazione che implica una qualificazione. Per rilevare il tasso di urbanizzazione di una certa regione ho bisogno di definire urbano e rurale, ovvero isolare dei criteri quantificabili (per es. dove gli abitanti abitano; o in quali attività sono occupati; etc.) e definire le soglie quantitative necessarie a classificare i miei dati. Riflette cioè una concezione dell’urbanizzazione. Chiaramente posso moltiplicare le classi con definizioni complesse per evitare la riduzione a città vs campagna. Ma, a scanso di equivoci, è bene ricordare che la migliore statistica non è quella che rispetta in tutto l’eterogeneità della realtà, esattamente per lo stesso motivo per cui la migliore mappa non è quella a grandezza naturale. Inoltre la statistica raramente può rilevare in modo esaustivo le dimensioni quantificabili selezionate, come accade per esempio nei casi eccezionali dei censimenti o per l’anagrafe. Lo statistico deve allora selezionare un campione ritenuto rappresentativo. Dimenticarsi delle selezioni e classificazioni a priori e del ruolo che lo statistico vi gioca porta a considerare il risultato come oggettivo e non come strutturalmente condizionato dallo sguardo dello statistico.
Consideriamo i dati sui morti per covid-19. Le statistiche (in Italia e per la maggior parte dei paesi) rilevano i deceduti risultati positivi al test. In questa rilevazione possono risultare positivi test di morti principalmente per altre cause mentre vengono esclusi i morti per coronavirus cui non vengono fatti i test. Per una necessariamente imprecisa ma determinante concezione a priori del coronavirus, i test sono stati fatti fin dall’inizio in maniera (quasi) esclusiva sui decessi in ospedale; si supponeva cioè che il decorso della malattia portasse al ricovero dei casi gravi e che non fosse utile introdurre una distinzione arbitraria fra diversi gradi di relazione decesso-coronavirus. Si è inoltre trascurata la rilevazione statistica diffusa attraverso, per esempio, i medici di famiglia (almeno a livello sintomatologico).
In Francia, dal giorno in cui i tamponi post-mortem si sono estesi alle case per anziani, i dati sono cambiati in modo sensibile. Anche in questo caso, l’estensione riflette lo sguardo dell’osservatore che individua negli anziani la fascia più a rischio.
Questo tipo di distorsione in genere non determina errori macroscopici, di cui l’osservatore si accorgerebbe; in modo più sottile, nasconde elementi secondari che tuttavia potrebbero mettere in discussione i paradigmi generali. Studiare i dati deve implicare una riflessione costante sui criteri adottati per poter eventualmente ripensare l’oggetto in altre prospettive.
La deduzione autoavverante
Di fronte ai limiti dei dati rilevati, la tentazione di opporvici i dati “reali” è forte. In diversi hanno allora pensato di confrontare i dati sui decessi del periodo del coronavirus con quelli dei dati precedenti. La Asl 2 di Treviso ha reso pubblico che il numero di morti fra inizio gennaio e fine marzo negli ospedali di sua competenza era sostanzialmente invariato. Per i negazionisti della pericolosità del virus è stata una rivelazione, salvo che questi dati possono avere significati opposti. In Lombardia, numerosi sindaci hanno infatti pubblicato i decessi totali nei propri comuni per periodi analoghi negli ultimi anni per opporre al dato “ufficiale” dei morti per coronavirus il dato “reale”, ovvero quello delle anagrafi. Il confronto è molto interessante, ma è fondamentale chiarire a cosa corrisponda il dato che ricaviamo: ritenere che la differenza tra le due rilevazioni sia il numero di morti da coronavirus significa ridurre le cause possibili alla sola che ipotizziamo a priori. In tutta la sua tragicità, la differenza fra i decessi dei diversi anni ci indica un generale impatto del coronavirus, non le cause di morte. L’epidemia ha cambiato radicalmente i nostri comportamenti e, quindi, anche le cause di morte: è ragionevole pensare, per esempio, che gli incidenti stradali (primo fattore di morte per i maschi sotto i quarant’anni in Italia) siano diminuiti drasticamente, come probabilmente le vittime sul lavoro. Contemporaneamente, è ragionevole credere che i decessi per patologie non legate al coronavirus possano essere aumentati perché la gente tende a evitare i luoghi di cura trasformati in potenziali focolai. Inoltre, il personale delle case di cura per anziani ha a volte evocato la triste tendenza a non alimentarsi da parte di pazienti isolati dai propri cari. Ancora una volta, si tratta di tenere conto dei limiti delle statistiche: prendere numeri generali (o “dati reali”, se si vuole usare un ossimoro) abbassa la discrezionalità della selezione (“morti con tampone post-mortem positivo”), ma moltiplica il numero di variabili da tenere in conto nell’interpretare i dati. Altrimenti i “dati reali” non fanno che confermare ciò che già si voleva credere.
La macedonia di mele
Da bambino detestavo il motto didattico “non si sommano mele e pere”. Tutti i numeri si possono sommare: se sommo mele buone e mele marce, posso ben sommare mele e pere sapendo che sto contando il numero di frutti.
Un tipico uso perverso della statistica è quello di rispettare alla lettera il motto infantile della somma delle mele, aggirandone però quella che dovrebbe essere la sua sostanza: in altre parole si assemblano o si confrontano dati cui si è dato lo stesso nome, ma che corrispondono a realtà diverse.
Ogni paese del mondo, per non dire ogni regione d’Italia, rileva i dati sui positivi ai test e sui morti associati al coronavirus in modo diverso, eppure siamo inondati di tabelle riassuntive su valori nazionali e internazionali. Una macedonia di frutti diversi che chiamiamo mele.
Se oggi lo spazio comunicativo globale è totalmente occupato da questa improbabile macedonia di mele, in cui per esempio sotto la comune dicitura di “morti per coronavirus” si confrontano dati che in Italia, Germania, Francia o Brasile corrispondono a realtà diverse, è anche grazie a decenni di leggerezze da parti di economisti, sociologi, storici, etc. che ci hanno troppo spesso propinato macedonie di mele. Per esempio hanno ripetutamente messo a confronto i dati della “disoccupazione” con sistemi incompatibili di distinzione fra disoccupato e sottoccupato o fra disoccupato e inoccupato.
Il gioco di prestigio
Se l’esposizione bruta mostra i limiti dei dati rilevati (da intendersi come limiti all’interno dei quali vi è senso), l’elaborazione statistica eccelle nell’arte dell’occultamento. L’elaborazione dei dati ha infatti il perverso effetto di nascondere le distorsioni iniziali e di fornire nuovi numeri che appaiono incontrovertibili. Le statistiche sul coronavirus non costituiscono eccezione.
Prendiamo i dati sui tassi di mortalità e i dibattiti che hanno alimentato. Per spiegare le loro variazioni impressionanti si sono mobilitate spiegazioni di ogni genere, ivi compresa la tesi della mutazione radicale del virus e l’esistenza di un ceppo italiano. Se ci si fosse fermati a guardare il prestigiatore si sarebbe immediatamente visto che i sedicenti tassi di mortalità, lungi dall’essere la proporzione fra numero di morti e numero di contagiati, sono in realtà la proporzione fra numero di morti associati con criteri diversi al coronavirus e persone rilevate positive ai test effettuati con criteri parimenti incomparabili, da cui una logica discrepanza.
Non meno fantasmagorico è parlare di Erre con zero, l’ormai famoso “R0”. Come ampiamente ripetuto in questi giorni, il fattore di contagiosità o “numero di riproduzione di base” indica il numero medio di contagiati da un singolo infetto. Lo statistico prestigiatore evoca dati sul fattore di contagiosità senza disporre del numero di contagiati. La piccola minoranza di medici e comunicatori che si astiene dall’arte magica parla infatti di percentuali di test positivi sui test effettuati, e individua nell’abbassamento di queste un segno indiretto della diminuzione dei contagi.
Su questo mi congedo: non si tratta di buttare a mare tutte le statistiche, ma di prenderle per quello che sono. Per essere affidabili devono avere dei limiti, dichiarare i propri limiti, e dare la possibilità a chi le legge e usa di misurare la differenza fra le variabili quantificabili isolate e la realtà.
Alessandro Foriero dice
Un lavoro molto professionale e pienamente convincente, che ho letto con interesse e che personalmente condivido.
Complimenti Andrea !
Tullia dice
Grazie per questo ampio approfondimento, molto argomentato, sul tema dell'affidabilità della statistica. Per fortuna chi si occupa seriamente di Scienza, in questo periodo di "siamo tutti virologi, immunologi, epidemiologi, ecc", senza che chi si rivolge a quelli veri abbia la benché minima conoscenza e quindi comprensione della grandissima differenza tra quel tipo di competenze, cerca di contrapporre l'atteggiamento serio del Dubbio che sempre la Scienza deve tenere, Vs le frettolose speculazioni di chi ancora una volta coltiva i suoi interessi economici. La statistica non è mai stata una Scienza di per sé (vedi il pollo… uno a testa quando io ne mangio 2 e il migrante di turno non ne vede neanche l'ombra)… ma solo in relazione ad altre Scienze, come del resto SEMPRE deve avvenire: non esiste Scienza che non si avvalga di almeno altre due o tre. Anche in questo caso sarebbe bene ricordarlo. Grazie.
Anna Beltrametti dice
Caro Andrea, hai fatto bene a scrivere questo bel pezzo, è un dovere per uno storico. Il problema, come tu mostri bene, non sono le statistiche deliberatamente falsificanti, ma quelle che non sono inquadrate e discusse entro coordinate precise e dichiarate. I numeri, che tutti prendono per dati oggettivi, di per sé non vogliono e non possono dire niente, solo possono illudere come fumo negli occhi
Paolo Pellizzari dice
Bel pezzo, interessante e ben argomentato. Lungi dal farmi credere che tutte le statistiche sono da buttare – che cosa ci resta senza? – mi ha ricordato per l'ennesima volta l'idea di Box "All models are wrong, but some are useful" (e non è nemmeno chiaro che l'attribuzione sia corretta…) Grazie! paolop
Paolo Salza dice
Un rarissimo esempio di ragionamento serio e illuminante. Grazie