IL TRANELLO DEI DATI

Con la presente breve trattazione desidero argomentare una tesi chiara e limpida: i dati forniti ogni giorno dalla Protezione Civile possono essere particolarmente ingannevoli per il lettore poco esperto.

Premessa

Enrico Fermi definiva “misura” il risultato di un esperimento effettuato senza aver commesso errori, “scoperta” un esperimento effettuato commettendo errori. Sì, tutto molto bello e affascinante, ma ben prima di potersi immergere nella ricerca di nuovi lidi scientifici, è necessaria una interpretazione corretta dei dati. Bisogna evitare di fare la fine di chi ‘a pigliato assi pe ciure.

Le tabelle dei dati relativi alla epidemia da Covid-19, presentate dalla Protezione Civile, sono disponibili all’indirizzo https://github.com/pcm-dpc/COVID-19/tree/master/schede-riepilogative/regioni .

Utilizziamo gli aggiornamenti del 18/04 e del 19/04 come esempio.


Il problema dell’aggiornamento dei dati

Domanda: i dati presentati nella tabella rispecchiano la situazione attuale?

Risposta: no.

Dal contagio di un soggetto al conteggio del medesimo, passano sia tempi che possiamo definire “medici” (comparsa dei sintomi), sia tempi che possiamo definire “tecnici” (tempo di analisi dei tamponi). Non solo: sono stati riscontrati ritardi nella comunicazione dei dati, i quali appaiono essere davvero notevoli e, a mio modesto parere, incredibili. Proviamo a stimare il ritardo con il quale la tabella analizza la realtà.

Nello studio The early phase of the COVID-19 outbreak in Lombardy, Italy(di Cereda et al.) si evidenzia come “un ritardo di 3,6 giorni (95% di CI, da 1 a 10) è stato trovato tra la data in cui è stato ricevuto il risultato del test e la data di registrazione nel set di dati. Il ritardo tra le date di insorgenza dei sintomi e la segnalazione è stato di 7,3 giorni (95% CI, 1 a 20)“. Inoltre è necessario supporre che intercorrano almeno 24 ore tra la segnalazione e l’effettuazione del test.

Stephen G. Baum scrive in “COVID-19 Incubation Period: An Update” (LINK DIRETTO):”La maggior parte dei pazienti che diventano sintomatici lo fanno entro 11 o 12 giorni“. Ci interessa questo dato perché la maggior parte dei tamponi è fatta sui pazienti sintomatici:”L’esecuzione del test diagnostico va riservata prioritariamente ai casi clinici sintomatici/paucisintomatici e ai contatti a rischio familiari e/o residenziali sintomatici” (Circolare del Ministero della Salute del 3 Aprile:”Pandemia di COVID-19 – Aggiornamento delle indicazioni sui test diagnostici e sui criteri da adottare nella determinazione delle priorità“)

I risultati dei tamponi vengono forniti in maniera non immediata, ovviamente. “A Padova servono oltre 5 giorni di tempo per l’esito di un tampone per coronavirus“, denuncia l’Associazione Medici Dirigenti del Veneto (LINK DIRETTO). In data 2 Aprile il Presidente della Regione Veneto aveva dichiarato:”Abbiamo fermi in attesa di essere processati circa 10.000 tamponi” (LINK DIRETTO). In Piemonte, a inizio Aprile, si parlava di 3 giorni di attesa (LINK DIRETTO).

Inoltre il ritardo NON è costante, varia da singolo tampone a singolo tampone: ogni test ha un ritardo differente. Non è possibile ragionare in media perché ogni cluster statistico (cioè ogni gruppo che fornisce i dati: gli ospedali alle regioni, le regioni alla Protezione Civile nazionale) elabora in dati i maniera completamente differente in termini di velocità di esecuzione e velocità di comunicazione. Questo sia in relazione agli altri gruppi, sia in relazione a ciò che avviene nei giorni precedenti nello stesso laboratorio. Basti pensare alla eventuale mancanza di reagenti. Supponiamo, comunque, che tale ritardo sia di 3 giorni.

Ecco la somma dei vari ritardi:

Dal contagio ai sintomi11 giorni
Dai sintomi alla segnalazione del caso7 giorni
Dalla segnalazione del caso al tampone1 giorno
Dal tampone alla comunicazione dell’esito3 giorni
Dall’esito alla registrazione dei dati4 giorni
DISTANZA CONTAGIO-COMUNICAZIONE DATI26 giorni

MORALE: il quadro fornito dalla tabella della Protezione Civile non rileva la situazione attuale ma la situazione di circa 26 giorni fa.


Il problema dei tamponi

Domanda: il conteggio dei tamponi esprime il numero esatto dei pazienti sottoposti a test?

Risposta: no.

Come confermato dal Technical Project Manager della Protezione Civile professor Rosini (LINK DIRETTO), il numero dei tamponi non corrisponde al numero di pazienti in esame, perché ogni paziente viene testato più volte per conferma o per valutare l’evoluzione della situazione. Tradotto: il computo totale dei tamponi (COLONNA GRIGIA) NON fornisce il numero di soggetti sottoposti a tampone ma il totale dei tamponi eseguito, ergo non permette di stabilire una proporzione tra casi positivi e casi negativi.

L’ingegner Luca Dellanna parla di “testing illusion” (LINK DIRETTO).
“Le persone ricoverate in ospedale devono essere sottoposte a test per convalidare la guarigione, spesso più di una volta. Ciò significa che con il progredire dell’epidemia, e con l’aumentare del numero di persone ricoverate, il numero di test diverge dal numero di persone testate“.

Possiamo fare solamente delle ipotesi arbitrarie. Per esempio potremmo supporre 4 tamponi a paziente in media (primo controllo, verifica; controllo di fine contagio e verifica finale). In tal caso in Lombardia al 19/04 avremmo 60.000 pazienti testati (circa) con 60.000 contagiati accertati, cioè un altro paradosso.

In altre parole, come dice Dellanna, non avendo a disposizione un set di dati affidabili (non sappiamo nemmeno chi e quanto viene testato e, come visto in precedenza, non possiamo nemmeno avere una stima affidabile del ritardo tra test e comunicazione del risultato), studiando la tabella della Protezione Civile non sappiamo se stiamo analizzando “i nuovi casi giornalieri, oppure le politiche di test, oppure l’affidabilità del governo, oppure qualcos’altro. Chiedete al vostro governo chi sta facendo i test. Solo allora saprete come interpretare i suoi numeri”.

MORALE: il totale dei tamponi segnalati nella tabella esprime il totale dei tamponi effettuati NON il numero dei pazienti sottoposti a test, il che non permette una inferenza statistica affidabile.


Il problema dei casi totali e dei pazienti effettivi

Domanda: il computo dei “casi totali” esprime il numero di soggetti attualmente infetti?

Risposta: no.

Il numero di casi totali(ARANCIONE) esprime il numero totale di soggetti risultati positivi al tampone dall’inizio dell’epidemia (21 Febbraio), senza tener conto della evoluzione della situazione. Questo valore NON conta i pazienti che effettivamente sono affetti da COVID-19 alla data in esame. Il computo dei “casi totali”, quindi, include “guariti” e “deceduti“.

Attenzione! È necessario comprendere come questi siano i casi accertati, non i casi reali. Questa problematica è stata già approfondita qui: APPROFONDIMENTO.

Ogni paziente che entra nella statistica, vi entra come positivo al coronoavirus (GIALLO) (stiamo trascurando il caso di positività post mortem). Esso non può più uscire dalla tabella, è un caso ormai conteggiato (ARANCIONE).

Il paziente entrato nella tabella nel giorno n (GIALLO) può assumere tre stati nel giorno n+1: ancora positivo (GIALLO), guarito (VERDE) o deceduto (ROSSO).

Ogni giorno, una parte dei pazienti positivi cambia “stato” cioè guarisce o muore. Nel frattempo, altri casi (INCREMENTO ARANCIONE) si aggiungono al computo di positivi (GIALLO). I nuovi casi accertati andranno a sommarsi al totale dei positivi ma, nel frattempo, al totale dei positivi vanno sottratti guariti e deceduti.

La Protezione Civile esplicita il numero di “attualmente positivi” per sottolineare la differenza con i “casi totali” dall’inizio dell’epidemia. Per semplicità possiamo definire gli “attualmente positivi” come pazienti effettivi“, perché gli altri o sono guariti o sono deceduti: in entrambi i casi, non sono più pazienti.

La variazione degli attualmente positivi (ovvero i nuovi pazienti effettivi) quantifica il numero di soggetti che pesano ancora sul SSN. Studiare l’andamento di questa variazione fornisce un fondamentale indicatore dell’evoluzione dell’epidemia.

Facciamo un esempio.

  • Calcoliamo la variazione degli attualmente positivi tra il 18/04 e il 19/04: c’è un incremento dei pazienti effettivi di 486 unità. L’incremento dei “casi totali” nelle stesse date è di 3.047 unità (ARANCIONE).
  • Ciò perché, mentre sono stati accertati 3.047 casi in più, vi sono stati più di 2000 pazienti guariti e quasi 500 decessi, ergo l’aumento effettivo di pazienti è di 486.
  • Domanda: quanti sono i nuovi casi di coronavirus accertati tra il 18/04 e il 19/04?
    Risposta: 3.047
  • Domanda: di quanto è aumentato il numero dei pazienti effettivi tra il 18/04 e il 19/04?
    Risposta: 486
  • Facciamo un confronto con la variazione dei dati tra il 20/03 e il 21/03, cioè intorno al periodo di picco. Vi sono stati 6557 nuovi casi accertati ma essendovi solamente 943 guariti in più e 793 decessi, la variazione degli “attualmente positivi” è stata di ben 4821 nuovi pazienti effettivi, dieci volte l’incremento di “attualmente positivi” tra il 18/04 e il 19/04.

MORALE: l’incremento degli “attualmente positivi” fornisce il numero dei “nuovi pazienti effettivi” e quindi un indice dell’epidemia in termini di stress sul SSN, perché è un incremento “pesato” dagli effetti di guarigione e morte rispetto ai “casi totali”.


CONCLUSIONE

Il filosofo e matematico di Oxford Nassim Nicholas Taleb (LINK DIRETTO) aveva scritto già nel 2001 “Fooled by Randomness: The Hidden Role of Chance in Life and in the Markets” (Giocati dal caso. Il ruolo della fortuna nella finanza e nella vita).

Taleb, partendo da concetti enucleati dal filosofo Ludwig Wittgenstein, sostiene la seguente tesi:

A meno che la fonte di una dichiarazione non sia estremamente qualificata, la dichiarazione sarà più rivelatrice dell’autore rispetto alle informazioni da lui previste. Ciò vale per le questioni di giudizio. Secondo il Wittgenstein’s Ruler: a meno che non si abbia fiducia nell’affidabilità del righello, se si utilizza un righello per misurare una tabella si può anche utilizzare la tabella per misurare il righello. Meno ci si fida dell’affidabilità del righello, più informazioni si ottengono sul righello e meno sulla tabella“.

IN SINTESI: la tabella che ogni giorno viene presentata dalla Protezione Civile, fornisce esatta misura della inadeguatezza della medesima, NON un quadro sufficientemente accurato dell’epidemia.

CONDIVIDI VIA SOCIAL