CORONAVIRUS: PREVISIONI CON CURVE FITTING

Il “curve fitting”: predizione dei dati futuri

Per cercare di capire quale numero di contagiati attendersi è possibile effettuare un “curve fitting”. Cerchiamo di adattare ai dati discreti raccolti, una funzione matematica continua, la quale permetta di stimare il numero dei futuri contagiati e stabilire fino a quando durerà l’epidemia. Possiamo comprendere questa operazione anche usando carta e penna.

Facciamo corrispondere ad ogni singolo giorno della epidemia (asse X) la somma dei contagiati fino a quella data (asse Y), ottenendo quindi tanti punti su di un piano (il foglio), con valori sempre crescenti dato che consideriamo la somma dei contagiati e non il numero nel singolo giorno.

In sostanza, è come se unissimo i punti fino a ora determinati e cercassimo di comprendere quale tipo di curva stia nascendo dal disegno. Si tratta di completarla (ecco la predizione) fino all’ultimo valore utile sull’asse X dei giorni , cioè lungo tutta la durata dell’epidemia.

Per fare ciò esistono degli algoritmi e dei programmi appositi, insomma tanta matematica. Ovviamente si cerca l’approssimazione migliore e quindi si parla di best fit. Per i nostalgici degli studi di matematica superiore, un tempo avremmo parlato di “regressione non lineare”. (DEFINIZIONE)

È noto che ogni epidemia, per definizione, abbia una fase iniziale con conteggio dei contagiati di tipo esponenziale, per poi assumere un incremento molto più “lento” (con valori che cambiano, da giorno a giorno, in maniera sempre minore), fino a raggiungere un valore massimo di contagiati e restare sul quel valore a causa della fine dell’epidemia.

Questo tipo di funzione matematica è molto simile alla funzione “logistica” (DEFINIZIONE). Con una epidemia virale ci aspettiamo sempre una curva di questo tipo.

Capire l’affidabilità della curva

Un concetto fondamentale per la valutazioni statistiche di questo tipo è che esse non sono affidabili in senso assoluto. Dipende. Dipende da tantissime cose, impossibili da spiegare in un paragrafo.

I dati a disposizione non necessariamente si prestano a un certo tipo di algoritmo e potrebbero essere necessari altri strumenti statistici, come il clustering (DEFINIZIONE).

I dati potrebbero essere:

  1. Corrotti, cioè non affidabili in partenza
  2. In ritardo reciproco, non permettendo una coordinazione dei parametri
  3. Incompleti per definizione, come il numero di contagiati
  4. Difformi per un cambio di definizione nella rilevazione

Osservando un grafico o un parametro statistico, dobbiamo tenere ben presenti queste considerazioni. Non deve, dunque, sorprenderci lo spostamento continuo delle curve predittive. Una ipotesi plausibile potrebbe essere, addirittura, che i dati a disposizione siano afflitti dai problemi prima citati e quindi non si possano fare previsioni affidabili sul picco di contagi e sul cambio di andamento.

Nel dubbio, è sempre bene dare una occhiata a un set di dati certo, senza comunque abbandonare le altre valutazioni. Nel nostro caso potremmo valutare il numero di decessi oppure l’andamento dei vari ricoveri in base alla sintomatologia e all’età.

Si deduce, quindi, che non dobbiamo più osservare le curve dei dati? No, affatto. È necessario capire, lo riscrivo a costo di essere pedante, che l’analisi statistica fatta in queste condizioni (virus sconosciuto, pieno dell’epidemia, dati incerti) va utilizzata cum grano salis. Tutto qua. L’approccio è qualitativo non quantitativo: possiamo capire l’andamento non la calcolare la data di fine epidemia.

Quanto detto non ha a che fare con gli errori che affliggono di per sé i modelli statistici, gli algoritmi di previsione et similia. Per questo si parla di “stima”. “Stimare” significa, appunto, che ci sarà un margine di errore alle valutazioni che stiamo facendo: migliore è il modello, minore sarà l’errore.

Capire i parametri curva

Dobbiamo valutare i seguenti parametri della curva:

  • Pendenza iniziale (ci dice quanto è contagioso il virus, cioè quanto velocemente si diffonde);
  • Giorno in cui essa cambierà inclinazione (ci dice da quale giorno i contagi crescono in maniera non più esponenziale);
  • Flesso, cambia piega da convessa a concava (ci dice se abbiamo o meno superato il picco dell’incremento di contagi, cioè da quel momento in poi i contagi giornalieri saranno sempre di meno, giorno dopo giorno);
  • Giorno in cui assumerà un valore costante (fine dell’epidemia).

Una maniera veloce per capire l’andamento della situazione è confrontare l’incremento percentuale di casi rispetto al giorno precedente. Prendiamo il numero di casi di un giorno, calcoliamo la differenza con i casi del giorno precedente e dividiamo per il numero di casi del giorno precedente.

In Cina: 8 Marzo 47 nuovi casi, 9 Marzo 36 nuovi casi, 10 Marzo 22 nuovi casi. Incremento percentuale praticamente nullo. In Italia nella settimana 2 Marzo-9 Marzo il medesimo valore è oscillato intorno al 20-25%. Due sono le cose da valutare: se questo valore stia diminuendo e se sia prossimo allo zero ma facciamo attenzione a non cadere nel tranello di osservare solamente pochi giorni.

Andamento esponenziale

La gravità della situazione dipende da quanto tempo il contagio segua un andamento esponenziale. È per questo che, giorno per giorno, si stima il cambiamento della curva numero contagiati attraverso il “curve fitting”: per capire se l’andamento si stia attenuando.

Seppure con una pessima approssimazione, è possibile fare una operazione simile anche a casa nostra, utilizzando il comando “logest” su Google Sheet e applicando tale funzione ai dati fino a ora comunicati. Per avere un valore immediato, teniamo conto che, con un andamento come quello rilevato in data 10 Marzo, il numero dei contagiati raddoppia ogni 2 o 3 giorni (gli esperti di statistica facciano finta di non averlo letto questa approssimazione).

Confrontiamo, giusto per capirci, una funzione lineare di coefficiente 2 con una funzione esponenziale di base 2. Supponiamo, per mero esercizio, che l’andamento cumulo numero contagiati abbia un andamento lineare, cioè la nostra funzione sia del tipo y=2x, dove x è il giorno di epidemia considerato. Ebbene, in tal caso, dopo 2 giorni avremo 4 decessi, dopo 10 giorni 20. Supponiamo ora un andamento esponenziale, cioè una funzione del tipo y=(2^x), dove 2 è la base dalla funzione esponenziale.  Per x=2, cioè al giorno 2, i contagi sono sempre 4 ma al giorno x=10 sono già più di 1000

Modello con Intelligenza Artificiale

Uno degli studi più interessanti sul coronavirus è: “Artificial Intelligence Forecasting of Covid-19 in China” (LINK DIRETTO). Lo scopo dello studio è predire (in inglese “to forecast”) l’andamento dell’epidemia partendo dai dati disponibili nel periodo 11 Gennaio-13 Febbraio. I dottori Zixin Hu, Qiyang Ge, Li Jin e Momiao Xiong hanno hanno utilizzato una rete neurale “Modified  auto-encoders”.

Le reti neurali sono un insieme di unità di elaborazione elettronica che prova a simulare le reti neurali biologiche, cioè qualcosa capace di elaborare i dati in ingresso attuando una sorta di autoapprendimento, per poter fornire un output migliore in base alle informazioni acquisite volta per volta.

Stiamo parlando di Intelligenza Artificiale. In altre parole, hanno creato un modello di calcolo estremamente preciso grazie alla elevata potenza di calcolo e all’elevato numero di variabili che è in grado di analizzare. Il modello considera la variabilità della dimensione della popolazione statistica, delle collocazioni geografiche dei vari focolai, delle attività economiche e sociali, dell’enorme eterogeneità ambientale (zona chiuse, zone aperte) e delle caratteristiche delle strutture sanitarie. Tutte cose che influenzano le dinamiche di trasmissione delle malattie. 

Cosa aspettarci in Cina

Lo studio cinese citato è risultato particolarmente preciso alla prova dei fatti. Ciò è stato possibile anche perché sono stati analizzati i dati di un intero mese. Il modello in esame ci dice alcune cose interessanti. In Cina l’andamento esponenziale è cambiato intorno ai primi 3 giorni di Febbraio, così come il numero di nuovi casi. Approssimando, si può dire che la situazione sia iniziata a cambiare in meglio dopo 1 mese dall’inizio ipotetico dell’epidemia.

Previsioni: i contagi si assesteranno intorno intorno al 14 Marzo con un annullamento dei nuovi casi entro inizio Aprile, quindi dopo 3 mesi dall’inizio dell’epidemia. Potete controllare voi stessi la bontà delle previsioni leggendo i dati cinesi giorno per giorno. 
In Italia come riferimento iniziale abbiamo il 20 Febbraio. Supponendo un andamento simile a quello cinese, si prevede l’abbandono dell’andamento esponenziale dopo il 15 Marzo.

L’affermazione fatta prima è precisa: supponendo un andamento simile a quello cinese. Le differenze tra contesto cinese e italiano non sono di certo oggetto di questa trattazione ma ci sono e potranno essere valutate solamente a posteriori. Il resto sono ipotesi, ognuna con un certo grado di affidabilità matematica.

CONDIVIDI VIA SOCIAL

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.