EPIDEMIOLOGIA DIGITALE, DATA ANALYSIS E DIGITAL HEALTH

Le conseguenze sanitarie, sociali ed economiche della pandemia di COVID-19 ci stanno insegnando quanto sia importante conoscere la digital health per comprendere e migliorare la realtà che ci circonda.

Capire cosa sia l’Epidemiologia Digitale (in inglese Digital Epidemiology, talvolta E-epidemiology) significa capire una parte fondamentale della gestione della pandemia e quindi della situazione generale.

Qui viene offerto un punto di vista ingegneristico e non puramente medico, perché l’epidemiologia (sia tradizionale che moderna) è soprattutto analisi dei dati.

Definizioni preliminari

Per addentrarci nella trattazione sono necessarie le definizioni di:

1) Epidemìa.
Dal greco epi (ἐπί), «sul», e demos (δῆμος) «popolo». Vincenzo Monti nel suo “Proposta di alcune correzioni ed aggiunte al Vocabolario della Crusca” spiega come i greci utilizzino “epidemios”, aggettivo, per indicare le “cose popolari” e di conseguenza la perifrasi “nosos epidemios” per indicare una malattia che è “di molti ad un tempo nel medesimo paese”. “Dicono dunque gl’Italiani Epidemia, certo sottointendendo malattia; come dicono Cambiale, sottinteso lettera[…]. Non intendono altro che un morbo diffuso tra gli uomini d’una città o d’una regione”.
LEGGI
2) Epidemiologia.
Dal volume V della “Enciclopedia Medica Italiana”: L’epidemiologia è la scienza che studia la frequenza e la distribuzione dei fenomeni morbosi, di qualsiasi origine e natura (quindi non solo quelli infettivi), i fattori che contribuiscono alla loro insorgenza e alla loro diffusione; si differenzia dalla “medicina clinica”, la quale s’interessa al singolo individuo malato”. Ecco perché chi vi scrive non è un medico ma un ingegnere: l’ambito di studio prevede una accurata analisi dei dati.
LEGGI
2) Epidemiologia Digitale.

L’epidemiologia digitale è, in sostanza, l’epidemiologia sviluppata attraverso l’utilizzo di dati e di strumenti digitali: seppure in prima approssimazione, possiamo definirla come l’incontro tra epidemiologia e digital health.

LEGGI
Come funziona la digital health.
da ninjamarketing.it (articolo dedicato ai 20 anni di Healthware, azienda leader nel settore)

Digital Epidemiology e Digital health

Il professor Marcel Salathé (Politecnico di Losanna, già professore a Stanford) (LINK DIRETTO), uno dei fondatori della disciplina, fornisce una interpretazione più specifica:

“L’epidemiologia digitale è un’epidemiologia che utilizza dati generati al di fuori del sistema sanitario pubblico, cioè con dati che non sono stati generati con lo scopo primario di fare epidemiologia”.

L’epidemiologia tradizionale prevede la raccolta dei dati attraverso il rapporto paziente-medico (e più in generale il Sistema Sanitario).

Il fatto che questi dati siano stati digitalizzati ha permesso, di certo, una analisi statistica estremamente più precisa.

Tuttavia non è la digitalizzazione dei dati sanitari il cuore della faccenda.

da “Opportunities & Challenges in Digital Epidemiology and Digital Health”, di Salathé
Pro e contro della raccolta dati diretta paziente-medico.

L’epidemiologia digitale non è la mera digitalizzazione dei dati sanitari.

Essa si riferisce e si occupa di altri e nuovi dati, raccolti attraverso canali esterni al sistema medico, quali ad esempio:

  • social media
  • telefonia mobile
  • ricerche sul web
  • testi
  • video
  • audio
  • wearable
  • device connessi per il tracciamento di parametri biomedici.

È il flusso di dati a essere cambiato o, più precisamente, ad essersi ampliato a dismisura.

da “Opportunities & Challenges in Digital Epidemiology and Digital Health”, di Salathé
Pro e contro della raccolta dati moderna

La Digital Epidemiology, per come la intendiamo qui, è quindi strettamente legata ad un altro concetto che unisce dati di salute e strumenti digitali: quello della Digital Health.

Cosa significa Digital Health?

Nello studio “Characteristics of Digital Health Studies Registered in ClinicalTrials.gov” (di Connie E. Chen et al.) (LINK DIRETTO) viene data la seguente definizione: “La salute digitale è l’applicazione di software o hardware, spesso utilizzando smartphone mobili o tecnologie di sensori, per migliorare la salute del paziente o della popolazione e la fornitura di assistenza sanitaria”.

Per Roberto Ascione, CEO di Healthware International (LINK DIRETTO) e precursore della digital health, l’obiettivo era (ed è) “un’informatica che trasformasse la medicina“. “È sorprendente vedere come da allora (1993) le tecnologie digitali abbiano sconvolto l’assistenza sanitaria: sono diventate la forza motrice di risultati sanitari sempre migliori e stanno contribuendo a ridurre il divario di accesso all’assistenza sanitaria”.

LEGGI

Salathé, quindi, pone l’accento NON sul formato dei dati (digitalizzati) ma sulla generazione (la fonte) dei medesimi.

Il fatto che l’ingegneria elettronica, con elaboratori sempre più prestanti (per esempio) oppure grazie a nuovi strumenti per la gestione dei dati di salute (e torniamo alla digital health), abbia reso estremamente più facile l’analisi epidemiologica, è solamente un aspetto della digital epidemiology.

Il vero significato della disciplina è insito nella seguente domanda: “quali nuovi flussi di dati generati al di fuori della sanità pubblica potrebbero essere sfruttati per scopi epidemiologici?“.

In sintesi, gli obiettivi della digital epidemiology sono:

  • Sorveglianza: prevedere l’insorgenza di una epidemia
  • Analisi e previsione: analizzare l’andamento e fornire previsioni su quale percentuale della popolazione sia soggetta e per quanto tempo ciò avvenga
  • Prevenzione: stabilire come si possano mitigare gli effetti delle epidemie.

Per rispondere a queste domande ho la necessità di raccogliere dei dati.

Dove raccolgo i dati: Big data, social media e wearable devices

L’ormai celebre espressione big data indica semplicemente l’enorme quantità di dati informatici che, a causa dello sviluppo crescente della tecnologia, abbiamo a disposizione nei più disparati ambiti dello scibile umano.

L’accesso alla rete e in particolare ai social network, avviene in maniera sempre più facile, attraverso dispositivi sempre più vari: desktop, mobile e oggetti smart.

I dispositivi wearable, cioè indossabili, permettono inoltre la generazione di dati biometrici e di salute dai risvolti importanti nel campo della gestione e del monitoraggio di pazienti o potenziali tali.

Immagine tratta dall’articolo di Nature:“Infection forecasts powered by big data
LINK DIRETTO

Diamo una occhiata alle statistiche del Web (fonte wearesocial.com LINK DIRETTO):

Social Network

I social network sono una delle fonti principali di dati per l’epidemiologia digitale, offrendone in quantità infinita e in crescita vertiginosa.

Twitter nel 2007 aveva 500.000 utenti, nel 2020 sono diventati 340 milioni. Facebook nel 2007 aveva 20 milioni di utenti, nel 2020 sono diventati 2.5 miliardi.

dati raccolti dal sito wearesocial.com
LEGGI

Smartphone

Limitiamoci a guardare allo strumento più diffuso per accedere ad Internet: il telefonino!

I dati italiani sono impressionanti: 80 milioni di cellulari connessi! Passiamo in media 6 ore al giorno su internet.

dati raccolti dal sito wearesocial.com

Nel 2021 si prevede vi possano essere più di 6 miliardi di smartphone al mondo, con il continente africano in netta crescita.

L’aumento degli smartphone ha seguito una crescita puramente esponenziale a partire dal 2008, enormemente più veloce della crescita dei cellulari dal 1994 (grosso modo ad andamento quadratico) e infinitamente maggiore dell’ascesa nel tempo dei PC (mercato ora in dimuzione).

LEGGI

Web

Date una occhiata ai Web data di inizio 2020.

dati raccolti dal sito wearesocial.com
LEGGI

Twitter

I dati dei social sono altamente contestuali, collegati l’uno all’altro (beh, non a caso sono “in rete”) e sempre più iperlocali.

Un primo esempio viene da Salathé e Khandelwal, i quali hanno analizzato i dati di Twitter per capire come la popolazione avesse reagito alle vaccinazioni, identificando dei gruppi (cluster) con forti pregiudizi.

Mappa generata da oltre 250 milioni di tweet pubblici (raccolti da Twitter.com).
La luminosità del colore corrisponde alla densità dei tweet.
da “Digital Epidemiology”, di Marcel Salathé et al.
LEGGI

Come raccolgo i dati: l’esempio dei Web Data

Supponiamo di voler capire se l’andamento di una epidemia vada di pari passo con le interazioni (ricerche, commenti, post, etc.) in rete che riguardano, appunto, l’epidemia in esame.

John Snow, uno dei padri della ricerca epidemiologica moderna.
Snow si servì di una cartina di Londra, dove erano segnati i casi, per capire da dove provenisse il focolaio, riuscendo a fermare l’epidemia di colera del 1854.
LINK DIRETTO

Vediamo, passo passo, cosa si fa a livello operativo.

A. Data Mining

La perifrasi anglofona data mining significa “estrazione” ovvero “raccolta” dei dati. In parole povere contiamo quanti re-tweet, hash-tag, commenti, numero di ricerche, likes, menzioni o citazioni vi siano state giorno per giorno.

Ottengo una serie di dati distribuita nel tempo, la quale può essere studiata con strumenti matematici ben noti. Per semplicità, chiamiamo tutti questi dati Web data.

Google
Grazie all’utilizzo di Google Trends (LINK DIRETTO), si analizzano i dati che offre la rete in relazione alle ricerche relative alla malattia che vogliamo studiare.
In particolare si analizzano le ricerche fatte su:
1) Google: ricerche fatte online, compresi i sinonimi e i termini correlati.
2) YouTube: video visualizzati su YouTube inerenti.
3) Google News: copertura mediatica dell’argomento.

Wikipedia
Con WikiTrends (LINK DIRETTO) si raccolgono informazioni sulle ricerche fatte su Wikipedia relative al virus.

Twitter
Si analizzano Tweet in cui si menziona la malattia, i retweet, i trend.

Per capire come si muovano gli utenti, cioè quale ricerche siano collegate una alle altre (per esempio se prima di pubblicare un Tweet vengono fatte ricerche su Wikipedia), è necessaria una analisi cluster di tipo gerarchico (e relativo dendrogramma): raggruppo i Web data in base a un principio di reciproca distanza statistica.

LEGGI

B. Curve fitting

Abbiamo un insieme di punti su di un piano cartesiano: sulle ascisse ho semplicemente i giorni in cui ho raccolto i Web data, sulle ordinate il valore del numero dei Web data, come descritto in precedenza.

Attraverso un procedimento matematico chiamato regressione, posso ottenere una equazione che approssimi l’andamento dei punti, come se essi appartenessero (ripeto, con una certa approssimazione) a una curva.

Forse avete sentito parlare di qualcosa del genere durante la pandemia di Covid-19, con il famigerato curve fitting del numero di contagiati giorno-per-giorno.

In tal modo posso sia effettuare un immediato confronto con l’andamento della malattia nel tempo, sia effettuare previsioni sul futuro in base alle ricerche che vengono effettuate: se stanno aumentando i Web data sui sintomi di una malattia è probabile che vi siano svariati casi attivi.

Esempio: per capire quando sia iniziato il focolaio infettivo da COVID-19 in Lombardia possiamo cercare Web data su polmoniti severe nel periodo precedente al primo caso accertato.

Correlazione tra casi di virus del Nilo occidentale (WNV) e le ricerche digitali, RSV: volume di ricerca relativo (espresso in percentuale).
da “Forecasting the West Nile Virus in the United States: An Extensive Novel Data Streams “


Nello studio “Forecasting the West Nile Virus in the United States: An Extensive Novel Data Streams” (di Watad et al.) (LINK DIRETTO) il modello migliore di curve fit è stato scelto sulla base del criterio di informazione Akaike (AIC) e del criterio di informazione Schwartz-Bayes: sono delle procedure statistiche per comprendere se il modello con il quale stiamo approssimando i punti che abbiamo acquisito, sia o meno il migliore possibile. Poi su tale modello è possibile fare un forecast (cioè le previsioni).

LEGGI

C. Indice di Correlazione

Per capire se il tutto abbia senso, debbo stabilire se l’andamento dei dati in rete corrisponda realmente all’andamento della malattia. In altre parole, l’obiettivo è capire se l’aumento dei dati Web corrisponda realmente all’aumento dei dati della malattia nel tempo.

Posso usare il coefficiente di Pearson, come fatto nello studio “Leveraging Big Data for Exploring Occupational Diseases” (di Bragazzi et al.) (LINK DIRETTO. Si tratta di un indice di correlazione statistico tra i dati che sto analizzando.

Metto, quindi, in correlazione gli indici statistici dei Web data e quelli dei casi dell’epidemia. Più il coefficiente di correlazione valore tende a 1, più i due set di dati sono correlati, cioè si muovono in maniera proporzionale: un aumento delle ricerche significa un aumento della diffusione della malattia.

Nel caso dei Web data, il professor Bragazzi ha trovato una correlazione r=0.8 con test delle ipotesi altamente significativo.

LEGGI

In sintesi, attraverso lo studio statistico dei Web data relativi, è possibile

  • comprendere come stia evolvendo l’epidemia
  • predire lo sviluppo di nuovi focolai

    il tutto, sia ben chiaro, con un certo margine di errore.

Vediamo due esempi legati all’epidemia di SARS-CoV-2.

Google Trends e COVID-19.

Il laboratorio Digita4good dell’Università di Pavia del professor Stefano Denicolai, tra gli esperti della task force del ministero ha analizzato tramite Google Trends le parole chiave e le frasi riconducibili ai sintomi del coronavirus.

Già a Gennaio la parola “febbre” è stata ricercata 1/3 di volte in più rispetto alla media 2016-2019, la parola “palpitazioni” quasi il 90% in più.

I dati web sono stati correlati a livello statistico con i dati sui casi positivi accertati comunicati alla Protezione Civile.

L’effetto dell’aumento delle ricerche su di un certo argomento può essere dovuto a due fenomeni:

  • Reale correlazione tra web data e comparsa dei sintomi, poi accertati dai tamponi circa 7 giorni dopo.
  • Suggestione indotta dalla situazione: in tal caso il picco delle ricerche è successivo al picco dei casi accertati.

Denicolai ha dichiarato (fonte Wired LINK DIRETTO):“Questi incrementi sono indizi forti, e rafforzano lo scenario di un’infezione da Covid-19 che circolava in alcune zone d’Italia prima della scoperta del primo positivo” tuttavia “i web data in qualche modo offrono segnali latenti circa l’evoluzione reale del contagio ma sono difficili da interpretare in quanto risentono anche delle news che si leggono sui media”.

LEGGI

Chatbot Pagine Mediche e COVID-19

L’analisi più importante è quella effettuata sui dati del chatbot di Pagine Mediche (LINK DIRETTO). Si tratta di uno strumento Web che permette una sorta di autodiagnosi dei sintomi da Covid-19. Roberto Ascione di Healthware (LINK DIRETTO) ha ricordato come il chatbot di Pagine Mediche sia stato una delle prime e più importanti risorse di telemonitoraggio domiciliare al mondo.

Funzionamento

  • L’utente scrive nell’apposita form quali sintomi suppone di avere e il bot risponde se sia il caso o meno di contattare un medico.
  • I dati inseriti sono quindi i sintomi che gli utenti avevano (o supponevano di avere) e su di essi viene effettuata l’analisi statistica. Si tratta di circa 150.000 interazioni (delle quali, il 43% dalla Lombardia).

Analisi

  • differenziazione dei dati in base all’autodiagnosi: creazione di 5 cluster di indagine statistica in base ai sintomi descritti
  • correlazione dei dati di ogni cluster con i dati (e le date temporali) di comunicazione dei casi accertati

Risultati:

  • i gruppi con sintomi descritti di tipo moderato anticipano i casi accertati di circa 10 giorni
  • i gruppi con sintomi descritti di tipo più severo anticipano i casi accertati di circa 5 giorni

Il professor Denicolai ha concluso dicendo che sono ben chiari limiti e rischi di trarre delle conclusioni solo sulla base di correlazioni, tuttavia queste prime indicazioni sono molto promettenti e sottolineano l’importanza di valorizzare dati dal web, che hanno un grande vantaggio: sono un flusso continuo di dati in tempo reale” e nel caso delle interazioni su Pagine Mediche, sembrerebbe davvero sussistere un’anticipazione di una settimana sulla curva dei contagi (fonte Wired LINK DIRETTO).

LEGGI

Sorveglianza: prevedere l’insorgenza di una epidemia

Il tempo è la risorsa principale per contrastare l’evoluzione di una epidemia: prima si capisce se si stia sviluppando, più possibilità si hanno di prendere provvedimenti efficaci.

Ebbene, oltre il 60% delle segnalazioni iniziali provengono da fonti informali (ovvero non ufficiali), tra l’altro non necessariamente in formato elettronico.

Non dobbiamo solamente trovare queste informazioni, dobbiamo anche (e soprattutto) verificarle.

Professor John Brownstein (Harvard), uno dei pionieri della Epidemiologia Digitale.

Vediamo alcuni esempi:

HealthMap: Ebola

Il professore Brownstein (Harvard) ha creato il sito HealthMap (LINK DIRETTO), che monitora la diffusione globale delle malattie infettive. Il motore del sito analizza in maniera automatica il flusso di notizie pubblicate online, cercando determinate parole chiave, ovviamente legate alle epidemie. Nel 2014 il sito rilevò la notizia della morte di 8 persone, pubblicata da un giornale locale in Guinea (Africa occidentale): si parlava di una “strana febbre, malattia contagiosa che provoca sanguinamenti”. Era il ritorno del virus Ebola.

dal sito HealthMap.org

Brownstein collabora anche con Uber. Egli ha sviluppato una piattaforma per ottimizzare gli spostamenti dei pazienti per le varie visite mediche, in modo da minimizzare le attese. Inoltre, una programmazione del genere tende a minimizzare i contatti sociali, cosa fondamentale per impedire la diffusione delle infezioni. Interessante è anche la sua collaborazione con Yelp (un Tripadvisor americano) per il monitoraggio delle intossicazioni alimentari.

LEGGI

GP Health Intelligence Network : SARS

Nel 2013, un impiegato dell’ospedale di Shangai aveva avuto la cattiva idea di pubblicare delle cartelle cliniche sul social cinese Weibo (una specie di Twitter): erano casi di H7N9, la nuova aviaria. Grazie al monitoraggio dei social media , è stato possibile far suonare immediatamente il campanello di allarme, scavalcando anche la (quasi) immediata censura del governo cinese.

Uno dei primi sistemi a sfruttare questo tipo di ricerca è stato il Global Public Health Intelligence Network (GPHIN) di Health Canada (LINK DIRETTO). Anche in questo caso l’algoritmo si basa sulla ricerca di parole chiave in telegiornali, giornali e siti web. Fu grazie a questo servizio che l’epidemia di SARS del 2003 venne prevista con discreto anticipo, salvando migliaia di vite.

LEGGI

Epidemiologia e machine learning

L’apprendimento automatico degli elaboratori, indicato con l’espressione “machine learning”, può essere definito come la capacità dei computer di apprendere modelli dai dati senza essere programmati in maniera specifica.

Tale settore ingegneristico dominerà l’epidemiologia digitale nel prossimo decennio.

Marcel Salathé, uno dei più importanti ricercatori e docenti di Epidemiologia Digitale al mondo.
Esperto di machine learning, data science e computational science.

Stiamo parlando di Intelligenza Artificiale (LINK DIRETTO), implementata con Reti Neurali artificiali. Le reti neurali sono un insieme di unità di elaborazione elettronica che provano a simulare le reti neurali biologiche.

Esse attuano un apprendimento automatico, partendo da grandi quantità di dati, per legare correttamente un input (come un’immagine o una frase) ad un output (come una diagnosi o un sentimento).

Le previsioni sull’andamento del COVID-19 in Cina sono state effettuate grazie all’utilizzo di reti neurali “Modified auto-encoders”, risultando incredibilmente precise (“Artificial Intelligence Forecasting of Covid-19 in China”, di Zixin Hu et al.) (LINK DIRETTO)

Un algoritmo di apprendimento basato su quasi 130.000 immagini cliniche di lesioni cutanee, ha eseguito diagnosi alla pari con 21 dermatologi (Esteva et al. 2017) (LINK DIRETTO). È questo un esempio di deep learning (LINK DIRETTO).

La digital epidemiology ha senso se sia possibile studiare una grande, grandissima quantità di dati. Se ne deduce una richiesta tecnologica molto alta:

  • elevata larghezza di banda
  • reti informatiche a bassa latenza
  • ottimizzazione degli algoritmi
  • elaborazione in parallelo su grandi sistemi informatici distribuiti.

Al contempo, il substrato è sempre il data mining, cioè una corretta estrazione dei numeri attraverso:

  • filtraggio delle informazioni
  • classificazione corretta
  • rilevamento delle anomalie.

Il problema della privacy

La dottoressa Patty Kostkova (LINK DIRETTO) in “Disease surveillance data sharing for public health: the next ethical frontiers” (LINK DIRETTO) individua tre punti nevralgici nei ragionamenti etici che avvolgono l’epidemiologia ditigale:

  • necessità di condivisione dati tramite dispositivi digitali
  • rispetto delle normative sulla privacy e protocolli sulla salute
  • regolamentazione tecnica sul trattamento dei dati specifici del Web

La tendenza dei principali colossi di Internet è volta alla riduzione dell’accesso ai dati. Si tratta di affari, null’altro. Instagram ha limitato l’accesso con un aggiornamento delle API già nel 2016.

Google Flu Trends (GFT) è stato uno dei primi esempi di epidemiologia digitale. Esso analizzava le query di ricerca per ottenere un tracciamento dell’influenza. Il guaio era la proprietà privata dei dati sottostanti: l’algoritmo non poteva essere riprodotto e indagato in modo indipendente, e quindi il progetto è fallito.

La situazione probabilmente cambierà a causa della pandemia di COVID-19. Google, per esempio, ha deciso di condividere i propri dati con taluni gruppi di ricerca, tra i quali il già citato Digita4good dell’Università di Pavia.

Per Salathé sarà necessario portare l’utenza verso gli epidemiologi e non viceversa, cioè far capire alle persone che la condivisione dei dati può solamente migliorare la loro possibile condizione di pazienti.

da “Opportunities & Challenges in Digital Epidemiology and Digital Health”.
Salathé spiega come debbano essere direttamente i potenziali pazienti a fornire i dati ai medici, per esempio con dispositivi specifici di digital health o tramite Web.

Insomma, c’è un conflitto tra gli interessi collettivi (apertura totale dei dati per poter fare inferenza statistica) e quelli individuali (il rispetto della sfera privata del singolo ma anche le necessità di business delle aziende che possono fornire i dati).

La domanda è: dati aperti o dati chiusi? Pensate al tracciamento via GPS e dispositivo mobile, effettuato durante l’attuale epidemia di COVID-19 in Corea del Sud: qual è la soglia tra necessità della salute pubblica e diritti dell’individuo?

Non è certo questa la sede per una discussione interdisciplinare così ampia.

Alla luce del disastro statistico vissuto in questi mesi, prima di ogni altro ragionamento, da ingegnere mi accontenterei di:

  1. una corretta analisi dei dati
  2. una raccolta di dati sufficientemente affidabili, differenziati e specifici

Sia il punto 1 che il punto 2 sono (quasi) completamente mancati durante la pandemia di COVID-19.

Senza il substrato di una data analysis efficace, ogni discorso sulla Epidemiologia Digitale diventa del tutto inutile.

CONDIVIDI VIA SOCIAL