GeCO – Data Driven Genomic Computing
Horizon 2020
Ruolo DEIB: Coordinatore
Data inizio: 01/09/2016
Durata: 60 mesi
Sommario
Le tecniche di sequenziamento del genoma di nuova generazione (NGS) consentono la produzione di una intera sequenza genomica a costi molto bassi (circa 1000 Euro). Allo stesso tempo, sono stati sviluppati algoritmi specializzati per allineare le sequenze al genoma di riferimento ed estrarre le loro caratteristiche salienti, quali mutazioni e picchi di espressione; ma manca la capacità di guardare tutti questi dati assieme, dando loro un senso biologico. Il progetto GeCo ha l’obiettivo di rivisitare la genomica computazionale dal punto di vista dei dati, tramite nuovi modelli, linguaggi e strumenti per la loro analisi e gestione, solidi dal punto di vista dei concetti utilizzati e capaci di operare in modo super-efficiente.
Partendo da un modello dei dati astratto, che garantisce interoperabilità fra i vari formati dei dati, abbiamo già sviluppato un sistema per interrogare dati genomici, scaricati da grandi banche dati prodotte da Consorzi internazionali, che si colloca all’avanguardia della ricerca di settore; è imminente l’apertura di un servizio presso il CINECA. Nel corso del progetto, il sistema verrà arricchito di strumenti per l’analisi dei dati e verrà reso sempre più efficiente, utilizzando vari framework per la gestione dei dati disponibili su server paralleli e in ambiente cloud.
Questo sarà il primo passo verso sviluppi moderni, in una visione che comprende una “Internet per la genomica”, cioè di un modo di raccogliere dati genomici pubblicati da consorzi internazionali e dai ricercatori che mettono a disposizione i materiali relativi alle loro pubblicazioni, e di un “Google per la genomica”, cioè un sistema di indicizzazione e ricerca su grandi raccolte di dati genomici pubblici. Tramite l’uso estensivo di banche dati pubbliche, sarà possibile dare risposta a problemi biologici fondamentali, ad esempio lo sviluppo dei tumori o la loro dipendenza dall’ambiente.
Partendo da un modello dei dati astratto, che garantisce interoperabilità fra i vari formati dei dati, abbiamo già sviluppato un sistema per interrogare dati genomici, scaricati da grandi banche dati prodotte da Consorzi internazionali, che si colloca all’avanguardia della ricerca di settore; è imminente l’apertura di un servizio presso il CINECA. Nel corso del progetto, il sistema verrà arricchito di strumenti per l’analisi dei dati e verrà reso sempre più efficiente, utilizzando vari framework per la gestione dei dati disponibili su server paralleli e in ambiente cloud.
Questo sarà il primo passo verso sviluppi moderni, in una visione che comprende una “Internet per la genomica”, cioè di un modo di raccogliere dati genomici pubblicati da consorzi internazionali e dai ricercatori che mettono a disposizione i materiali relativi alle loro pubblicazioni, e di un “Google per la genomica”, cioè un sistema di indicizzazione e ricerca su grandi raccolte di dati genomici pubblici. Tramite l’uso estensivo di banche dati pubbliche, sarà possibile dare risposta a problemi biologici fondamentali, ad esempio lo sviluppo dei tumori o la loro dipendenza dall’ambiente.
Risultati del progetto ed eventuali pubblicazioni scientifiche/brevetti
Materiale divulgativo e risultati pubblici sono disponibili nei seguenti allegati:
Comunicato Stampa 12 maggio 2016
Comunicato Stampa 21 giugno 2018
Poster GeCO
Pubblicazioni Selezionate
Comunicato Stampa 12 maggio 2016
Comunicato Stampa 21 giugno 2018
Poster GeCO
Pubblicazioni Selezionate