Laboratorio di Data Science e Bioinformatica
Attivitą
Il laboratorio di Data Science e Bioinformatica del Politecnico di Milano studi tutti gli aspetti della data science e della bioinfomatica.
Il laboratorio si è si occupa di tutti gli aspetti teorici connessi alla data science, vista come una solida disciplina scientifica, e poi di tutti i metodi, i tool, le tecnologie e le applicazioni per il suo utiluzzo in problemi reali. Con un interesse prevalente su genomic computing. Gli interessi di ricerca in data science sono attualmente rivolti a: crowdsourcing, estrazione e “scraping” di dati, data management per “data streams”, “social engagement”, estrazione di conoscenza emergente da contenuti sociali, integrazione e esplorazione dei da contenuti sociali, applicazioni di “machine learning” / “deep learning”.
Il gruppo è finanziato da molti progetti europei e da fondi privati; nel passato, l’attività del gruppo è stata centrata sul progetto Search Computing, un Advanced ERC Grant (2.5 milioni di Euro, 2008-1013, http://searchcomputing.deib.polimi.it/). Il principale fuoco del progetto è stato lo sviluppo di linguaggi e metodi per l’integrazione dei dati, guidati dal ranking: le attuali applicazioni principali includono: la gestione del “fashion”, le “smart cities”, l’analisi dei sistemi “social” e l’estrazione di conoscenza da contenuti “social”.
L'attività di ricerca in bioinformatica riguarda il “genomic computing”; l’obbiettivo è costruire una potente infrastruttura computazionale in grado di elaborare i dati generati dalle macchine per il sequenziamento del DNA e dell'RNA e che consenta di creare facilmente visualizzazioni, interrogazioni, analisi, estrazioni e ricerche su raccolte di dati genomici distribuite e disponibili in tutto il mondo.
Dal punto di vista didattico, il gruppo promuove una nuova Laurea Magistrale congiunta con l'Università Statale di Milano, su Bioinformatica e Genomica computazionale.
La ricerca è finanziata da Data-Driven Genomic Computing (GeCo), un Advanced ERC Grant (2,5 milioni di euro, 2016-2021), incentrato sulla gestione di grandi dati genomici generati dalla tecnologia NGS (Next Generation Sequencing) (http://www.bioinformatics.deib.polimi.it/geco/?home). Il progetto mira a costruire una potente infrastruttura computazionale in grado di elaborare i dati generati dal sequenziamento di DNA e RNA e di creare visualizzazioni, interrogazioni, analisi, estrazioni e ricerche su raccolte di dati genomici distribuite e disponibili in tutto il mondo. L'obiettivo è generare un'infrastruttura computazionale standard, altamente efficiente, estensibile e facilmente utilizzabile – propedeutica al “Internet dei genomi” – per supportare gli scienziati nella ricerca genomica.
Il principale risultato del progetto è GMQL (GenoMetric Query Language), un linguaggio e un sistema per interrogare i big data genomici, attualmente installato al Politecnico di Milano, CINECA e Broad Institute, che fornisce calcolo parallelo nel cloud, supportando così interrogazioni su migliaia di campioni, quali quelli forniti dai consorzi ENCODE e TCGA (http://www.bioinformatics.deib.polimi.it/GMQLsystem/).
Altri tools bioinformatici sviluppati includono:
GeMSE - GenoMectric Space Explorer,
MuSERA - Multiple Sample Enriched Region Assessment,
GPKB - Genomic and Proteomic Knowledge Base
e Bio-SeCo - Bio Search Computing.
Il laboratorio si è si occupa di tutti gli aspetti teorici connessi alla data science, vista come una solida disciplina scientifica, e poi di tutti i metodi, i tool, le tecnologie e le applicazioni per il suo utiluzzo in problemi reali. Con un interesse prevalente su genomic computing. Gli interessi di ricerca in data science sono attualmente rivolti a: crowdsourcing, estrazione e “scraping” di dati, data management per “data streams”, “social engagement”, estrazione di conoscenza emergente da contenuti sociali, integrazione e esplorazione dei da contenuti sociali, applicazioni di “machine learning” / “deep learning”.
Il gruppo è finanziato da molti progetti europei e da fondi privati; nel passato, l’attività del gruppo è stata centrata sul progetto Search Computing, un Advanced ERC Grant (2.5 milioni di Euro, 2008-1013, http://searchcomputing.deib.polimi.it/). Il principale fuoco del progetto è stato lo sviluppo di linguaggi e metodi per l’integrazione dei dati, guidati dal ranking: le attuali applicazioni principali includono: la gestione del “fashion”, le “smart cities”, l’analisi dei sistemi “social” e l’estrazione di conoscenza da contenuti “social”.
L'attività di ricerca in bioinformatica riguarda il “genomic computing”; l’obbiettivo è costruire una potente infrastruttura computazionale in grado di elaborare i dati generati dalle macchine per il sequenziamento del DNA e dell'RNA e che consenta di creare facilmente visualizzazioni, interrogazioni, analisi, estrazioni e ricerche su raccolte di dati genomici distribuite e disponibili in tutto il mondo.
Dal punto di vista didattico, il gruppo promuove una nuova Laurea Magistrale congiunta con l'Università Statale di Milano, su Bioinformatica e Genomica computazionale.
La ricerca è finanziata da Data-Driven Genomic Computing (GeCo), un Advanced ERC Grant (2,5 milioni di euro, 2016-2021), incentrato sulla gestione di grandi dati genomici generati dalla tecnologia NGS (Next Generation Sequencing) (http://www.bioinformatics.deib.polimi.it/geco/?home). Il progetto mira a costruire una potente infrastruttura computazionale in grado di elaborare i dati generati dal sequenziamento di DNA e RNA e di creare visualizzazioni, interrogazioni, analisi, estrazioni e ricerche su raccolte di dati genomici distribuite e disponibili in tutto il mondo. L'obiettivo è generare un'infrastruttura computazionale standard, altamente efficiente, estensibile e facilmente utilizzabile – propedeutica al “Internet dei genomi” – per supportare gli scienziati nella ricerca genomica.
Il principale risultato del progetto è GMQL (GenoMetric Query Language), un linguaggio e un sistema per interrogare i big data genomici, attualmente installato al Politecnico di Milano, CINECA e Broad Institute, che fornisce calcolo parallelo nel cloud, supportando così interrogazioni su migliaia di campioni, quali quelli forniti dai consorzi ENCODE e TCGA (http://www.bioinformatics.deib.polimi.it/GMQLsystem/).
Altri tools bioinformatici sviluppati includono:
GeMSE - GenoMectric Space Explorer,
MuSERA - Multiple Sample Enriched Region Assessment,
GPKB - Genomic and Proteomic Knowledge Base
e Bio-SeCo - Bio Search Computing.
Informazioni di servizio
Il laboratorio si trova nella sede principale del DEIB, edificio 20, e segue gli orari di apertura e chiusura del Dipartimento.