Focus
La ricerca in questo settore riguarda tecnologie, metodi di progettazione e strumenti per la gestione dei dati nei sistemi informatici, includendo la gestione delle informazioni e interrogazioni sul Web e la comunicazione multimediale e multicanale. I risultati della ricerca sono incorporati in applicazioni innovative e dimostratori prototipali.
La ricerca è indirizzata principalmente verso le seguenti linee di ricerca:
- Big Data e Data Science: i big data sono un fenomeno emergente della nostra società, con enormi implicazioni economiche, sociali e culturali. In questo contesto, le sfide includono la raccolta, organizzazione, analisi, ricerca, condivisione e visualizzazione dei dati, in vari domini applicativi. Il termine “data science” fa riferimento alla scienza e alle metodologie per estrarre informazioni dai big data e usarle a scopi diagnostici e predittivi. Molte ricerche in corso sfruttano l’integrazione di dati provenienti da fonti dati eterogenee (ad esempio, consumi elettrici e idrici, comunicazioni telefoniche, informazioni giornalistiche, scambi di informazione in rete e sui social media) per comprendere e meglio organizzare le città (smart cities) e i loro eventi (ad esempio, nella città di Milano, le settimane del design e della moda) o meglio sfruttare le loro potenzialità (nella città di Como, il turismo), o prevedere eventi interessanti. Il gruppo lavora anche sul paradigma di Exploratory Computing, per supportare nell’analisi dei dati gli utenti che non hanno preparazione tecnica o statistica, evidenziando gli aspetti rilevanti e degni di nota di un data set troppo grande e complesso per essere letto per intero. Poiché i dati vengono spesso utilizzati all'interno di processi decisionali critici (ad es. valutazione del personale, ammissione all'università, condanna penale), l'attenzione all'etica è diventata una necessità. Il gruppo propone una visione per l'applicazione di principi etici come l'equità, la non discriminazione, la trasparenza, la protezione dei dati e la diversità nel ciclo di vita dell'analisi dei dati.
- Genomic Computing: sostenuta da un nuovo progetto ERC, questa ricerca è centrata sulla gestione dei big data di natura genomica. Sul piano tecnologico, la ricerca è finalizzata alla realizzazione di sistemi aperti, basati su cloud, per l’interrogazione e gestione di dati genomici eterogenei e distribuiti. Diviene così possibile integrare i diversi tipi di segnali presenti nel genoma umano (mutazioni, livelli di espressione genica, picchi di espressione) per comprendere fenomeni biologici complessi, con una attenzione particolare allo studio dei tumori (cancer genomics).
- Human Computation e Social Analytics: la cosiddetta “saggezza delle folle” (wisdom of the crowd) è usata per eseguire compiti non facilmente delegabili a metodi automatici, come la scoperta di una nuova conoscenza a partire da segnali sociali, l’analisi di contenuti multimediali, con approcci che mescolano l’interazione dei social network, il social data mining, e la progettazione di giochi con uno scopo.
- Gestione delle informazioni nei sistemi pervasivi: questi sistemi, in cui l’elaborazione dell’informazione è spesso integrata negli oggetti di uso comune e nelle attività quotidiane, richiedono una speciale gestione dei dati: un apposito linguaggio di interrogazione, la capacità di gestire la dipendenza del contesto corrente (context-awareness), l’analisi e l’esecuzione di query flessibili e su base semantica permettono di fondere dati provenienti da sorgenti informative disparate come dispositivi mobili, sensori e Web API.
- Stream Reasoning: this international research, started in 2008 at DEIB – Politecnico di Milano, has the ambitious objective to apply Artificial Intelligence techniques to data streams. In Big Data terminology, it is a way to tame velocity and variety simultaneously. This research has both a deductive and an inductive soul. The deductive one explores Knowledge Representation problems focusing on the extension of the Semantic Web Stack to data streams and continuous reasoning. The inductive one explores machine-learning problems focusing on online learning and the ability to forget past information when it is no longer necessary.
- Comunicazione multimediale e multicanale: definizione di nuovi paradigmi che permettono, attraverso diversi media e dispositivi tecnologici, una comunicazione efficiente ed efficace, personalizzata agli specifici contesti d’uso e profili utente.
- eLearning: progettazione e valutazione di nuove forme di insegnamento ed apprendimento che valorizzino il potenziale delle tecnologie digitali interattive.
- Interfacce uomo-macchina non convenzionali: modellizzazione, sviluppo e valutazione di paradigmi di interazione basati sulla interpretazione di gesti, movimenti, voce, espressioni facciali, sguardo, sulla manipolazione di oggetti fisici arricchiti digitalmente (“smart objects”), e sulla fruizione di contenuti multimediali presentati su grandi schermi, dispositivi indossabili, o proiezioni ambientali.
- Big data per l’ambiente e la sostenibilità: progetta, realizza e valuta tecniche di big data analytics applicate a problemi ambientali e di sostenibilità, quali ad esempio l’analisi dello stato di conservazione della copertura nevosa ai fini di predire la qualità d’acqua disponibile, il monitoraggio dei consumi di energia e acqua per l’identificazione degli schemi di comportamento dei consumatori e la predizione della domanda.
- Big data e società smart: la ricerca presso il DEIB sfrutta tecnologie digitali per raccogliere dati dall’ambiente e dalle persone al fine di migliorare la qualità della loro vita, ad esempio, attraverso: l’analisi della mobilità di utenti con fragilità per favorire l’accessibilità e la percorribilità pedonale; il monitoraggio di anziani e persone con disabilità cognitiva lieve all’interno degli ambienti domestici per favorirne l’autonomia; l’identificazione delle attività giornaliere e delle deviazioni o delle derive del comportamento rispetto a quello abituale con l’obiettivo di garantire il benessere sia della persona sia del caregiver. Big data e process mining: la ricerca mira ad analizzare grosse quantità di informazioni raccolte in vari contesti, sia aziendali sia medico-sanitari, per ricostruire e formalizzare i modelli dei processi e delle attività che hanno generate proprio quelle informazioni. Una volta identificato il modello, è poi possibile effettuarne ulteriori analisi, ad esempio finalizzate ad individuarne la correttezza o la congruità con le vigenti normative e raccomandazioni.
Risultati principali della ricerca
Accesso alla conoscenza situazionale e context-aware:
ContextADDICT è un framework metodologico per l'integrazione, la personalizzazione e la distribuzione di informazioni context-aware.
Metodi flessibili e basati sulla semantica per l’analisi e l’interrogazione di dati semistrutturati:
(1) il prototipo Nyaya supporta la gestione dei dati del Semantic-Web, accoppiando meccanismi generici per la memorizzazione dei dati con tecniche di ragionamento basato su ontologie e di interrogazione.
(2) Il prototipo TreeRuler permette l'estrazione di informazioni intensionali e approssimate sulla struttura e il contenuto di database relazionali o documenti XML.
Definizione e sviluppo di linguaggi pervasivi:
PerLa è un linguaggio SQL-like per interagire con un sistema pervasivo come se si trattasse di un database. Esso consente all'utente di interagire con gli oggetti logici che incapsulano dispositivi fisici, che possono diventare parte del sistema in fase di esecuzione con un comportamento "Plug and Play".
Stream Reasoning:
L'applicazione BOTTARI, vincitrice della “Semantic Web Challenge 2011”, sfrutta i social media e il contesto per fornire raccomandazioni per l'utente in una posizione geografica specifica.
Gestione dei dati genomici:
GFINDer è un sistema per la scoperta, l’uso e il mining di grandi quantità di informazioni genomiche a partire da database eterogenei e distribuiti, per sostenere l'interpretazione biomedica di esperimenti biomolecolari con elevate capacità di trattamento dei dati.
Infrastruttura per query multi-dominio:
il motore di interrogazione SeCo permette l’esecuzione di query espresse in un linguaggio dichiarativo su servizi multipli ed eterogenei. Le query sono tradotte in workflow ad invocazione aciclica, e poi in piani di esecuzione fisica in un formato interpretabile dal motore di ricerca.
Risposta a interrogazioni basate su ranking:
gli algoritmi tradizionali di rank join mostrano carenze nella risoluzione di problemi di proximity rank join, in quanto potrebbero utilizzare più input di quelli necessari. Si propone quindi la definizione di un vincolo stretto in grado di garantire che un I/O abbia sempre un costo inferiore a un fattore costante di ottimo.
Architettura e strumenti per human computation:
il progetto Cubrik ha definito un’architettura basata su processi per definire workflow di attività automatiche e umane, in grado di esportare attività destinate all'esecuzione da parte di vasti gruppi di utenti umani in contesti di social network, piattaforme di crowdsourcing e giochi con uno scopo.
Modelli e strumenti di web mashup: sono stati definiti nuovi modelli, metodi e strumenti per la composizione di Web mashup. In particolare, sono stati proposti paradigmi di composizione visuale, adeguati per gli utenti finali, nuovi modelli di componenti e di composizione, e ambienti Web di composizione dotati di tecniche generative model-to-code per la trasformazione delle astrazioni visuali di alto livello in modelli di esecuzione per dispositivi multipli.
Comunicazione multimediale e multicanale:
è stato creato uno strumento innovativo (1001stories) che permette la creazione e la distribuzione di contenuti multimediali su diversi canali/dispositivi, utilizzati in più di 40 applicazioni professionali e da più di 20.000 studenti di tutte le età.
eLearning:
nuovi formati per sostenere l'apprendimento attraverso tecnologie e esperienze di apprendimento innovative sono stati utilizzati in 18 diversi paesi europei, in Israele e negli Stati Uniti da più di 9.000 studenti; l’interazione ludica e tangibile è stata studiata per capire come promuovere l'apprendimento, in particolare nei bambini con bisogni speciali.
Interazione tattile:
sono stati sviluppati modelli e strumenti di interazione tattile ad alto livello e sono stati applicati in un’interazione tattile-visuale per sostenere l'apprendimento della chimica.
Accesso esplorativo alle informazioni:
un nuovo paradigma esplorativo, basato su interfacce altamente reattive per la gestione e il trattamento di quantità enormi di dati, è stato sviluppato e applicato in vari contesti (e-learning, eCulture ...). Nella sperimentazione sono stati coinvolti più di 100 soggetti.
Social Business Process Management:
il Social BPM verte sulla progettazione e l'esecuzione di processi cooperativi. In tale contesto, sono state esplorate le implicazioni organizzative e tecnologiche ed è stato proposto un approccio model-driven per la progettazione di Social BPM che estende lo standard BPMN per incorporare le interazioni sociali in modelli di processo e generare il codice delle applicazioni a partire dai modelli.
ContextADDICT è un framework metodologico per l'integrazione, la personalizzazione e la distribuzione di informazioni context-aware.
Metodi flessibili e basati sulla semantica per l’analisi e l’interrogazione di dati semistrutturati:
(1) il prototipo Nyaya supporta la gestione dei dati del Semantic-Web, accoppiando meccanismi generici per la memorizzazione dei dati con tecniche di ragionamento basato su ontologie e di interrogazione.
(2) Il prototipo TreeRuler permette l'estrazione di informazioni intensionali e approssimate sulla struttura e il contenuto di database relazionali o documenti XML.
Definizione e sviluppo di linguaggi pervasivi:
PerLa è un linguaggio SQL-like per interagire con un sistema pervasivo come se si trattasse di un database. Esso consente all'utente di interagire con gli oggetti logici che incapsulano dispositivi fisici, che possono diventare parte del sistema in fase di esecuzione con un comportamento "Plug and Play".
Stream Reasoning:
L'applicazione BOTTARI, vincitrice della “Semantic Web Challenge 2011”, sfrutta i social media e il contesto per fornire raccomandazioni per l'utente in una posizione geografica specifica.
Gestione dei dati genomici:
GFINDer è un sistema per la scoperta, l’uso e il mining di grandi quantità di informazioni genomiche a partire da database eterogenei e distribuiti, per sostenere l'interpretazione biomedica di esperimenti biomolecolari con elevate capacità di trattamento dei dati.
Infrastruttura per query multi-dominio:
il motore di interrogazione SeCo permette l’esecuzione di query espresse in un linguaggio dichiarativo su servizi multipli ed eterogenei. Le query sono tradotte in workflow ad invocazione aciclica, e poi in piani di esecuzione fisica in un formato interpretabile dal motore di ricerca.
Risposta a interrogazioni basate su ranking:
gli algoritmi tradizionali di rank join mostrano carenze nella risoluzione di problemi di proximity rank join, in quanto potrebbero utilizzare più input di quelli necessari. Si propone quindi la definizione di un vincolo stretto in grado di garantire che un I/O abbia sempre un costo inferiore a un fattore costante di ottimo.
Architettura e strumenti per human computation:
il progetto Cubrik ha definito un’architettura basata su processi per definire workflow di attività automatiche e umane, in grado di esportare attività destinate all'esecuzione da parte di vasti gruppi di utenti umani in contesti di social network, piattaforme di crowdsourcing e giochi con uno scopo.
Modelli e strumenti di web mashup: sono stati definiti nuovi modelli, metodi e strumenti per la composizione di Web mashup. In particolare, sono stati proposti paradigmi di composizione visuale, adeguati per gli utenti finali, nuovi modelli di componenti e di composizione, e ambienti Web di composizione dotati di tecniche generative model-to-code per la trasformazione delle astrazioni visuali di alto livello in modelli di esecuzione per dispositivi multipli.
Comunicazione multimediale e multicanale:
è stato creato uno strumento innovativo (1001stories) che permette la creazione e la distribuzione di contenuti multimediali su diversi canali/dispositivi, utilizzati in più di 40 applicazioni professionali e da più di 20.000 studenti di tutte le età.
eLearning:
nuovi formati per sostenere l'apprendimento attraverso tecnologie e esperienze di apprendimento innovative sono stati utilizzati in 18 diversi paesi europei, in Israele e negli Stati Uniti da più di 9.000 studenti; l’interazione ludica e tangibile è stata studiata per capire come promuovere l'apprendimento, in particolare nei bambini con bisogni speciali.
Interazione tattile:
sono stati sviluppati modelli e strumenti di interazione tattile ad alto livello e sono stati applicati in un’interazione tattile-visuale per sostenere l'apprendimento della chimica.
Accesso esplorativo alle informazioni:
un nuovo paradigma esplorativo, basato su interfacce altamente reattive per la gestione e il trattamento di quantità enormi di dati, è stato sviluppato e applicato in vari contesti (e-learning, eCulture ...). Nella sperimentazione sono stati coinvolti più di 100 soggetti.
Social Business Process Management:
il Social BPM verte sulla progettazione e l'esecuzione di processi cooperativi. In tale contesto, sono state esplorate le implicazioni organizzative e tecnologiche ed è stato proposto un approccio model-driven per la progettazione di Social BPM che estende lo standard BPMN per incorporare le interazioni sociali in modelli di processo e generare il codice delle applicazioni a partire dai modelli.