Nel corso degli ultimi anni, le tecnologie che consentono di analizzare i dati utili alla ricerca scientifica e di riutilizzarli nelle iniziative di Open Science per la costruzione di modelli, anche con tecniche di Machine Learning, hanno subito un’accelerazione rapidissima. Il tentativo di costruire “spazi” o “ecosistemi” di dati che ne supportino la pubblicazione e il riutilizzo per alimentare le pipeline – ovvero i processi che gli scienziati dei dati progettano ed eseguono per preparare, trasformare, arricchire e analizzare i dati – ha ispirato diverse iniziative in Europa e in tutto il resto del mondo. Tuttavia, valutare e controllare la qualità dei dati e dei risultati dell’analisi può essere molto costoso in termini di risorse computazionali e di sforzo umano. Le pipeline completamente automatizzate sono in grado di ridurre i costi di questo processo ma presentano criticità notevoli dal punto di vista del monitoraggio del ciclo di vita dei dati e rendono spesso molto difficoltoso il controllo dei risultati in termini di qualità, incertezza e spiegabilità.
In questo scenario, il progetto “Discount Quality for Responsible Data Science: Human-in-the-Loop for Quality Data” intende sfruttare un approccio “Human-In-The-Loop” (HITL) – ossia un approccio che prevede l’intervento umano nelle fasi più delicate del processo di trasformazione dei dati – per incrementare la sostenibilità complessiva delle pipeline, sia dal punto di vista computazionale che in termini di sforzo umano. In particolare, Il progetto si concentra sulla fase di preparazione dei dati, che normalmente richiede fino all’80% del tempo complessivo necessario per portare a termine il processo, bilanciando l’esigenza di avere a disposizione dati di alta qualità e quella di ridurre il lavoro impiegato per la loro preparazione. Per rendere maggiormente sostenibile questo processo, saranno perseguiti due obiettivi principali: 1) ridurre lo sforzo computazionale necessario per analizzare i dati; 2) introdurre l’approccio HITL per rendere più efficace, e quindi limitare, l’intervento umano.
Per raggiungere i propri obiettivi, il progetto sfrutta le competenze complementari dei partner coinvolti. Il gruppo di ricerca coordinato dalla Prof.ssa Barbara Pernici del Dipartimento di Elettronica, Informazione e Bioingegneria del Politecnico di Milano, responsabile scientifica del progetto, porta in dote la sua expertise nella valutazione della qualità dei dati e delle informazioni, nello sviluppo di pipeline per i dati scientifici e per l’analisi dei social media. L’Università di Modena e Reggio Emilia contribuisce con le sue competenze nella preparazione dei dati, basate su approcci semantici. L’Università degli Studi di Milano-Bicocca mette in campo un know-how relativo alla condivisione dei dati e alle annotazioni. L’Università degli Studi di Roma “La Sapienza” vanta un’esperienza consolidata nei campi della visualizzazione e dell’esplorazione dei dati.