< Terug naar vorige pagina

Project

Synthese van inductieve datamodellen. (SYNTH)

Bij de ontwikkeling van intelligente systemen is het de taak van de data scientist om kennis af te leiden uit data in de vorm van modellen.  Geïnspireerd door recente successen in het automatiseren van complexe taken, zoals programmeren en het uitvoeren van wetenschappelijke experimenten, is het ultieme doel van dit project om deze taak van de data scientist te automatiseren.

Specifiek wil dit project de basis leggen voor een theorie en methodologie voor het automatisch synthetiseren van inductieve modellen. Een inductief datamodel (IDM) bestaat uit:

 1. een datamodel (DM) dat een gepaste datastructuur voor de dataset beschrijft (zoals een databank)

 2. een set van inductieve modellen (IMs), dat wil zeggen, een set van patronen en modellen die uit de data afgeleid zijn.

Waar het DM gebruikt kan worden om informatie op te vragen over de dataset en om vragen te beantwoorden over specifieke data punten, kunnen IMs gebruikt worden om voorspellingen te maken, suggesties te geven voor ontbrekende waarden, inconsistentie en redundantie te ontdekken, enz.

De taak die in dit project bestudeerd wordt, is het automatisch synthetiseren van zulke IMs uit historische data en deze te gebruiken als ondersteuning van de gebruiker bij het maken van beslissingen. 

Er wordt hierbij aangenomen dat de data bestaat uit een set van tabellen, dat de interactie tussen eindgebruiker en IDM gebeurt via een visuele interface, en dat de tussen data scientist en IDM via een allesomvattende IDM-taal die een aantal basis IMs en leeralgoritmes aanbiedt.

De kernuitdagingen voor SYNTH zijn: 

  1. het synthese-systeem moet in staat zijn om "de leertaak te leren", dat wil zeggen, het moet de correcte leertaken identificeren en gepaste IMs leren voor elk van deze taken,

  2. het systeem moet mogelijk de data herstructureren vooraleer de IM-synthese uitgevoerd wordt,

  3. de ontwikkeling van een allesomvattende IDM-taal voor een set van basis patronen en modellen

Deze aanpak zal geïmplementeerd worden als open-source software en geëvalueerd worden op twee uitdagende toepassingsgebieden: het opstellen van werkschema's en analyse van sportgerelateerde data.

Datum:1 sep 2016 →  28 feb 2022
Trefwoorden:Inductive Data Models, Synthesising
Disciplines:Toegepaste wiskunde