< Terug naar vorige pagina
Project
Rechtvaardigheid in Reinforcement Learning voor Toewijzingsproblemen (FWOSB142)
Rechtvaardigheid is een centrale zorg geworden voor de
ontwikkeling van geautomatiseerde besluitvormingssystemen in reële
toepassingen. Beslissingen in het kader van toewijzingsproblemen,
zoals leningen verstrekken, vaccins verdelen, hebben een grote
maatschappelijke impact en vereisen zorgvuldige afwegingen van
betrokken individuen en groepen. Bovendien kunnen deze
problemen geleidelijk evolueren. Daarom is het belangrijk om het
langetermijneffect van beslissingen te begrijpen en zich aan te
passen aan mogelijke veranderingen. We zullen rechtvaardigheid
bestuderen in diverse dynamische toewijzingsproblemen met behulp
van reinforcement learning (RL), met directe feedback (i.e., bandit
setting), en anderen waar er een langetermijnimpact is of een
sequentieel aspect.
De hoofdrichting die we voorstellen is het initiële beslissingsprobleem
uit te breiden en rechtvaardigheid te beschouwen als een apart doel,
naast de systeemprestatie. Hiervoor nemen we een multi-objective
RL aanpak om onze overkoepelende doelstelling te bereiken:
rechtvaardige RL-technieken met voorbedachtheid en een
transparanter perspectief op het beslissingsproces. Als validatie,
beschouwen we twee use-cases: epidemische controle en
fraudedetectie. Beiden verschillen in RL aanpak en hebben
betrekking tot complementaire rechtvaardigheidsaspecten, wat een
uitgebreide en diverse empirische evaluatie biedt met inzicht die
overdraagbaar is naar andere toepassingsdomeinen (bijv.
grenscontrole, waterdistributie).
ontwikkeling van geautomatiseerde besluitvormingssystemen in reële
toepassingen. Beslissingen in het kader van toewijzingsproblemen,
zoals leningen verstrekken, vaccins verdelen, hebben een grote
maatschappelijke impact en vereisen zorgvuldige afwegingen van
betrokken individuen en groepen. Bovendien kunnen deze
problemen geleidelijk evolueren. Daarom is het belangrijk om het
langetermijneffect van beslissingen te begrijpen en zich aan te
passen aan mogelijke veranderingen. We zullen rechtvaardigheid
bestuderen in diverse dynamische toewijzingsproblemen met behulp
van reinforcement learning (RL), met directe feedback (i.e., bandit
setting), en anderen waar er een langetermijnimpact is of een
sequentieel aspect.
De hoofdrichting die we voorstellen is het initiële beslissingsprobleem
uit te breiden en rechtvaardigheid te beschouwen als een apart doel,
naast de systeemprestatie. Hiervoor nemen we een multi-objective
RL aanpak om onze overkoepelende doelstelling te bereiken:
rechtvaardige RL-technieken met voorbedachtheid en een
transparanter perspectief op het beslissingsproces. Als validatie,
beschouwen we twee use-cases: epidemische controle en
fraudedetectie. Beiden verschillen in RL aanpak en hebben
betrekking tot complementaire rechtvaardigheidsaspecten, wat een
uitgebreide en diverse empirische evaluatie biedt met inzicht die
overdraagbaar is naar andere toepassingsdomeinen (bijv.
grenscontrole, waterdistributie).
Datum:1 nov 2022 → Heden
Trefwoorden:Versterkend leren, Eerlijkheid door ontwerp, Multi-Objectief versterkend leren
Disciplines:Machine learning en besluitvorming, Artificiële intelligentie niet elders geclassificeerd