< Terug naar vorige pagina

Project

Leren door voorspelling en integratie: Mens-geïnspireerde methoden voor het begrijpen van natuurlijke taal

Een grote uitdaging op het gebied van natuurlijke taalverwerking is machines de vaardigheden aanleren om natuurlijke taal voor te stellen en te begrijpen, en vervolgens die vaardigheden toe te passen in applicaties. Vooraf getrainde taalmodellen op basis van neurale netwerken hebben onlangs uitstekende prestaties geleverd bij verschillende taken rond het natuurlijk taalbegrip. Hoewel ze effectief zijn, missen deze modellen het vermogen dat mensen hebben om tekst te begrijpen. Tijdens het lezen kunnen mensen bijvoorbeeld anticiperen op de volgende inhoud of eerdere kennis gebruiken om een passage beter te begrijpen.

Onze hypothese is dat de huidige taalmodellen baat zouden kunnen hebben bij menselijke taalverwerkingsmechanismen. In dit werk onderzoeken en stellen we verschillende methodes voor om de huidige taalmodellen te verbeteren, waarbij we ons laten inspireren door voorspellings- en integratietheorieën rond taalbegrip bij mensen. Onze bijdragen laten zien dat vooraf getrainde taalmodellen enkele beperkingen hebben en dat het aanvullen van modellen met menselijke mechanismen leidt tot verbeteringen in taalbegrip bij verschillende taken. We maken zes bijdragen verdeeld in drie delen die hieronder worden beschreven.

Eerst evalueren we state-of-the-art vooraf getrainde taalmodellen in uitdagende omstandigheden met behulp van competentie-, afleidings- en ruistesten. We laten zien dat deze modellen enigszins robuust zijn, maar nog steeds moeite hebben met verstoorde invoer, ontkenningen en numeriek redeneren. Verder evalueren we de resulterende representaties van de modellen, waaruit blijkt dat, net als de Engelse modellen, de Spaanse modellen ook voldoende goede representaties voor algemeen gebruik produceren. We bevestigen echter dat hun representatievermogen op zins- en discoursniveau beperkt is.

Ten tweede verkennen we geheugenpopulatiemethoden voor vooraf getrainde taalmodellen onder het paradigma van levenslang leren met episodisch geheugen. We laten zien dat het willekeurig bemonsteren van een globale kansverdeling goed genoeg werkt om eerdere kennis te integreren en vergeten in het model te voorkomen, maar ook dat sommige taken meer baat hebben bij selectie via populatiemethoden. Bovendien stellen we een methode voor om het dilemma van stabiliteit en plasticiteit dat zich voordoet bij levenslang leren aan te pakken. We laten zien dat entropie kan worden gebruikt als een plasticiteitsfactor om te bepalen hoeveel een laag in een model moet worden aangepast aan de huidige invoer, waardoor de prestaties en efficiëntie worden verbeterd.

Ten derde breiden we de architectuur van vooraf getrainde taalmodellen uit met inzichten uit de voorspellende coderingstheorie. We tonen aan dat het introduceren van bottom-up en top-down berekeningen om toekomstige zinnen in de latente ruimte in de modellen te voorspellen, de representaties op zins- en discoursniveau verbetert. Aan de andere kant stellen we een methode voor die ideeën rond geheugenintegratie, geheugenrepetitie en voorspellen omvat om het beantwoorden van vragen uit streaminggegevens op te lossen. Onze aanpak maakt gebruik van mechanismen voor wederzijdse aandacht om informatie te integreren in het externe geheugen, ondersteund door anticipatie en repetitie. We laten de effectiviteit van ons model zien in sequenties van zowel tekst als video.

Samengevat presenteren we systematische evaluaties die de beperkingen van de huidige vooraf getrainde taalmodellen aantonen. Vervolgens tonen de verschillende voorgestelde methodes gebaseerd op ideeën van menselijke taalverwerking aan dat menselijke inspiratie nog steeds een manier biedt om modellen op basis van neurale netwerken te verbeteren. Door mens-geïnspireerde mechanismen op te nemen, versterken of voegen we enkele mogelijkheden toe die taalmodellen niet hebben en die essentieel zijn voor het verkrijgen van mensachtige taalverwerking.

Datum:10 mei 2021 →  12 sep 2023
Trefwoorden:Deep learning, Language model, Predictive coding, Integration, Memory
Disciplines:Natuurlijke taalverwerking, Machine learning en besluitvorming
Project type:PhD project