< Terug naar vorige pagina

Project

Voorspelling en integratie voor weergave in natuurlijke taal

Machines de vaardigheden geven om natuurlijke taal te vertegenwoordigen en te begrijpen, om deze in de echte wereld toe te passen, is een grote uitdaging op het gebied van AI. Huidig werk heeft aangetoond dat het mogelijk is om woordrepresentaties te genereren die syntactische en semantische relaties bevatten en zelfs de context waarin ze worden gebruikt. Taalmodellen (LM) zoals ELMo en BERT blinken uit in verschillende Natural Language Processing (NLP) -taken. Het is echter aangetoond dat deze modellen een zwakke taalvaardigheid hebben. Recent werk toont aan dat ze gevoelig zijn voor ruis in de ingangssignalen, dat ze geen goede representaties produceren op zinsniveau en dat ze weinig kennis van gezond verstand bevatten. Het gebied van moderne NLP is snel gevorderd, rekening houdend met voornamelijk eerdere werkzaamheden van de afgelopen jaren in het gebied. Deze tak kan echter profiteren van ideeën uit andere gebieden die de mechanismen van taalverwerving en -verwerking bij mensen proberen te verklaren. In tegenstelling tot hoe de huidige NLP-modellen werken, heeft een mens het vermogen om relevante informatie te abstraheren van een linguïstisch signaal (bijv. Een zin) en zo te anticiperen op het idee dat later zou kunnen komen. Ook heeft een persoon het vermogen om zijn voorkennis (geheugen) te gebruiken om een beter begrip te krijgen van de binnenkomende taalkundige keu. Voorspellende codering en constructie-integratie zijn twee cognitiewetenschappelijke theorieën die de mechanismen achter deze mogelijkheden proberen te verklaren. Predictive Coding (pc) -theorie zegt dat het menselijk brein een voorspellingsmachine is waarmee we kunnen anticiperen op toekomstige gebeurtenissen. Bovendien minimaliseert het continu de discrepantie tussen de gegenereerde voorspellingen en de sensorische ingangssignalen, waardoor abstracte taalkundige representaties op hoog niveau kunnen worden verkregen. In dit proefschrift wordt voorgesteld om mechanismen van deze theorie te modelleren door een taalmodel te ontwikkelen dat een encoder bevat, die latente representaties van zinnen genereert en tegelijkertijd de latente toestanden van toekomstige zinnen probeert te voorspellen. Met betrekking tot de Construction-Integration (CI) -theorie stelt het dat het tekstcompressieproces verder gaat dan de relaties van de expliciete informatie die wordt genoemd. Met andere woorden, er is een wisselwerking en versmelting tussen het gepresenteerde taalkundige signaal en de algemene kennis of ervaring van het onderwerp. Er wordt voorgesteld om de mechanismen van deze theorie te implementeren via een taalmodel dat kan profiteren van de informatie van een externe kennisbank (KB), door het gebruik van aandachtsmechanismen. Ten slotte wordt voorgesteld om de modellen te koppelen tot een enkele architectuur die kan profiteren van de eigenschappen van elk van de theorieën. Om dit te bereiken zal het op CI gebaseerde model (kennisintegratie) worden gebruikt dat ten grondslag ligt aan het pc-model (anticipatiemechanisme). Hiermee wordt verwacht dat het een model verkrijgt dat representaties van hoge kwaliteit leert, nuttig voor taken die geavanceerde taalvaardigheid vereisen voor een adequaat begrip van tekst en spraak (op zinsniveau).

Datum:10 mei 2021 →  Heden
Trefwoorden:Deep learning, Language model, Predictive coding, Construction-integration
Disciplines:Natuurlijke taalverwerking
Project type:PhD project