< Terug naar vorige pagina

Project

Capsule-netwerken voor automatische spraakherkenning

Diepe neurale netwerken (DNN's) hebben een enorme revolutie veroorzaakt in vele aspecten van kunstmatige intelligentie (AI), waaronder spraakverwerking, natuurlijke taalverwerking en beeldverwerking. Van DNN's is bekend dat ze gegevenshonger zijn, d.w.z. dat ze grote hoeveelheden gelabelde trainingsgegevens vereisen. Dit type gegevens is in de meeste toepassingen duur om te verkrijgen. In spraakherkenning betekent dit dat we moeten weten wat de orthografische transcripties van elke uiting zijn (d.w.z. iemand moet opschrijven wat hij hoort). In de afgelopen paar jaar is er vooruitgang geboekt in het toezicht zonder toezicht, zodat kleinere hoeveelheden geannoteerde gegevens kunnen worden aangevuld met niet-geannoteerde gegevens, die gemakkelijker te verkrijgen zijn (d.w.z. opnames van mensen die praten). Een van de redenen waarom DNN's zoveel trainingsgegevens nodig hebben, is dat de 'weglerende' variatie in de gegevens. Bij visuele objectherkenning worden verschillende ingangen afkomstig van verschillende belichtingen, poses en kijkhoeken van hetzelfde object allemaal toegewezen aan dezelfde klassen, vaak met behulp van vele convolutionele neurale netwerklagen (CNN). De CNN-kernels activeren patronen van toenemende complexiteit naarmate we dieper het netwerk ingaan. De laagste lagen kunnen worden geactiveerd op eigenschappen zoals specifieke lijnoriëntaties, terwijl hogere lagen worden geactiveerd op vormen die uit deze lijnen zijn samengesteld. Het netwerk moet echter leren dat verschillende poses en kijkhoeken leiden tot lijnsegmenten met een andere oriëntatie in de laagste lagen en dat de positie van deze segmenten verandert. De lagen op een hoger niveau moeten leren deze vorm van variatie toe te wijzen aan dezelfde objectcategorieën, d.w.z. dat de variatie moet worden "weggeleerd". Een soortgelijk probleem van gegevensvariatie is aanwezig bij spraakherkenning: verschillende personen hebben verschillende stemkenmerken, dat is o.a. weerspiegeld in verschillende formant frequenties. Toch moeten de foneemklassen hetzelfde blijven. Achtergrondgeluid of concurrerende luidsprekers leiden tot beschadigde low-level functies. Verschillende personen kunnen verschillende grammaticale constructies gebruiken om hun ideeën, enz. Uit te drukken. De methoden die in dit voorstel worden onderzocht, nemen de benadering niet weg om "variatie weg te leren", maar deze in plaats daarvan door te geven aan de hogere lagen.

Datum:23 sep 2019 →  23 sep 2023
Trefwoorden:Automatic Speech Recognition
Disciplines:Audio- en spraakverwerking
Project type:PhD project