< Terug naar vorige pagina

Project

Spatiaal adaptieve neurale netwerken voor computervisie

In het afgelopen decennium heeft computervisie een opmerkelijke vooruitgang geboekt dankzij de opkomst van zelflerende neurale netwerken. Convolutionele neurale netwerken (CNN) leren automatisch patronen te herkennen op basis van geannoteerde gegevens. Opeenvolgende ontwikkelingen hebben deze modellen uitgebreid, met complexere architecturen die meer leerbare parameters bevatten en daardoor meer berekeningen nodig hebben. Krachtige hardware is nodig om deze modellen uit te voeren, wat hun toepasbaarheid in mobiele en real-time toepassingen beperkt. Dit heeft onderzoek naar efficiëntere modellen in een stroomversnelling gebracht.

De meeste convolutionele neurale netwerken hebben een statische architectuur: ze voeren dezelfde bewerkingen uit op elke afbeelding. Je zou echter kunnen stellen dat niet elke afbeelding even complex is, en enkel de moeilijkste afbeeldingen de volledige capaciteit van het netwerk nodig hebben. Op basis van dat idee passen dynamische neurale netwerken de berekeningen aan voor gegeven afbeelding. Op deze manier kan het gemiddeld aantal berekeningen gereduceerd worden, met snellere verwerkingstijden en een lager energieverbuik tot gevolg. Bovendien maken dynamische netwerken het mogelijk om meer parameters te gebruiken voor dezelfde rekenkost, wat kan leiden tot betere representaties.

In dit PhD onderwerp richten we ons op spatiaal adaptieve neurale netwerken, waar de berekeningen zich aanpassen per regio in de afbeelding. Nieuwe toepassingen van computervisie gebruiken steeds hogere resoluties voor afbeeldingen en video, met een grote variatie in inhoud. Standaard CNNs verwerken elke afbeelding en elke pixel met dezelfde berekeningen. Spatiaal adaptieve methodes daarentegen passen meer berekeningen toe op de belangrijkste delen van een afbeelding, om beter gebruik te maken van de beschikbare rekenkracht. We stellen drie nieuwe methodes voor om dit te bereiken.

Als eerste introduceren we dynamische convoluties (DynConv), waar convoluties spaars uitgevoerd worden om selectief de representaties bij te werken. Elk residueel blok heeft een klein sub-netwerk dat aangeeft welke pixels moeten verwerkt worden. Hierbij maken we gebruik van Gumbel-Softmax trick om deze discrete optimalisatie mogelijk te maken. We demonstreren de methode op beeldclassificatie (met CIFAR en ImageNet datasets) en detectie van personen. Die laatste taak is uitermate geschikt voor deze methode, en de verwerkingssnelheid stijgt met 60 procent zonder verlies in accuraatheid.

De tweede methode is ontworpen voor taken waar elke pixel een voorspelling nodig heeft, zoals semantische segmentatie. We introduceren 'duale-resolutie netwerken', waar de afbeelding opgedeeld wordt in blokvormige regio's, en de verwerkingsresolutie aangepast wordt een de complexiteit van een regio. Eenvoudige regio's worden verwerkt op lage resolutie met minder berekeningen. Een klein selectie-netwerk wordt getraind met versterkend leren (reinforcement learning). We integreren onze methode in SwiftNet, een netwerk voor semantische segmentatie op de Cityscapes dataset. Het aantal berekeningen wordt gereduceerd met 60 procent en de verwerkingssnelheid stijgt met 50 procent, ten koste van 0.3 procent accuraatheid.

De laatste methode wordt voorgesteld in hoofdstuk 6, waar we kijken naar videoverwerking. Door de beschikbaarheid van grootschalige afbeeldingsdatasets worden de meeste CNNs getraind op afbeeldingen. Video's kunnen dan verwerkt worden door de CNNs beeld per beeld toe te passen. Dit valt mogelijk efficiënter te maken, aangezien videobeelden sterk op elkaar lijken door temporele continuiteit. Onze BlockCopy methode maakt het mogelijk om netwerken die gemaakt zijn voor afbeeldingen toch efficiënt uit te voeren op video. Een klein selectie-netwerk bepaalt voor elk nieuw beeld de belangrijke regio's, en het hoofdnetwerk wordt enkel daar uitgevoerd. De andere regio's herbruiken simpelweg de representaties van het vorige beeld.

Een voordeel van deze methode is dat deze geen geannoteerde video-data nodig heeft. Het selectie-netwerk leert direct van de testdata, zonder gebruik van annotaties. De voorspellingen van het hoofdnetwerk dienen namelijk als leidraad om de selectie te optimaliseren. Ons raamwerk kan toegepast worden op verschillende taken en we demonsteren onze methode op het detecteren van personen (met Center-and-Scale Predictor en MGAN) en segmentatie (met SwiftNet, DeepLabV3+ en Mask-RCNN).

Dynamische neurale netwerken kunnen een rol kunnen spelen bij edge computing en de toepassing van grootschalige multi-modale basismodellen.

Datum:1 okt 2018 →  26 jan 2023
Trefwoorden:computer vision, deep learning, hand pose estimation, machine learning
Disciplines:Multimediaverwerking, Signaalverwerking
Project type:PhD project