< Terug naar vorige pagina

Project

Diep Visuele Herkenning voor de Echte Wereld

Het herkennen van personen en voorwerpen in een beeld is een fundamenteel probleem in het computervisiedomein. De meeste voorgestelde oplossingen focussen op algemene toepasbaarheid. Deze one-size-fits-all benaderingen negeren de subtiliteiten inherent aan meer specifieke use cases. Inderdaad, veel toepassingen omvatten uitdagingen en mogelijkheden die noch aangepakt, noch uitgebuit worden bij het zomaar toepassen van algemene herkenningsoplossingen. Dit proefschrift focust op drie industrie-relevante use cases waarvoor we eerst de haalbaarheid van algemene benaderingen uitwerken en vervolgens bestuderen hoe op de intrinsieke uitdagingen en mogelijkheden ingespeeld kan worden om de herkenningskwaliteit te verbeteren.

De eerste use case is gezichtsherkenning voor het automatisch samenstellen van geïndividualiseerde fotoalbums. Een belangrijke uitdaging in deze toepassing is dat afbeeldingen vaak personen bevatten die niet gekend zijn door het computervisiesysteem. Er zijn veel gevallen in de echte wereld waar deze ongekende gezichten meermaals voorkomen doorheen een verzameling van foto's. Daarom stellen wij voor om clustering te gebruiken om zulke ongekende gezichten te vinden. Vanuit deze clusters maken we pseudo-referenties om verkeerde overeenkomsten met personen die een referentie-afbeelding hebben te voorkomen. We tonen dat dit---wanneer slechts drie identiteiten gekend zijn---de mAP verbetert van 44.6% naar 59.1% op een dataset uit de echte wereld, en van 94.7% naar 99.7% voor een publiek beschikbare dataset.

Ten tweede behandelen we de detectie en herkenning van supermarktproducten voor het automatisch verifiëren van het nakomen van schappenplannen. We trainen een productdetector op de SKU-110K dataset en demonstreren hoe een productherkenningsnetwerk op een efficiënte manier getraind kan worden op de erg grote---maar ruizige en niet-gebalanceerde---AliProducts dataset. We gaan dieper in op het trainen van een CNN dat deze taken gezamenlijk kan uitvoeren en tonen aan dat dit haalbaar is wanneer we beschikken over een dataset die zowel detectie- als herkenningsannotaties bevat. We bekijken ook het potentieel van twee aparte datasets: één voor detectie en één voor herkenning. Na een grondige analyse formuleren we een COCO AP vs. inferentietijd karakteristiek die toelaat om de meest optimale netwerkarchitectuur en trainingsprocedure te bepalen.

Ten slotte onderzoeken we diamantherkenning voor veilige diamanthandel. We laten zien dat generieke herkenningsbenaderingen al zeer geschikt zijn voor diamantherkenning, met een mAP van 99.970%. Om het herkenningsresultaat verder te verbeteren, stellen we voor om het herkenningsmodel rotatie-equivariant te maken met behulp van een polaire transformatie. Dit levert modellen op die een mAP van 99.989%. We implementeren ons eigen polar warping-algoritme dat op GPU kan draaien. Dit maakt versnellingen van meer dan een factor 750 mogelijk ten opzichte van de veelgebruikte OpenCV-implementatie.

Na het bestuderen van deze toepassingen stellen we een Python bibliotheek voor die we ontwikkelden om onderzoekers te helpen hun volgende project over herkenning een vliegende start te geven.

Datum:25 sep 2017 →  7 sep 2023
Trefwoorden:Computer vision, Person re-identification, Facial recognition, Computer Vision
Disciplines:Toegepaste wiskunde
Project type:PhD project