Project

Visuele factoren om menselijke esthetische voorkeuren voor afbeeldingen te voorspellen: een “deep-learning” benadering op basis van “Fast Fourier Convolution” en “Vision Transformers”

Het belangrijkste doel van dit proefschrift is om een “deep-learning” model te ontwikkelen om menselijke esthetische voorkeuren voor beelden te voorspellen. Uitgangspunt is het bestaan van een “benchmark” dataset van voorkeuren, verzameld in een uitgebreide online studie met grote steekproeven van beelden van alledaagse scènes en schilderijen en grote steekproeven van waarnemers (verzameld door een PhD student in de psychologie, die ook werkt aan het grotere project waartoe beide promovendi behoren). De ontwikkeling van het model zal bestaan uit twee grote stappen. De eerste stap, gericht op functie-extractie, combineert “hand-crafted” en diepe kenmerken om hoge performantie te bereiken. Het voorgestelde model zal gebruik maken van “Fast Fourier Convolution (FFC)” en “Vision Transformers (ViT)” om betekenisvolle diepe “kenmerken te extraheren. Twee strategieën zullen worden onderzocht: (1) het genereren van kleine beeldpatches met behulp van FFC-blokken, die vervolgens aan een ViT-model worden gegeven om meer definitieve diepe kenmerken te produceren; (2) het creëren van onafhankelijke diepe kenmerken door FFC en ViT, die vervolgens worden geïntegreerd met andere kenmerken. De “hand-crafted” kenmerken worden gegenereerd met behulp van traditionele computervisie-algoritmen. Dit wordt gedaan voor typische kenmerken op laag niveau, zoals randen, tint, verzadiging, entropie en onscherpte voor de hele afbeelding of specifieke gebieden in de afbeelding, evenals typische factoren op hoog niveau, zoals inhoud, stijl, afbeeldingscategorie en kunstperiode. (Een andere PhD student zal ook computervisie-algoritmen ontwikkelen voor typische “mid-level” factoren zoals symmetrie, balans, samenstelling, segmenteerbaarheid in verschillende opvallende regio's, segmenteerbaarheid in voor- en achtergrond, enz.). De tweede stap, gericht op esthetische schatting, zal alle beschikbare kenmerken samenvoegen tot een “feature vector” om gemiddelde esthetische voorkeuren of esthetische beoordelingen te voorspellen. Het voorgestelde diepe neurale net zal worden vergeleken met klassieke regressietechnieken (na toepassing van een dimensionaliteitsreductietechniek). We zullen ook proberen het model verder te optimaliseren door oogbewegingsgegevens (verzameld door de PhD student in de psychologie) te gebruiken om de ViT te helpen om de meest relevante regio's in het beeld te gebruiken. Zodra het universele model is getraind en geoptimaliseerd, zullen we het verder uitdagen door ook te proberen specifieke versies te ontwikkelen die rekening houden met deelnemerskenmerken zoals leeftijd, geslacht, bekendheid met specifieke afbeeldingen, culturele achtergrond, opleidingsniveau, kunstinteresse en expertise.

Datum:3 apr 2023 → Heden

Trefwoorden:Aesthetics, deep learning, image characteristics, visual perception, universal model, group models

Disciplines:Zintuiglijke processen en perceptie, Cognitieve processen, Kennisrepresentatie en machine learning, Computervisie, Beeldverwerking

Project type:PhD project

Project

Visuele factoren om menselijke esthetische voorkeuren voor afbeeldingen te voorspellen: een “deep-learning” benadering op basis van “Fast Fourier Convolution” en “Vision Transformers”

Onderzoekers

Project partners

Financiering