Project

Dimensiereductie-uitdagingen bij multi-block analyse: Omgaan met afwijkende variabelen en voorspellen in een gereduceerde ruimte

In vele onderzoeksdomeinen meet men verschillende variabelen voor verschillende objecten en werkt men dus met multivariate data. Deze data bestaan vaak uit meerdere blokken die gekoppeld zijn, omdat ze een gemeenschappelijk aspect hebben. In dit proefschrift beschouwen we twee soorten gekoppelde data: kolomgekoppelde data, waarbij de objecten verschillende blokken vormen met gedeelde variabelen, en rijgekoppelde data, waarbij de objecten gemeenschappelijk zijn, maar de variabelen uit aparte sets bestaan. Om de relaties binnen zulke gekoppelde data te begrijpen, passen we dimensiereductietechnieken toe. Meer specifiek stellen we uitbreidingen voor van standaard principalecomponentenanalyse. Deze methode ontbindt multivariate data in componentscores en ladingen. De ladingen geven de relaties weer tussen de variabelen en de componenten en spelen zo een cruciale rol bij de interpretatie van die componenten.

In het eerste deel van het proefschrift focussen we op kolomgekoppelde multi-block data. Bij zulke data komt het vaak voor dat de meeste variabelen gelijkaardige ladingen hebben over de blokken heen, terwijl enkele variabelen zich anders gedragen en daardoor afwijkend (outlying) zijn. In tegenstelling tot bestaande methoden voor kolomgekoppelde data, willen we die afwijkende variabelen detecteren. Om dit te bereiken, bouwen we voort op de lower bound congruence method (LBCM; De Roover, Timmerman, & Ceulemans, 2017), die de gelijkenis van ladingen beoordeelt met behulp van de congruenctiecoefficiënt van Tucker. LBCM is een interessante heuristiek, omdat men op berekeningen gebaseerde informatie verkrijgt. Naast het bepalen van de afwijkende variabelen, ordent LBCM ook alle variabelen volgens hun relatieve afwijkendheid en geeft een outlyingness ranking. LBCM heeft echter drie grote nadelen: (1) men bekomt vaak vals positieve resultaten, (2) de methode maakt gebruikt van de congruentiecoëfficiënt van Tucker zonder na te gaan of andere similariteitsmaten beter geschikt zijn, en (3) men verkrijgt geen inzicht in de correlatiestructuur van de afwijkende variabelen, aangezien deze variabelen verwijderd worden. Deze nadelen nemen we onder handen in hoofdstukken 1 tot en met 3. In hoofdstuk 1 pakken we het probleem met de vals positieve resultaten aan door een resampled upper bound (RUB) toe te voegen aan LBCM, wat zo de LRUBCM-methode oplevert. In hoofdstuk 2 onderzoeken we of de outlyingness ranking van de variabelen verbeterd kan worden door andere similariteitsmaten in te schakelen. In hoofdstuk 3 stellen we het Outlying en Non-outlying variable (ONVar) model (en algoritme) voor, wat naast de componentscores en ladingen ook een partitievector bevat die variabelen clustert in afwijkende en niet-afwijkende sets. Terwijl de niet-afwijkende variabelen gelijke ladingen krijgen in de verschillende blokken, worden de afwijkende variabelen gemodelleerd met blokspecifieke ladingen.

In het tweede deel van het proefschrift focussen we op rijgekoppelde data, die uit twee blokken bestaan. Hierbij willen onderzoekers meestal componenten uit de twee datablokken extraheren en ze op de een of andere manier aan elkaar linken. We bekijken dit vanuit een regressieperspectief, waarbij de twee blokken dus betrekking hebben op predictoren en criteria. Meer bepaald, breiden we in dit tweede deel principalecovariatenregressie (PcovR) verder uit. Deze methode reduceert tegelijkertijd de predictoren tot componenten en gebruikt deze componenten om de criteria te voorspellen. Hoewel eerder werk veelbelovende resultaten liet zien, zouden er problemen kunnen opduiken bij een hoog aantal criteriumvariabelen, waarbij sommige ervan niet gerelateerd zijn aan de predictoren en er dus niet door voorspeld kunnen worden. Om met deze problemen om te gaan, wordt in hoofdstuk 4 PCOvR2 voorgesteld, een nieuwe methode die PCovR uitbreidt door ook de criteria te reduceren tot een aantal criteriumcomponenten.

Datum:1 okt 2016 → 16 sep 2020

Trefwoorden:Psychology, Quantitative Psychology

Disciplines:Toegepaste psychologie

Project type:PhD project

Project

Dimensiereductie-uitdagingen bij multi-block analyse: Omgaan met afwijkende variabelen en voorspellen in een gereduceerde ruimte

Onderzoekers

Project partners

Financiering

Publicaties