< Terug naar vorige pagina

Project

Sobere en robuuste schatting van vector autoregressieve modellen met toepassingen in de marketing en economie.

Vandaag de dag is er een grote hoeveelheid data beschikbaar in bijna elke bedrijfstak of  wetenschapsdomein. Informatie wordt verzameld in databanken waar de verschillende variabelen opgeslagen worden in de kolommen van de databank en de observaties van elke variabele in de rijen. Onze interesse gaat uit naar variabelen waarvan de observaties verzameld worden overheen de tijd. Dergelijke databanken bevatten dan tijdreeksen in hun kolommen. Een tijdreeks dient anders behandeld te worden dan een standaard variabele aangezien er rekening gehouden moet worden met de tijdsafhankelijkheid van de observaties.

Bovendien, in de huidige “Big Data” wereld, gaat onze interesse voornamelijk uit naar databanken, in tegenstelling tot laag-dimensionale databanken. Hoog-dimensionale databanken bevatten informatie over vele korte tijdreeksen: een groot aantal tijdreeksen (kolommen) is beschikbaar ten opzichte van het aantal tijdspunten (rijen). Laag-dimensionale databanken daarentegen bevatten slechts enkele lange tijdreeksen: een groot aantal tijdspunten (rijen) is beschikbaar ten opzichte van het aantal tijdreeksen (kolommen). Hoog-dimensionale databanken komen tegenwoordig frequent voor aangezien vele bedrijven informatie verzamelen omtrent een groot aantal variabelen, maar ze houden deze informatie maar slechts een paar jaar bij.

Het probleem echter is dat traditionele schattingsmethoden goed geschikt zijn voor het analyseren van laag dimensionale databanken, niet voor het analyseren van hoog dimensionale databanken. Enerzijds worden deze schatters zeer inaccuraat wanneer er ongeveer evenveel observaties als variabelen beschikbaar zijn. Anderzijds zijn deze schatters zelfs niet berekenbaar wanneer er minder observaties beschikbaar zijn dan variabelen. Er is dus nood aan nieuwe methoden om hoog dimensionale databanken adequaat te kunnen analyseren.

In deze thesis ontwikkelen we sobere schattingsmethoden voor hoog dimensionale gegevens. Ondanks de overvloed aan data verwachten we niet dat elke variabele uit de databank even informatief is. Sobere schattingsmethoden gaan uit van het principe van de eenvoudigheid: we nemen aan dat enkel een klein aantal variabelen uit onze databank een belangrijke rol spelen. Sobere schatters behouden de informatieve variabelen en verwijderen de niet-informatieve variabelen. Dit vereenvoudigt de interpretatie van de resultaten.

Onze bijdrage in deze thesis betreft het ontwikkelen van sobere schatters voor hoog dimensionale tijdreeksmodellen (Hoofdstukken 1 t.e.m. 4) en voor Canonische Correlatie Analyse (CCA,  Hoofdstukken 5 en 6). CCA is een multivariate statistische methode voor het beschrijven van lineaire associaties tussen twee databanken. In het bijzonder willen wij deze methodologie aanwenden om op zoek te gaan naar associaties tussen twee hoog dimensionale databanken. Doorheen de thesis illustreren we het nut en de relevantie van sobere schatters voor een brede waaier aan toepassingsgebieden gaande van marketing (Hoofdstuk 1), economie (Hoofdstuk 3, 4) tot biostatistiek (Hoofdstuk 2, 5, 6).

Datum:1 okt 2012 →  30 sep 2016
Trefwoorden:High-dimensional data, Forecasting, Sparse and robust estimation, Vector autoregressive model
Disciplines:Toegepaste wiskunde, Statistische en numerieke methoden, Toegepaste economie, Economische geschiedenis, Macro-economie en monetaire economie, Micro-economie, Toerisme
Project type:PhD project