< Terug naar vorige pagina

Project

Robuuste en spaarse statistische methodes voor actuariële wetenschappen

Dit doctoraal proefschrift bestaat uit twee delen en in het eerste deel focussen we op robuuste statistiek. Meer specifiek beschouwen we robuuste regressie indien de responsvariabele uit de familie van de dubbel exponentiële verdelingen komt. We gaan dus niet alleen de verwachte waarde robuust schatten via een gegeneraliseerd lineair model (GLM) op basis van covariaten, maar ook de dispersie. Rekening houden met de dispersie zorgt ervoor dat het betrouwbaarheidsinterval voor het gemiddelde bijvoorbeeld correcter is, maar het gebeurt ook dat de dispersie zelf hetgeen is waarin men geïnteresseerd is. Deze schatter noemen we de robuuste dubbel exponentiële (RDE) schatter, hetgeen een Fisher-consistente M-schatter is. We tonen aan hoe we de invloedsfunctie begrensd kunnen houden en leiden ook de asymptotische verdeling voor deze schatter af. Vervolgens stellen we een veralgemeende robuuste quasi-deviantie maat voor, hetgeen de basis vormt voor een stabiele robuuste test. Deze test kunnen we bijvoorbeeld gebruiken om de aanwezigheid van over- of onderdispersie na te gaan. Simulaties voor zowel de binomiaal als de Poisson modellen demonstreren de uitstekende performantie van de RDE schatter en bijhorende robuuste testen.

We ontwikkelen ook gepenaliseerde versies van de RDE schatter voor spaarse schattingen in geval van hoog-dimensionale data en voor flexibele schattingen via gegeneraliseerde additieve modellen (GAM). Deze uitbreidingen zijn gebaseerd op de gewogen kleinste kwadraten representatie van de RDE schatter. Tot slot illustreren voorbeelden op echte data het belang van robuuste inferentie voor dispersie-effecten in GLMs en GAMs. 

Het tweede deel van dit proefschrift gaat over de concordance probability, hetgeen een robuuste performantiemaat is voor een model. Het komt namelijk overeen met de kans dat een willekeurig gekozen vergelijkbaar paar van observaties met hun voorspelling een concordant paar is. Voor grote data sets duurt het echter zeer lang om op een naïeve manier elk mogelijk paar te beschouwen en na te gaan. Daarom stellen we twee benaderingen voor, de zogenaamde marginale en k-means benadering. Op basis van een zeer uitgebreide simulatiestudie, besluiten we dat voor observaties uit een continue verdeling, de kleinste benaderingsfout gemaakt wordt door de k-means benadering, hetgeen ook het snelst berekend wordt. Wanneer de observaties echter uit een binaire verdeling komen, is de marginale benadering het snelst en accuraatst.

In de verzekeringssector zijn er twee modellen die een belangrijke rol spelen bij het bepalen van de premie van een verzekeringscontract. De frequency modellen voorspellen enerzijds hoe vaak er gemiddeld een schadegeval zal voorvallen per jaar, terwijl de severity modellen anderzijds voorspellen hoeveel het gemiddelde schadegeval zal kosten. Om de performantie van zulke modellen te bepalen is de concordance probability een zeer geschikte maat aangezien we vooral grote en kleine risico’s van elkaar willen kunnen onderscheiden. Hiervoor wordt de klassieke concordance probability aangepast, zodat rekening gehouden wordt met de duurtijd van elk contract, hetgeen een belangrijke rol speelt in de frequency modellen. Bovendien wordt de weighted-mean-plot geïntroduceerd, waarin lokale concordance probabilities worden weergegeven in functie van de duurtijd. De aanpaste concordance probability wordt in dit proefschrift toegepast op twee echte datasets uit de verzekeringswereld.

De concordance probability ligt tussen 0 en 1 aangezien het een kans is, wat maakt dat kleine afwijkingen van de echte waarde eigenlijk al ongewenst zijn. Daarom stellen we tot slot een efficiënt algoritme voor om de concordance probability exact te berekenen. Deze methode is gebaseerd op het welbekende mergesort algoritme en heeft een log-lineaire berekeningstijd; wat een enorme verbetering is tegenover de naïeve, kwadratische implementatie van de concordance probability. Door de korte rekentijd is het nu ook mogelijk om de concordance probability te gebruiken in de objectieffunctie van machine learning algoritmes. 

Alle vermelde algoritmes zijn beschikbaar in verschillende R-pakketten met bijhorende handleidingen op https://github.com/JolienPonnet.

Datum:3 okt 2018 →  21 sep 2022
Trefwoorden:Statistics, Robust
Disciplines:Toegepaste wiskunde, Statistische en numerieke methoden, Computerarchitectuur en -netwerken, Distributed computing, Informatiewetenschappen, Informatiesystemen, Programmeertalen, Scientific computing, Theoretische informatica, Visual computing, Andere informatie- en computerwetenschappen
Project type:PhD project