< Terug naar vorige pagina

Project

Modellen met latente variabelen voor het begrijpen van taal en beeld in sociale media en e-commerce data

De laatste jaren is er meer data gecreëerd dan in de hele geschiedenis van de mensheid. Met de exponentiële groei van gegenereerde inhoud wordt het steeds belangrijker om systemen te ontwikkelen die op een intelligente wijze zowel beeld als taal verwerken.

Alhoewel mensen reeds op jonge leeftijd moeiteloos een taal begrijpen is dit voor de computer nog steeds een uitdagende taak. Talen zijn inherent, dubbelzinnig en rijk. Veel woorden kunnen gebruikt worden voor hetzelfde concept, en omgekeerd, hetzelfde woord kan meer dingen betekenen. Dit feit wordt nog versterkt op het wilde en ruizige web, waar gebruikers speels en autonoom nieuwe woorden maken en een nieuwe betekenis geven aan bestaande termen. Denk bijvoorbeeld aan het woord ‘ happy ‘. Het heeft  veel synoniemen op basis van een standaard Engels thesaurus: cheerful, glad, joyful, merry, etc. Op het web kiezen gebruikers echter voor een breder scala van termen om hetzelfde concept te duiden: Cheerio, cherry-merry, Cheryl…, en de lijst evolueert nog steeds. Als we alle documenten willen vinden die betrekking hebben op een bepaald concept, is het niet voldoende te vertrouwen op een thesaurus. Daarom willen we algoritmes ontwikkelen die automatisch semantisch gerelateerde woorden kunnen onderscheiden van ruizige data zonder te vertrouwen op voorkennis of woordenboeken.

We starten bij het cross-idiomatisch linken van Web bronnen. Deze taak bestaat uit het verbinden van tekstuele inhoud uit verschillende domeinen, waar soortgelijke begrippen aan bod komen, waarbij het taalgebruik sterk verschilt. In het bijzonder richten we ons op het koppelen van sociale media berichten uit de populaire site Pinterest.com en e-commerce producten van Amazon.com. 

De taak wordt gedefinieerd in het kader van de informatie-ontsluiting, waar de pinnen (hier zijn pinnen meestal korte stukjes tekst die een Pinterest gebruiker online heeft gepost over iets waar hij/zij interesse in heeft) van Pinterest worden gebruikt als query's en Amazon producten vormen de doel collectie. We ontwikkelen nieuwe tekstuele voorstellingen op basis van de familie van latent Dirichlet allocation (LDA) modellen. Ons belangrijkste inzicht is dat we door gebruik te maken van paren van gealigneerde documenten presentaties krijgen die ons in staat stellen om de taal gebruikt in de queries en de doelcollectie te overbruggen.

Dit zijn presentaties die hetzelfde onderwerp met behulp van verschillende woorden bespreken. Ons voorgesteld multi-idiomatische latent Dirichlet allocation (Milda) model houdt expliciet rekening met de gedeelde onderwerp verdeling tussen bronnen, alsook het modelleren van zowel de verschillen en overeenkomsten in de taal. De eerste bijdragen van dit werk zijn de volgende: 1) we bouwden een nieuwe benchmark dataset samengesteld van pins van Pinterest, Amazon productomschrijvingen en de bijbehorende gebruikers reviews. Deze dataset gaat gepaard met annotaties van de relevantie van willekeurige pins voor Amazon producten. 2) zoals hierboven beschreven stelden we de nieuwe taak van cross-idiomatisch linken voor, de taak werd uitgevoerd en geëvalueerd . 3) We ontwikkelden voorstellingen voor cross-idiomatische modellering van ruizige tekstuele bronnen, zoals deze te vinden op het web. 4) We voerden een systematische empirische vergelijking uit om de prestaties van verschillende latente variabele modellen van cross-idiomatische bronnen te evalueren.

Naast de taal, is het begrijpen van beelden ook uitdagend. Mensen kunnen eenvoudig beelden in woorden vertalen en vice-versa, machines zijn hier niet erg bedreven in. De uitdaging is dat de rauwe representaties van afbeeldingen en teksten (zoals gewoonlijk in een computer zijn opgeslagen) niet hun eigenlijke betekenis onthullen; ze zijn gewoon een grote matrix van getallen.

Wij ontwikkelen voorstellingen die ons toelaten om semantisch beeld en taal met elkaar te verbinden. Dit doen we aan de hand van cross-modaal zoeken, dit wil zeggen, bij een gevraagd beeld, streven wij ernaar om woorden die de visuele inhoud (beeldannotatie) beschrijven op te halen, en bij een gegeven set van tekstuele beschrijvingen, streven wij ernaar om beelden te vinden die overeenkomen met dergelijke attributen (deels zoeken). In het bijzonder, voeren we deze taak uit binnen het modedomein.

Om dit te bereiken, benutten we de gelijkheid tussen de beelden en hun omringende teksten in natuurlijke taal, zoals te vinden op het web. Concreet onderzoeken we andere beeldrepresentaties zoals scale-invariant feature transform (SIFT) en convolutionel neural networks (CNN); verschillende tekstuele representaties zoals de bag of words (bow) en semantische woordinbeddingen; en verschillende latente variabele aligneerings modellen, zoals neural networks (NN),canonical correlation analysis (CCA) en tweetalige latente Dirichlet allocation (Bilda).

De tweede belangrijke bijdragen van dit werkzijn : 1) we bouwden een nieuwe benchmark dataset bestaande uit paren van beelden en ruizige tekstuele beschrijvingen in het modedomein, zoals te vinden op het web. 2) Wij hebben de nieuwe taak van het mode cross-modaal zoeken van modeartikelen gedefineerd en geëvalueerd . 3) We ontwikkelden representaties die de kloof tussen ruizige en heterogene multimodale inhoud overbruggen. 4) We voerden een systematische empirische vergelijking uit om de prestaties van verschillende latente variabele modellen voor het linken van cross-modaal bronnen in de modewereld te evalueren.    

Datum:1 nov 2012 →  22 dec 2016
Trefwoorden:social media, e-commerce, topic models
Disciplines:Toegepaste wiskunde, Computerarchitectuur en -netwerken, Distributed computing, Informatiewetenschappen, Informatiesystemen, Programmeertalen, Scientific computing, Theoretische informatica, Visual computing, Andere informatie- en computerwetenschappen
Project type:PhD project