< Terug naar vorige pagina

Project

Zoekschema's voor sequentiealignering op pan-genoomgrafen.

Pan-genomica is een vlug evoluerend veld vanwege het snel toenemende aantal gesequeneerde genomen van individuen. Gezien de brede toepasbaarheid van pan-genoomdatastructuren en functionaliteit, zullen we schaalbare, op grafen gebaseerde pan-genoomrepresentaties ontwikkelen, evenals algoritmen die efficiënte zoekfunctionaliteit mogelijk maken. De belangrijkste innovatieve factor voor de zoekfunctionaliteit is de detectie van niet-aaneengesloten overeenkomsten van sequenties tegen het pan-genoom. Door sprongen binnen de pan-genoomgraaf toe te staan bij het aligneren van een sequentie, kunnen onze algoritmen de oorsprong van een nieuw gesequeneerde soort afleiden als een mozaïeksamenstelling van meerdere, verwante soorten. Een tweede doel voor de zoekfunctionaliteit is compatibiliteit met lange sequenties met veel fouten (Pacific Biosciences of Oxford Nanopore Technologies, met foutpercentages tot 15%) naast korte sequenties met weinig fouten (Illumina). Hiervoor zullen we nieuwe algoritmen voor seed-identificatie ontwikkelen om het seed-and-extend-paradigma te verbeteren. In het bijzonder zullen we representaties van pan-genoomgrafen bestuderen op basis van de Burrows-Wheelertransformatie (BWT), aangezien ze weinig geheugen vereisen en verliesloze sequentiealignering ondersteunen vanwege recente algoritmische ontwikkelingen op bidirectionele BWT-gebaseerde indexen en zoekschema’s. Zoekschema’s zullen worden gebruikt voor seed-identificatie.

Datum:1 nov 2021 →  Heden
Trefwoorden:pan-genomica, Benaderende sequentiealignering, aligneren van sequenties tegen grafen, bio-informatica
Disciplines:Ontwikkeling van bio-informatica software, tools en databases, Bio-informatica, High performance computing, Analyse van next-generation sequence data