Katedra informatiky - Detaily bakalárskej práce

Meno:	Mário
Priezvisko:	Lipovský
Názov:	Approximate Abundance Histograms and Their Use for Genome Size Estimation
Vedúci:	Mgr. Bronislava Brejová, PhD.
Rok:	2017
Kľúčové slová:	histogram počtov k-tic, Kmerlight, odhad dĺžky genómu, CovEst
Abstrakt:	Sekvenovaním DNA zvyčajne vzniká množstvo krátkych reťazcov. Sekvenovacie dáta môžeme zosumarizovať vo forme histogramu počtov výskytov jednotlivých podslov pevnej dĺžky. Takéto histogramy sa dajú použiť napríklad na odhadovanie dĺžky genómu. V našej práci skúmame algoritmus Kmerlight, ktorý počíta spomínaný histogram približne. Zistili sme, že Kmerlight počíta vychýlené odhady histogramov, no podarilo sa nám navrhnúť novú verziu algoritmu Kmerlight, ktorej odhady sú už nevychýlené. V práci ďalej teoreticky modelujeme pravdepodobnostné rozdelenie chýb odhadov histogramu a pomocou experimentov sme overili správnosť nášho modelu. Na záver sme použili program CovEst na výpočet odhadov dĺžok genómov z približných histogramov a preskúmali sme, ako chyby v histogramoch ovplyvňujú presnosť týchto odhadov. Napriek tomu, že CovEst bol navrhnutý na spracúvanie presných histogramov, naše výsledky ukazujú, že CovEst môže byť použitý aj na približných histogramoch, ktorých výpočet si vyžaduje menšie množstvo pamäte.

Súbory bakalárskej práce:

bc-mario-lipovsky.pdf