Abstrakt: | Sekvenovaním DNA zvyčajne vzniká množstvo krátkych reťazcov.
Sekvenovacie dáta môžeme zosumarizovať vo forme histogramu počtov výskytov jednotlivých
podslov pevnej dĺžky. Takéto histogramy sa dajú použiť napríklad na odhadovanie dĺžky
genómu. V našej práci skúmame algoritmus Kmerlight, ktorý počíta spomínaný histogram približne.
Zistili sme, že Kmerlight počíta vychýlené odhady histogramov, no podarilo sa nám navrhnúť
novú verziu algoritmu Kmerlight, ktorej odhady sú už nevychýlené. V práci ďalej teoreticky
modelujeme pravdepodobnostné rozdelenie chýb odhadov histogramu a pomocou experimentov
sme overili správnosť nášho modelu. Na záver sme použili program CovEst
na výpočet odhadov dĺžok genómov z približných histogramov a preskúmali sme, ako
chyby v histogramoch ovplyvňujú presnosť týchto odhadov. Napriek tomu, že CovEst bol
navrhnutý na spracúvanie presných histogramov, naše výsledky ukazujú, že CovEst môže byť použitý
aj na približných histogramoch, ktorých výpočet si vyžaduje menšie množstvo pamäte.
|
---|