Meno:Ján
Priezvisko:Michalička
Názov:Štatistický strojový preklad veľmi blízkych jazykov (slovenčina - čeština)
Vedúci:Mgr. Ján Habdák
Rok:2005
Blok:UI
Kľúčové slová:statistical machine translation of very close languages
Abstrakt:V minulých rokoch sa kládol veľký dôraz na prekladové štúdie a korpusovo založené prekladové systémy používajúce Štatistický Strojový Preklad (SMT). Základná idea tohoto princípu spočíva vo využití dát jedného jazyka ako aj popárovaných preložených dát (bitextov) na automatické natrénovanie prekladového modelu a jazykového modelu, ktorý môže byť využitý na vývoj dekodéra, ktorý vykonáva samotný preklad. Strojový preklad medzi rôznorodými jazykmi naráža na mnohé problémy, ktoré súvisia najmä so štruktúrou jazyka a jeho komplexnosťou. Úspešný automatický strojový preklad vyžaduje aplikáciu techník z rôznych oblastí výpočtovej lingvistiky (morfológiu, syntax, sémantiku, analýzu reči, atď.) ako nutnú, ale nie postačujúcu podmienku. Hlavnou myšlienkou je, že je jednoduchšie vytvoriť MT systém pre dvojicu príbuzných jazykov, nakoľko toto umožní redukciu komplexnosti a tým aj zvyšuje dosiahnuteľnú úspešnosť. Z existujúcich riešení automatického strojového prekladu sú na trhu dostupné najmä technológie prekladu medzi príbuznými jazykmi ako angličtina, nemčina, francúzština, španielčina... ktoré majú isté spoločné charakteristiky a to napr. pevný slovosled a absencia ohýbania. V tejto práci si ukážeme ako je to so strojovým prekladom veľmi príbuzných jazykov (obsahujúcich vysoký stupeň ohybnosti – čeština a slovenčina) a porovnáme úspešnosť použitia viacerých existujúcich prístupov ako aj nového slovníkovo-štatistického prístupu vytvoreného za účelom tejto práce. Taktiež sa pokúsime vyriešiť problém zaobchádzania so slovami, ktoré nevieme preložiť podľa slovníka prekladových párov a to metódou nahradenia vhodným slovom podľa jazykového modelu.

Súbory diplomovej práce:

vocatrans.pdf
VocaTrans.zip