OPUS

Z Multimediaexpo.cz

Verze z 16. 7. 2013, 16:13; Sysop (diskuse | příspěvky)

(rozdíl) ← Starší verze | zobrazit aktuální verzi (rozdíl) | Novější verze → (rozdíl)

OPUS (Open Source Parallel Corpus) je projekt, zabývající se zpracováním vícejazyčných textů za účelem získání dat, která lze následně využít například při rozšiřování slovníků či strojovém překladu.

Náplň projektu

K samotnému zpracování dochází výhradně strojově, za použití několika open source nástrojů. OPUS sám o sobě je balík pod licencí open source. Při zpracování v podstatě dochází především k přiřazení odpovídajících si vět v různých jazycích k sobě. Podle povahy dokumentů je tak získáno velké množství dat, ve kterých je několik vět mezi stejnými jazyky překládáno často mnoha způsoby, nezřídka je vyhodnocována i situace, kdy je jediná věta v jednom jazyce přeložena několika větami jazyka druhého. K dosažení kýženého výsledku je využíváno různých heuristik, v závislosti mimo jiné i na povaze zpracovávaných dokumentů. Lingvisté vzorky výsledků ohodnotili ve valné většině správností přesahující 80%, často je výsledek i 100%, a to dokonce i při srovnávání jazyků, jako jsou bulharština a holandština.^[zdroj ?]

Příklady již zpracovaných dat

Součástí projektu se stalo zpracování několika zdrojů dokumentů, dostupných ve více jazycích. Výsledky zpracování, jakož i mnoho dalších informací a dokumentů, jsou dostupné na serveru projektu. Například při zpracování databáze filmových titulků, poskytnuté serverem opensubtitles.org, bylo získáno 361 souborů, obsahujících dvojjazyčné zarovnané texty. Zpracovávané texty byly ve 30 různých jazycích a celkem bylo zpracováno 20400 filmových titulků, obsahujících 22268624 větných fragmentů.

Externí odkazy

Domovská stránka projektu

Náklady na energie a provoz naší encyklopedie prudce vzrostly. Potřebujeme vaši podporu... Kolik ?? To je na Vás. Náš FIO účet — 2500575897 / 2010
Informace o článku. Článek je převzat z Wikipedie, otevřené encyklopedie, do které přispívají dobrovolníci z celého světa. Tento text je dostupný za podmínek Creative Commons 3.0 Unported – creativecommons.org. Originální článek na české Wikipedii