Jazykový korpus


Jazykový korpus je soubor textů daného jazyka. Je to vnitřně strukturovaný, unifikovaný a obvykle indexovaný rozsáhlý soubor elektroniky uložených jazykových dat. Většinou je uložen v textové podobě a zorganizován vhodně vzhledem k jeho účelu. Korpus může sloužit na jedné straně pro lingvistický výzkum jazykové praxe, anebo také jako datový základ pro tvorbu slovníků či překladačů. Tvorbou těchto jazykových korpusů se zabývá obor korpusová lingvistika. V současné době mají jazykové korpusy elektronickou podobu, což velmi usnadňuje jejich zpracování. Různé programy mohou vyhledávat slova či slovní spojení, frekvence výskytu nebo také původní zdroje určitých částí.

Jazykové korpusy slouží především jako lexikologický a lexikografický nástroj a mohou sloužit ke zpracování výkladových slovníků a automatických korektorů a překladačů. Kromě tohoto využití jsou jazykové korpusy užívány také redaktory, překladateli, učiteli a studenty cizích jazyků.

Druhy korpusů

Referenční korpus – stálý, dotazy dávají vždy stejné výsledky

Nereferenční korpus – průběžně jednou ročně aktualizován

Synchronní korpusy – korpus současného jazyka, který je budován jako reprezentativní otisk jazyka v určitém krátkém časovém období, během něhož je jazyk považován za neměnný systém

Diachronní korpusy – zaznamenávají jazyk v různých vývojových fázích, obsahuje tedy data za delší časové období

Tvorbou korpusů českého jazyka se v České republice zabývá Ústav Českého národního korpusu. Lze zmínit některé hlavní korpusy – Korpusy řady SYN, Korpus soukromé korespondence, Pražský mluvený korpus, Brněnský mluvený korpus, řada ORAL a další.