Jazykový korpus
Jazykový korpus je soubor textů daného jazyka. Je to vnitřně strukturovaný, unifikovaný a obvykle indexovaný rozsáhlý soubor elektroniky uložených jazykových dat. Většinou je uložen v textové podobě a zorganizován vhodně vzhledem k jeho účelu. Korpus může sloužit na jedné straně pro lingvistický výzkum jazykové praxe, anebo také jako datový základ pro tvorbu slovníků či překladačů. Tvorbou těchto jazykových korpusů se zabývá obor korpusová lingvistika. V současné době mají jazykové korpusy elektronickou podobu, což velmi usnadňuje jejich zpracování. Různé programy mohou vyhledávat slova či slovní spojení, frekvence výskytu nebo také původní zdroje určitých částí.
Jazykové korpusy slouží především jako lexikologický a lexikografický nástroj a mohou sloužit ke zpracování výkladových slovníků a automatických korektorů a překladačů. Kromě tohoto využití jsou jazykové korpusy užívány také redaktory, překladateli, učiteli a studenty cizích jazyků.
Druhy korpusů
Referenční korpus – stálý, dotazy dávají vždy stejné výsledky
Nereferenční korpus – průběžně jednou ročně aktualizován
Synchronní korpusy – korpus současného jazyka, který je budován jako reprezentativní otisk jazyka v určitém krátkém časovém období, během něhož je jazyk považován za neměnný systém
Diachronní korpusy – zaznamenávají jazyk v různých vývojových fázích, obsahuje tedy data za delší časové období
Tvorbou korpusů českého jazyka se v České republice zabývá Ústav Českého národního korpusu. Lze zmínit některé hlavní korpusy – Korpusy řady SYN, Korpus soukromé korespondence, Pražský mluvený korpus, Brněnský mluvený korpus, řada ORAL a další.