Jazyk: CZ | Simple Czech | EN | RU
Český národní korpus

Český národní korpus

Rozsáhlá databáze autentických českých textů, ve které je díky speciálnímu softwaru možné zkoumat reálně užívanou češtinu. Český korpus je ve srovnání se zahraničními na vynikající úrovni objemem textů i jejich jazykovědným zpracováním.


Autor: Josef Mirovský.
Podrobné informace

Český národní korpus byl založen roku 1994 jazykovědcem a lexikografem Františkem Čermákem. Vytváří a spravuje jej Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy ve spolupráci s Matematicko-fyzikální fakultou či brněnskou Masarykovou univerzitou. První jazykový korpus na světě vznikl pro angličtinu na Brownově univerzitě v USA v 60. letech 20. století – u jeho zrodu navíc stál Čech Henry (Jindřich) Kučera, který z Československa emigroval po roce 1948. Postupně začaly vznikat korpusy i pro další jazyky a většina evropských jazyků dnes svůj jazykový korpus k dispozici má.

Český národní korpus patří v mezinárodním srovnání mezi špičku – co do objemu a rozmanitosti dat je nejbohatší ze všech slovanských jazyků a v obecném měřítku jej překonává zřejmě jen korpus německý. Český korpus obsahuje více než 3,6 miliardy slov českých a 1,5 miliardy jinojazyčných v kontrastu s češtinou. Jednotlivé korpusy jsou uzpůsobené k vyhledávání jak samostatných slov, tak i dílčích jazykových kategorií za pomoci regulárních výrazů, jimiž lze zadat kritéria pro různé slovní druhy či jiné formální znaky hledaných slov a slovních spojení. Jednotlivé korpusy totiž obsahují metadata o druhu zdrojového textu a jazykové značky pro různé kategorie. Jsou uzavřené, a tedy referenční, a umožňují tím replikovatelnost výzkumů. Na rozdíl od příruček ukazují jazykové jevy nikoli normativně, ale v autentickém kontextu – tak, jak byly v reálných textech skutečně užity, což poskytuje adekvátní představu o stavu jazyka. Kromě obecných jednojazyčných korpusů lze vyhledávat též v řadě specializovaných: korpusy mluveného jazyka, diachronní či autorské, dále např. korpusy nerodilých mluvčích češtiny či paralelní korpusy obsahující cizojazyčné a české verze téhož textu.

Český národní korpus nabízí široké využití pro jazykové profesionály od vědců přes překladatele a redaktory po novináře a učitele češtiny i cizích jazyků. Na jeho základě vznikají moderní mluvnice i slovníky, např. Mluvnice současné češtiny Václava Cvrčka či Akademický slovník současné češtiny Ústavu pro jazyk český Akademie věd České republiky.

Použité zdroje
CVRČEK, Václav a kol. Mluvnice současné češtiny. 1, Jak se píše a jak se mluví. Vydání druhé. V Praze: Univerzita Karlova, nakladatelství Karolinum, 2015. 416 stran. ISBN 978-80-246-2812-7.
Akademický slovník současné češtiny [online]. Akademický slovník současné češtiny: ©2012-2020 [cit. 28.8.2020]. Dostupné z: http://www.slovnikcestiny.cz/.
CVRČEK, Václav. Český národní korpus. In: czechency.org [online]. 1. 8. 2020 [cit. 28.8.2020]. Dostupné z: https://www.czechency.org/slovnik/%C4%8CESK%C3%9D%20N%C3%81RODN%C3%8D%20KORPUS.
Česká televize. Studio ČT 24 [online]. 18. 9. 2014 [cit. 28.8.2020]. Dostupné z: https://www.ceskatelevize.cz/ivysilani/10101491767-studio-ct24/214411058310918/dalsi-casti/.
DUFKA, Tomáš. Obří databáze českých textů oslavila 25. narozeniny. Český národní korpus si můžete sami vyzkoušet. In: rozhlas.cz [online]. 1. 10. 2019 [cit. 28.8.2020]. Dostupné z: https://vltava.rozhlas.cz/obri-databaze-ceskych-textu-oslavila-25-narozeniny-cesky-narodni-korpus-si-8080793.
MELICHAR, Martin. V českém jazykovém korpusu najdete víc textů než na internetu. In: rozhlas.cz [online]. 9. 9. 2014 [cit. 28.8.2020]. Dostupné z: https://wave.rozhlas.cz/v-ceskem-jazykovem-korpusu-najdete-vic-textu-nez-na-internetu-5211516.
RICHTEROVÁ, Olga. V paralelních korpusech leží budoucnost srovnávací jazykovědy. In: ikaros.cz [online]. 2013, ročník 17, číslo 9 [cit. den-měsíc-rok]. urn:nbn:cz:ik-14131. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/14131.
SCHMIEDTOVÁ, Věra. Český národní korpus. In: ikaros.cz [online]. 1999, ročník 3, číslo 5 [cit. 28.8.2020]. urn:nbn:cz:ik-10341. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/10341.
Ústav českého národního korpusu [online]. FFUK: ©2015 [cit. 28.8.2020]. Dostupné z: https://ucnk.ff.cuni.cz/.
Wikipedie: Otevřená encyklopedie: Jindřich Kučera (lingvista) [online]. ©2020 [cit. 28.8.2020]. Dostupné z: https://cs.wikipedia.org/wiki/Jind%C5%99ich_Ku%C4%8Dera_(lingvista).

2016-2020 ABCzech.cz - © Filozofická fakulta Univerzity Karlovy

Materiály dostupné na této platformě lze bez výslovného souhlasu užívat výhradně pro vlastní a nekomerční účely s řádným uvedením zdroje. Jakékoli jiné použití je povoleno pouze se souhlasem autorů.

Nařízení EU o ochraně osobních údajů

Tato webová aplikace Sonic.cgi splňuje požadavky pro GDPR. Aktuální informace naleznete zde.