Český národní korpus

Podrobné informace

Český národní korpus byl založen roku 1994 jazykovědcem a lexikografem Františkem Čermákem. Vytváří a spravuje jej Ústav Českého národního korpusu na Filozofické fakultě Univerzity Karlovy ve spolupráci s Matematicko-fyzikální fakultou či brněnskou Masarykovou univerzitou. První jazykový korpus na světě vznikl pro angličtinu na Brownově univerzitě v USA v 60. letech 20. století – u jeho zrodu navíc stál Čech Henry (Jindřich) Kučera, který z Československa emigroval po roce 1948. Postupně začaly vznikat korpusy i pro další jazyky a většina evropských jazyků dnes svůj jazykový korpus k dispozici má.

Český národní korpus patří v mezinárodním srovnání mezi špičku – co do objemu a rozmanitosti dat je nejbohatší ze všech slovanských jazyků a v obecném měřítku jej překonává zřejmě jen korpus německý. Český korpus obsahuje více než 3,6 miliardy slov českých a 1,5 miliardy jinojazyčných v kontrastu s češtinou. Jednotlivé korpusy jsou uzpůsobené k vyhledávání jak samostatných slov, tak i dílčích jazykových kategorií za pomoci regulárních výrazů, jimiž lze zadat kritéria pro různé slovní druhy či jiné formální znaky hledaných slov a slovních spojení. Jednotlivé korpusy totiž obsahují metadata o druhu zdrojového textu a jazykové značky pro různé kategorie. Jsou uzavřené, a tedy referenční, a umožňují tím replikovatelnost výzkumů. Na rozdíl od příruček ukazují jazykové jevy nikoli normativně, ale v autentickém kontextu – tak, jak byly v reálných textech skutečně užity, což poskytuje adekvátní představu o stavu jazyka. Kromě obecných jednojazyčných korpusů lze vyhledávat též v řadě specializovaných: korpusy mluveného jazyka, diachronní či autorské, dále např. korpusy nerodilých mluvčích češtiny či paralelní korpusy obsahující cizojazyčné a české verze téhož textu.

Český národní korpus nabízí široké využití pro jazykové profesionály od vědců přes překladatele a redaktory po novináře a učitele češtiny i cizích jazyků. Na jeho základě vznikají moderní mluvnice i slovníky, např. Mluvnice současné češtiny Václava Cvrčka či Akademický slovník současné češtiny Ústavu pro jazyk český Akademie věd České republiky.

Použité zdroje

CVRČEK, Václav a kol. Mluvnice současné češtiny. 1, Jak se píše a jak se mluví. Vydání druhé. V Praze: Univerzita Karlova, nakladatelství Karolinum, 2015. 416 stran. ISBN 978-80-246-2812-7.
Akademický slovník současné češtiny [online]. Akademický slovník současné češtiny: ©2012-2020 [cit. 28.8.2020]. Dostupné z: http://www.slovnikcestiny.cz/.
CVRČEK, Václav. Český národní korpus. In: czechency.org [online]. 1. 8. 2020 [cit. 28.8.2020]. Dostupné z: https://www.czechency.org/slovnik/%C4%8CESK%C3%9D%20N%C3%81RODN%C3%8D%20KORPUS.
Česká televize. Studio ČT 24 [online]. 18. 9. 2014 [cit. 28.8.2020]. Dostupné z: https://www.ceskatelevize.cz/ivysilani/10101491767-studio-ct24/214411058310918/dalsi-casti/.
DUFKA, Tomáš. Obří databáze českých textů oslavila 25. narozeniny. Český národní korpus si můžete sami vyzkoušet. In: rozhlas.cz [online]. 1. 10. 2019 [cit. 28.8.2020]. Dostupné z: https://vltava.rozhlas.cz/obri-databaze-ceskych-textu-oslavila-25-narozeniny-cesky-narodni-korpus-si-8080793.
MELICHAR, Martin. V českém jazykovém korpusu najdete víc textů než na internetu. In: rozhlas.cz [online]. 9. 9. 2014 [cit. 28.8.2020]. Dostupné z: https://wave.rozhlas.cz/v-ceskem-jazykovem-korpusu-najdete-vic-textu-nez-na-internetu-5211516.
RICHTEROVÁ, Olga. V paralelních korpusech leží budoucnost srovnávací jazykovědy. In: ikaros.cz [online]. 2013, ročník 17, číslo 9 [cit. den-měsíc-rok]. urn:nbn:cz:ik-14131. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/14131.
SCHMIEDTOVÁ, Věra. Český národní korpus. In: ikaros.cz [online]. 1999, ročník 3, číslo 5 [cit. 28.8.2020]. urn:nbn:cz:ik-10341. ISSN 1212-5075. Dostupné z: http://ikaros.cz/node/10341.
Ústav českého národního korpusu [online]. FFUK: ©2015 [cit. 28.8.2020]. Dostupné z: https://ucnk.ff.cuni.cz/.
Wikipedie: Otevřená encyklopedie: Jindřich Kučera (lingvista) [online]. ©2020 [cit. 28.8.2020]. Dostupné z: https://cs.wikipedia.org/wiki/Jind%C5%99ich_Ku%C4%8Dera_(lingvista).

Český národní korpus

Nařízení EU o ochraně osobních údajů