Korpus: Porovnání verzí

Aktuální verze z 20. 2. 2012, 11:37

Autor: Petr Fiala

Klíčová slova: Korpus, lingvistika

Synonyma: jazykový korpus

Související pojmy:

nadřazené - Korpusová lingvistika

podřazené - ---

Charakteristika

Obecně se slovo korpus používá ve významu tělo, těleso nebo soubor. V lingvistice je tímto termínem myšlen jazykový korpus.

Jazykový korpus je rozsáhlý, vnitřně strukturovaný a ucelený soubor textů daného jazyka, který je elektronicky zpracovávaný a uložený. Je to soubor elektronických textů, cíleně shromážděný jako referenční zdroj pro vědecké studium jazyka a pro zpracování užitných jazykových nástrojů, který je v jednotném formátu, je lingvisticky označkovaný a který lze z hlediska skladby považovat za jistým způsobem vyvážený. Slouží jako zdroj materiálu nejen lingvistům, ale i širokému spektru zájemců z jiných oborů k mnohostrannému poznání jazyka, zákonitostí lidského myšlení a kultury.[1][2]

Dnes vytvářené korpusy jsou organizovány se zřetelem ke zvolenému cíli (pro potřeby lexikografů, sociologů, komunikačních odborníků) a vycházejí z následujících teoretických předpokladů:

Jazyková data jsou v korpusu uložena ve své přirozené textové podobě (proto je lze všestranně a opakovaně zkoumat a vyvozovat z nich příslušné teoretické generalizace).
Velký rozsah dat v korpusu minimalizuje nebezpečí, že by mohlo dojít (i náhodou) k převaze okrajových jevů nad základními a typickými.
Velký rozsah dat je podmínkou dostatečné reprezentativnosti.[1]

Historie

Přestože se jedná o relativně nové lingvistické odvětví, pojem korpus existoval již před 2. světovou válkou (byl však manuální a mnohonásobně menší). V 50. letech minulého století někteří američtí lingvisté (Hartus, Hill) dospěli k názoru, že korpus – dostatečně velký soubor přirozeně se vyskytujících jazykových dat – je nutným a dostačujícím empirickým základem pro vytvoření popisu daného přirozeného jazyka (jeho gramatiky). Počátkem 60. let minulého století začala vznikat korpusová lingvistika. Ve stejné době začal na Brown University v USA pod vedením H. Kučery a N. Francise vznikat první počítačový korpus současné americké angličtiny – Computational Analysis of Present-Day American English. Od té doby rozsah i počet korpusů roste a korpusová lingvistika dnes, především díky rozvoji informatiky, jen vzkvétá.[3]

Jak se budují korpusy?

Zdrojem korpusových dat je jak jazyk psaný, tak i mluvený. Dosavadní korpusy bývají v poměru 9:1, protože záznam mluveného jazyka a jeho převod do počítačově čitelné podoby je zatím velmi nákladný. Z psaných textů se data získávají prakticky třemi způsoby:

konverzí,
použitím technik OCR,
manuálním opisem textů do počítače.

Ve všech případech je nutná kontrola, opravy chyb a v neposlední řadě se tvůrci korpusů musí vyrovnávat i s právními aspekty (autorská práva).[1]

Typy korpusů

Nejzákladnější dělení je na korpusy psaného nebo mluveného jazyka. Dále existují korpusy:

synchronní (reprezentace jazyka v určitém krátkém období, např. jen od r. 1987)
diachronní (rozsáhlejší období, různé vývojové fáze)

všeobecné
specializované (na styl – publicistický, odborný; obor, geografickou oblast (nářečí)…)

jednojazyčný
vícejazyčný (paralelní)

neznačkovaný
značkovaný (tagovaný, anotovaný – přidány metainformace, např. logická struktura textu, typografický vzhled, jazykové jevy atd.)

I samotné uložení korpusů může mít různou podobu – od archivů (kolekcí), přes organizovanější korpusové banky po použití korpusového manažeru, který texty zakóduje do databáze a zároveň umožňuje prohlížení korpusu.[1][3]

Odkazy

Český národní korpus

British National Corpus

Brown Corpus manual

Použitá literatura

PALA, Karel. Počítačové zpracování přirozeného jazyka [online]. Brno : Fakulta Informatiky Masarykovy university, 2000 [cit. 2011-12-03]. Dostupné z WWW: <http://nlp.fi.muni.cz/poc_lingv/pala_zprac.pdf>.
ŠULC, Michal. Korpusová lingvistika : První vstup. 1. vyd. Praha : Karolinum, 1999. 94 s. ISBN 80-7184-847-6.
OPÁLKOVÁ, Markéta. Jazykové korpusy. Ikaros [online]. 2008, roč. 12, č. 1, [cit. 2011-12-03]. Dostupný z WWW: <http://www.ikaros.cz/jazykove-korpusy>. ISSN 1212-5075.

Neregistrovaný

Hledat

Korpus: Porovnání verzí

Jmenné prostory

Více

Možnosti stránky

Aktuální verze z 20. 2. 2012, 11:37

Obsah

Charakteristika

Historie

Jak se budují korpusy?

Typy korpusů

Odkazy

Použitá literatura

Navigace

Navigace

Pracovní prostory

Wiki nástroje

Wiki nástroje

Verze z 3. 12. 2011, 19:18 (zobrazit zdroj) 72897 (diskuse \| příspěvky) ← Porovnání se starší verzí	Aktuální verze z 20. 2. 2012, 11:37 (zobrazit zdroj) Michal Klajban (diskuse \| příspěvky) m (5 revizí: IMPORT J-K: import stránek z hlavního jmenného prostoru z KiskWiki (http://kisk.phil.muni.cz/))
(Žádný rozdíl)

Neregistrovaný

Hledat

Korpus: Porovnání verzí

Aktuální verze z 20. 2. 2012, 11:37

Charakteristika

Historie

Jak se budují korpusy?

Typy korpusů

Odkazy

Použitá literatura

Navigace

Wiki nástroje

Nástroje ke stránkám