Korpus: Porovnání verzí
(Založena nová stránka: '''Autor:''' Petr Fiala '''Klíčová slova:''' Korpus, lingvistika '''Synonyma:''' jazykový korpus '''Související pojmy:''' <blockquote> ''nadřazené'' - Korpusov...) |
|||
| Řádek 11: | Řádek 11: | ||
<blockquote> | <blockquote> | ||
''podřazené'' - ---</blockquote> | ''podřazené'' - ---</blockquote> | ||
| + | |||
| + | |||
| + | == Charakteristika == | ||
| + | Obecně se slovo korpus používá ve významu tělo, těleso nebo soubor. V lingvistice je tímto termínem myšlen '''jazykový korpus'''. | ||
| + | |||
| + | Jazykový korpus je rozsáhlý, vnitřně strukturovaný a ucelený soubor textů daného jazyka, který je elektronicky zpracovávaný a uložený. Je to soubor elektronických textů, cíleně shromážděný jako referenční zdroj pro vědecké studium jazyka a pro zpracování užitných jazykových nástrojů, který je v jednotném formátu, je lingvisticky označkovaný a který lze z hlediska skladby považovat za jistým způsobem vyvážený. Slouží jako zdroj materiálu nejen lingvistům, ale i širokému spektru zájemců z jiných oborů k mnohostrannému poznání jazyka, zákonitostí lidského myšlení a kultury.[[#Použitá literatura|[1]]][[#Použitá literatura|[2]]] | ||
| + | |||
| + | Dnes vytvářené korpusy jsou organizovány se zřetelem ke zvolenému cíli (pro potřeby lexikografů, sociologů, komunikačních odborníků) a vycházejí z následujících teoretických předpokladů: | ||
| + | * Jazyková data jsou v korpusu uložena ve své '''přirozené''' textové podobě (proto je lze všestranně a opakovaně zkoumat a vyvozovat z nich příslušné teoretické generalizace). | ||
| + | * '''Velký rozsah dat''' v korpusu minimalizuje nebezpečí, že by mohlo dojít (i náhodou) k převaze okrajových jevů nad základními a typickými. | ||
| + | * Velký rozsah dat je podmínkou dostatečné '''reprezentativnosti'''.[[#Použitá literatura|[1]]] | ||
| + | |||
| + | == Historie == | ||
| + | Přestože se jedná o relativně nové lingvistické odvětví, pojem korpus existoval již před 2. světovou válkou (byl však manuální a mnohonásobně menší). V 50. letech minulého století někteří američtí lingvisté (Hartus, Hill) dospěli k názoru, že ''korpus – dostatečně velký soubor přirozeně se vyskytujících jazykových dat'' – je nutným a dostačujícím empirickým základem pro vytvoření popisu daného přirozeného jazyka (jeho gramatiky). Počátkem 60. let minulého století začala vznikat korpusová lingvistika. Ve stejné době začal na Brown University v USA pod vedením H. Kučery a N. Francise vznikat první počítačový korpus současné americké angličtiny – ''Computational Analysis of Present-Day American English''. Od té doby rozsah i počet korpusů roste a korpusová lingvistika dnes, především díky rozvoji informatiky, jen vzkvétá.[[#Použitá literatura|[3]]] | ||
| + | |||
| + | == Jak se budují korpusy? == | ||
| + | Zdrojem korpusových dat je jak '''jazyk psaný''', tak i '''mluvený'''. Dosavadní korpusy bývají v poměru 9:1, protože záznam mluveného jazyka a jeho převod do počítačově čitelné podoby je zatím velmi nákladný. Z psaných textů se data získávají prakticky třemi způsoby: | ||
| + | * konverzí, | ||
| + | * použitím technik OCR, | ||
| + | * manuálním opisem textů do počítače. | ||
| + | Ve všech případech je nutná kontrola, opravy chyb a v neposlední řadě se tvůrci korpusů musí vyrovnávat i s právními aspekty (autorská práva).[[#Použitá literatura|[1]]] | ||
| + | |||
| + | == Typy korpusů == | ||
| + | Nejzákladnější dělení je na korpusy psaného nebo mluveného jazyka. Dále existují korpusy: | ||
| + | * synchronní (reprezentace jazyka v určitém krátkém období, např. jen od r. 1987) | ||
| + | * diachronní (rozsáhlejší období, různé vývojové fáze) | ||
| + | |||
| + | * všeobecné | ||
| + | * specializované (na styl – publicistický, odborný; obor, geografickou oblast (nářečí)…) | ||
| + | |||
| + | * jednojazyčný | ||
| + | * vícejazyčný (paralelní) | ||
| + | |||
| + | * neznačkovaný | ||
| + | * značkovaný (tagovaný, anotovaný – přidány metainformace, např. logická struktura textu, typografický vzhled, jazykové jevy atd.) | ||
| + | |||
| + | I samotné uložení korpusů může mít různou podobu – od '''archivů (kolekcí)''', přes organizovanější '''korpusové banky''' po použití '''korpusového manažeru''', který texty zakóduje do databáze a zároveň umožňuje prohlížení korpusu.[[#Použitá literatura|[1]]][[#Použitá literatura|[3]]] | ||
| + | |||
| + | == Odkazy == | ||
| + | [http://www.korpus.cz Český národní korpus] | ||
| + | [http://www.natcorp.ox.ac.uk British National Corpus] | ||
| + | [http://khnt.aksis.uib.no/icame/manuals/brown Brown Corpus manual] | ||
| + | |||
| + | == Použitá literatura == | ||
| + | # PALA, Karel. ''Počítačové zpracování přirozeného jazyka'' [online]. Brno : Fakulta Informatiky Masarykovy university, 2000 [cit. 2011-12-03]. Dostupné z WWW: <[http://nlp.fi.muni.cz/poc_lingv/pala_zprac.pdf http://nlp.fi.muni.cz/poc_lingv/pala_zprac.pdf]>. | ||
| + | # ŠULC, Michal. ''Korpusová lingvistika : První vstup''. 1. vyd. Praha : Karolinum, 1999. 94 s. ISBN 80-7184-847-6. | ||
| + | # OPÁLKOVÁ, Markéta. Jazykové korpusy. ''Ikaros'' [online]. 2008, roč. 12, č. 1, [cit. 2011-12-03]. Dostupný z WWW: <[http://www.ikaros.cz/jazykove-korpusy http://www.ikaros.cz/jazykove-korpusy]>. ISSN 1212-5075. | ||
Verze z 3. 12. 2011, 19:09
Autor: Petr Fiala
Klíčová slova: Korpus, lingvistika
Synonyma: jazykový korpus
Související pojmy:
nadřazené - Korpusová lingvistika
podřazené - ---
Charakteristika
Obecně se slovo korpus používá ve významu tělo, těleso nebo soubor. V lingvistice je tímto termínem myšlen jazykový korpus.
Jazykový korpus je rozsáhlý, vnitřně strukturovaný a ucelený soubor textů daného jazyka, který je elektronicky zpracovávaný a uložený. Je to soubor elektronických textů, cíleně shromážděný jako referenční zdroj pro vědecké studium jazyka a pro zpracování užitných jazykových nástrojů, který je v jednotném formátu, je lingvisticky označkovaný a který lze z hlediska skladby považovat za jistým způsobem vyvážený. Slouží jako zdroj materiálu nejen lingvistům, ale i širokému spektru zájemců z jiných oborů k mnohostrannému poznání jazyka, zákonitostí lidského myšlení a kultury.[1][2]
Dnes vytvářené korpusy jsou organizovány se zřetelem ke zvolenému cíli (pro potřeby lexikografů, sociologů, komunikačních odborníků) a vycházejí z následujících teoretických předpokladů:
- Jazyková data jsou v korpusu uložena ve své přirozené textové podobě (proto je lze všestranně a opakovaně zkoumat a vyvozovat z nich příslušné teoretické generalizace).
- Velký rozsah dat v korpusu minimalizuje nebezpečí, že by mohlo dojít (i náhodou) k převaze okrajových jevů nad základními a typickými.
- Velký rozsah dat je podmínkou dostatečné reprezentativnosti.[1]
Historie
Přestože se jedná o relativně nové lingvistické odvětví, pojem korpus existoval již před 2. světovou válkou (byl však manuální a mnohonásobně menší). V 50. letech minulého století někteří američtí lingvisté (Hartus, Hill) dospěli k názoru, že korpus – dostatečně velký soubor přirozeně se vyskytujících jazykových dat – je nutným a dostačujícím empirickým základem pro vytvoření popisu daného přirozeného jazyka (jeho gramatiky). Počátkem 60. let minulého století začala vznikat korpusová lingvistika. Ve stejné době začal na Brown University v USA pod vedením H. Kučery a N. Francise vznikat první počítačový korpus současné americké angličtiny – Computational Analysis of Present-Day American English. Od té doby rozsah i počet korpusů roste a korpusová lingvistika dnes, především díky rozvoji informatiky, jen vzkvétá.[3]
Jak se budují korpusy?
Zdrojem korpusových dat je jak jazyk psaný, tak i mluvený. Dosavadní korpusy bývají v poměru 9:1, protože záznam mluveného jazyka a jeho převod do počítačově čitelné podoby je zatím velmi nákladný. Z psaných textů se data získávají prakticky třemi způsoby:
- konverzí,
- použitím technik OCR,
- manuálním opisem textů do počítače.
Ve všech případech je nutná kontrola, opravy chyb a v neposlední řadě se tvůrci korpusů musí vyrovnávat i s právními aspekty (autorská práva).[1]
Typy korpusů
Nejzákladnější dělení je na korpusy psaného nebo mluveného jazyka. Dále existují korpusy:
- synchronní (reprezentace jazyka v určitém krátkém období, např. jen od r. 1987)
- diachronní (rozsáhlejší období, různé vývojové fáze)
- všeobecné
- specializované (na styl – publicistický, odborný; obor, geografickou oblast (nářečí)…)
- jednojazyčný
- vícejazyčný (paralelní)
- neznačkovaný
- značkovaný (tagovaný, anotovaný – přidány metainformace, např. logická struktura textu, typografický vzhled, jazykové jevy atd.)
I samotné uložení korpusů může mít různou podobu – od archivů (kolekcí), přes organizovanější korpusové banky po použití korpusového manažeru, který texty zakóduje do databáze a zároveň umožňuje prohlížení korpusu.[1][3]
Odkazy
Český národní korpus British National Corpus Brown Corpus manual
Použitá literatura
- PALA, Karel. Počítačové zpracování přirozeného jazyka [online]. Brno : Fakulta Informatiky Masarykovy university, 2000 [cit. 2011-12-03]. Dostupné z WWW: <http://nlp.fi.muni.cz/poc_lingv/pala_zprac.pdf>.
- ŠULC, Michal. Korpusová lingvistika : První vstup. 1. vyd. Praha : Karolinum, 1999. 94 s. ISBN 80-7184-847-6.
- OPÁLKOVÁ, Markéta. Jazykové korpusy. Ikaros [online]. 2008, roč. 12, č. 1, [cit. 2011-12-03]. Dostupný z WWW: <http://www.ikaros.cz/jazykove-korpusy>. ISSN 1212-5075.