Korpusová lingvistika

Autor: Petr Fiala

Klíčová slova: Korpusová lingvistika

Synonyma: -

Související pojmy: Počitítačové spracování jazyka

nadřazené - Lingvistika

podřazené - ---

Charakteristika

Obecná lingvistika neboli jazykověda je disciplína, která studuje přirozený jazyk. Zkoumá vlastní strukturu jazyka, např. prvky, z nichž se skládají slova, jak se slova kombinují do vět, proč některé věty mají určitý význam a jiné nikoli atd.

Korpusová lingvistika je ta část a podoba lingvistiky, která studuje jazyk prostřednictvím korpusů a od nich odvozené metodologie. Je novým odvětvím lingvistiky, které se objevilo relativně nedávno až díky počítačům a informačním technologiím. Teprve bouřlivý rozvoj osobních počítačů, pracovních stanic a počítačových sítí umožnil ukládat do počítačových pamětí rozsáhlé textové soubory, zpracovávat je a manipulovat s nimi podle zadaných kritérií. Existující softwarové nástroje umožňují třídit a klasifikovat, analyzovat a vyhodnocovat jazyková data v rozsahu, který by nebyl manuálně nikdy uchopitelný. [3]

Jako poměrně mladá disciplína závisí jak na rozvoji korpusů, tak na metodologii jejich výstavby a vytěžování. Je nutně spjatá s reálnými texty, ať už psanými či mluvenými. Vyhýbá se tedy jakýmkoliv experimentům a introspekci, která na datech není založena. Povaha poznání jazyka založeného na korpusovém výzkumu a analýze se mimo jakoukoliv pochybnost přitom ukazuje jako bezprecedentně hlubší a přesvědčivější než cokoliv, co bylo k dispozici ještě nedávno, v době předkorpusové.

Korpusová lingvistika se částečně překrývá s počítačovou lingvistikou, z níž čerpá řadu postupů a technik, nicméně svou orientací na korpusy a jejich vyčerpávající a systematické zpracování se od ní dnes už významně liší. [1][2]

Historie

Vznik korpusové lingvistiky (alespoň v teoretické rovině) se datuje do 50. let 20. století, kdy někteří američtí lingvisté (Harris, Hill) dospěli k názoru, že korpus – dostatečně velký soubor přirozeně se vyskytujících jazykových dat – je nutným a dostačujícím empirickým základem pro vytvoření popisu daného přirozeného jazyka (jeho gramatiky); přitom intuitivní evidence a introspekce byla odsunuta až na druhé místo, ne-li vůbec na poslední.

Pak přišel Noam Chomsky s názorem, že korpusy jsou neadekvátní a vlastně nepotřebné, a naopak právě lingvistova intuice a introspekce je hlavním východiskem při tvoření gramatik, což se stalo ortodoxním stanoviskem následující lingvistické generace.

Korpusová lingvistika v novém pojetí začala vznikat nenápadně počátkem 60. let (Quirk, 1960, Kučera a Francis, 1967). Quirk začal pracovat na Survey of English Usage, SEU. V rámci SEU se počítalo i se zpracováním mluvené angličtiny, nebyl však orientován počítačově. O něco později začal pod vedením Čecha H. Kučery a Američana N. Francise na Brown University v USA vznikat počítačový korpus současné americké angličtiny – Computational Analysis of Present-Day American English, obsahující jen psané texty.

Dnes je již korpusů v jednotlivých jazycích celá řada a jejich rozsah i počet roste - jen u angličtiny to začíná klasickým miliónovým Brown Corpusem až po nedávný British National Corpus - BNC obsahující 100 miliónů slov (Consortium Oxford University Press, Lancaster and Birmingham University) a v rámci COBUILDu v Birminghamu vytvořený korpus Bank of English (J. Sinclair) čítající nyní 220 miliónů slovních forem a připravený k rozšíření na 500 miliónů.

Plný rozkvět korpusové lingvistiky nastává na přelomu tisíciletí, a to právě díky prudkému vývoji v oblasti informatiky, informačních technologií a hardwaru.[3]

Neregistrovaný

Hledat

Korpusová lingvistika

Jmenné prostory

Více

Možnosti stránky

Charakteristika

Historie

Navigace

Navigace

Pracovní prostory

Wiki nástroje

Wiki nástroje

Neregistrovaný

Hledat

Korpusová lingvistika

Charakteristika

Historie

Navigace

Wiki nástroje

Nástroje ke stránkám