Korpusová lingvistika

Z WikiKnihovna

Autor: Petr Fiala

Klíčová slova: Korpusová lingvistika

Synonyma: -

Související pojmy: Počitítačové spracování jazyka

nadřazené - Lingvistika

podřazené - ---


Charakteristika

Obecná lingvistika neboli jazykověda je disciplína, která studuje přirozený jazyk. Zkoumá vlastní strukturu jazyka, např. prvky, z nichž se skládají slova, jak se slova kombinují do vět, proč některé věty mají určitý význam a jiné nikoli atd.

Korpusová lingvistika je ta část a podoba lingvistiky, která studuje jazyk prostřednictvím korpusů a od nich odvozené metodologie. Je novým odvětvím lingvistiky, které se objevilo relativně nedávno až díky počítačům a informačním technologiím. Teprve bouřlivý rozvoj osobních počítačů, pracovních stanic a počítačových sítí umožnil ukládat do počítačových pamětí rozsáhlé textové soubory, zpracovávat je a manipulovat s nimi podle zadaných kritérií. Existující softwarové nástroje umožňují třídit a klasifikovat, analyzovat a vyhodnocovat jazyková data v rozsahu, který by nebyl manuálně nikdy uchopitelný. [3]

Jako poměrně mladá disciplína závisí jak na rozvoji korpusů, tak na metodologii jejich výstavby a vytěžování. Je nutně spjatá s reálnými texty, ať už psanými či mluvenými. Vyhýbá se tedy jakýmkoliv experimentům a introspekci, která na datech není založena. Povaha poznání jazyka založeného na korpusovém výzkumu a analýze se mimo jakoukoliv pochybnost přitom ukazuje jako bezprecedentně hlubší a přesvědčivější než cokoliv, co bylo k dispozici ještě nedávno, v době předkorpusové.

Korpusová lingvistika se částečně překrývá s počítačovou lingvistikou, z níž čerpá řadu postupů a technik, nicméně svou orientací na korpusy a jejich vyčerpávající a systematické zpracování se od ní dnes už významně liší. [1][2]

Historie

Vznik korpusové lingvistiky (alespoň v teoretické rovině) se datuje do 50. let 20. století, kdy někteří američtí lingvisté (Harris, Hill) dospěli k názoru, že korpus – dostatečně velký soubor přirozeně se vyskytujících jazykových dat – je nutným a dostačujícím empirickým základem pro vytvoření popisu daného přirozeného jazyka (jeho gramatiky); přitom intuitivní evidence a introspekce byla odsunuta až na druhé místo, ne-li vůbec na poslední.

Pak přišel Noam Chomsky s názorem, že korpusy jsou neadekvátní a vlastně nepotřebné, a naopak právě lingvistova intuice a introspekce je hlavním východiskem při tvoření gramatik, což se stalo ortodoxním stanoviskem následující lingvistické generace.

Korpusová lingvistika v novém pojetí začala vznikat nenápadně počátkem 60. let (Quirk, 1960, Kučera a Francis, 1967). Quirk začal pracovat na Survey of English Usage, SEU. V rámci SEU se počítalo i se zpracováním mluvené angličtiny, nebyl však orientován počítačově. O něco později začal pod vedením Čecha H. Kučery a Američana N. Francise na Brown University v USA vznikat počítačový korpus současné americké angličtiny – Computational Analysis of Present-Day American English, obsahující jen psané texty.

Dnes je již korpusů v jednotlivých jazycích celá řada a jejich rozsah i počet roste - jen u angličtiny to začíná klasickým miliónovým Brown Corpusem až po nedávný British National Corpus - BNC obsahující 100 miliónů slov (Consortium Oxford University Press, Lancaster and Birmingham University) a v rámci COBUILDu v Birminghamu vytvořený korpus Bank of English (J. Sinclair) čítající nyní 220 miliónů slovních forem a připravený k rozšíření na 500 miliónů.

Plný rozkvět korpusové lingvistiky nastává na přelomu tisíciletí, a to právě díky prudkému vývoji v oblasti informatiky, informačních technologií a hardwaru.[3]