Korpusová lingvistika

Z WikiKnihovna
Přejít na: navigace, hledání

Autor: Petr Fiala

Klíčová slova: Korpusová lingvistika

Synonyma: -

Související pojmy: Počitítačové spracování jazyka

nadřazené - Lingvistika
podřazené - ---


Charakteristika

Obecná lingvistika neboli jazykověda je disciplína, která studuje přirozený jazyk. Zkoumá vlastní strukturu jazyka, např. prvky, z nichž se skládají slova, jak se slova kombinují do vět, proč některé věty mají určitý význam a jiné nikoli atd.

Korpusová lingvistika je ta část a podoba lingvistiky, která studuje jazyk prostřednictvím korpusů a od nich odvozené metodologie. Je novým odvětvím lingvistiky, které se objevilo relativně nedávno až díky počítačům a informačním technologiím. Teprve bouřlivý rozvoj osobních počítačů, pracovních stanic a počítačových sítí umožnil ukládat do počítačových pamětí rozsáhlé textové soubory, zpracovávat je a manipulovat s nimi podle zadaných kritérií. Existující softwarové nástroje umožňují třídit a klasifikovat, analyzovat a vyhodnocovat jazyková data v rozsahu, který by nebyl manuálně nikdy uchopitelný.[3]

Jako poměrně mladá disciplína závisí jak na rozvoji korpusů, tak na metodologii jejich výstavby a vytěžování. Je nutně spjatá s reálnými texty, ať už psanými či mluvenými. Vyhýbá se tedy jakýmkoliv experimentům a introspekci, která na datech není založena. Povaha poznání jazyka založeného na korpusovém výzkumu a analýze se mimo jakoukoliv pochybnost přitom ukazuje jako bezprecedentně hlubší a přesvědčivější než cokoliv, co bylo k dispozici ještě nedávno, v době předkorpusové.

Korpusová lingvistika se částečně překrývá s počítačovou lingvistikou, z níž čerpá řadu postupů a technik, nicméně svou orientací na korpusy a jejich vyčerpávající a systematické zpracování se od ní dnes už významně liší.[1][2]

Historie

Vznik korpusové lingvistiky (alespoň v teoretické rovině) se datuje do 50. let 20. století, kdy někteří američtí lingvisté (Harris, Hill) dospěli k názoru, že korpus – dostatečně velký soubor přirozeně se vyskytujících jazykových dat – je nutným a dostačujícím empirickým základem pro vytvoření popisu daného přirozeného jazyka (jeho gramatiky); přitom intuitivní evidence a introspekce byla odsunuta až na druhé místo, ne-li vůbec na poslední.

Pak přišel Noam Chomsky s názorem, že korpusy jsou neadekvátní a vlastně nepotřebné, a naopak právě lingvistova intuice a introspekce je hlavním východiskem při tvoření gramatik, což se stalo ortodoxním stanoviskem následující lingvistické generace.

Korpusová lingvistika v novém pojetí začala vznikat nenápadně počátkem 60. let (Quirk, 1960, Kučera a Francis, 1967). Quirk začal pracovat na Survey of English Usage, SEU. V rámci SEU se počítalo i se zpracováním mluvené angličtiny, nebyl však orientován počítačově. O něco později začal pod vedením Čecha H. Kučery a Američana N. Francise na Brown University v USA vznikat počítačový korpus současné americké angličtiny – Computational Analysis of Present-Day American English, obsahující jen psané texty.

Dnes je již korpusů v jednotlivých jazycích celá řada a jejich rozsah i počet roste - jen u angličtiny to začíná klasickým miliónovým Brown Corpusem až po nedávný British National Corpus - BNC obsahující 100 miliónů slov (Consortium Oxford University Press, Lancaster and Birmingham University) a v rámci COBUILDu v Birminghamu vytvořený korpus Bank of English (J. Sinclair) čítající nyní 220 miliónů slovních forem a připravený k rozšíření na 500 miliónů.

Plný rozkvět korpusové lingvistiky nastává na přelomu tisíciletí, a to právě díky prudkému vývoji v oblasti informatiky, informačních technologií a hardwaru.[3]

Současný stav

Korpusová lingvistika nepředstavuje dnes jen etapu vývoje, kdy lingvistika poprvé v historii má dat konečně relativní dostatek, ale kdy je schopná se s plnou vahou dostupného jazyka a jeho kontextů začít reorientovat a zvracet nepříznivou a jednostrannou rovnováhu při jeho popisu od paradigmatického pohledu a k pohledu syntagmatickému. Vyvíjí metody a rozvíjí poznání o souvislostech a textových souvztažnostech, zlepšuje a přehodnocuje poznání paradigmatického (třídového) a kombinatorického pohledu. Zároveň objevuje staré neřešené problémy, především o rozdílu a hranicích mezi lexikonem a gramatikou.[1]

Závěrem uveďme základní informace o tom, jak vypadá situace pro češtinu. Na podzim roku 1994 byl na FF UK založen Ústav českého národního korpusu, v němž se nyní buduje Český národní korpus. Během roku 1995 byl vytvořen jeho základ, v němž je uloženo cca 20 000 000 slovních tvarů (už na konci roku 1996 obsahoval téměř 100 mil. českých slovních tvarů). Vedle ÚČNK se na této práci podílejí další pracoviště UK, jako Ústav teoretické a komputační lingvistiky FF UK, Ústav formální a aplikované lingvistiky MFF UK, dále Ústav pro jazyk český AV ČR a v neposlední řadě Ústav českého jazyka FF MU i Fakulta informatiky MU. Struktura textů ukládaných do korpusu se vyznačuje analyzátorem SGML. Pro gramatické značkování používá analyzátor (tagger) LEMMA vytvořený v Brně.[4]

Odkazy

Ústav českého národního korpusu

Centrum zpracování přirozeného jazyka FI MU

Použitá literatura

  1. ČERMÁK, František; BLATNÁ, Renata. Korpusová lingvistika : stav a modelové přístupy. Vyd. 1. Praha : NLN, Nakladatelství Lidové noviny, 2006. 358 s. ISBN 80-7106-865-9.
  2. PALA, Karel. Počítačové zpracování přirozeného jazyka [online]. Brno : Fakulta Informatiky Masarykovy university, 2000 [cit. 2011-12-03]. Dostupné z WWW: <nlp.fi.muni.cz/poc_lingv/pala_zprac.pdf>.
  3. PALA, Karel. Informační technologie a korpusová lingvistika (1). Zpravodaj ÚVT MU [online]. 1996, roč. VI, č. 3, [cit. 2011-12-03]. Dostupný z WWW: <http://www.ics.muni.cz/bulletin/articles/58.html>. ISSN 1212-0901.
  4. PALA, Karel. Informační technologie a korpusová lingvistika (2). Zpravodaj ÚVT MU [online]. 1996, roč. VI, č. 4, [cit. 2011-12-03]. Dostupný z WWW: <http://www.ics.muni.cz/bulletin/articles/67.html>. ISSN 1212-0901.