Google Ngram Viewer

Z WikiKnihovna
Přejít na: navigace, hledání

Autor: Jan Doubek

Klíčová slova: google ngram viewer, google, books

Synonyma: ---

Související pojmy:

nadřazené - google, google books
podřazené - ---


charakteristika

Google Books Ngram Viewer je vizualizační nástroj od společnosti google, umožňující sledovat trendy výskytu jednotlivých slov nebo frází (až pět slov) v naskenovaných knihách podle roku výskytu. Podobně jako Google Trends umožňuje sledování počtu vyhledávání za posledních několik let, Google Books Ngram Viewer umožňuje sledování počtu výskytů slov v literatuře za několik století. Index naskenovaných knih společnosti google přístupný pomocí Google Books Ngram Viewer sahá od roku 1500[1] do roku 2008, a obsahuje knihy v několika kategoriích[2]:

   americká angličtina – knihy, které byly publikovány v USA,
   britská angličtina – knihy, které byly publikovány ve Velké Británii,
   čínština – zjednodušená
   angličtina – knihy nejsou filtrované
   beletrie v angličtině
   anglický milion („Google Million“) - knihy v angličtině vydané mezi lety 1500 až 2008; z každého roku bylo vybráno maximálně 6 000 knih; do výběru se nedostali knihy, které byly pomocí OCR špatně rozpoznané, ani časopisy,
   francouzština – knihy původně ve francouzském jazyce,
   němčina – knihy původně v německém jazyce,
   hebrejština – knihy původně v hebrejštině,
   španělština – knihy původně ve španělštině,
   ruština – knihy původně v ruštině,

Google Books Ngram Viewer díky propojení ze službou Google Books mimojiné umožňuje nahlédnout přímo do knihy kde se dané slovo vyskytuje, a tak zjistit i kontext v jakém se o dané věci psalo nebo správnost přepisu.


Jak to funguje

V rámci projektu google books search společnost Google skenuje knihy, které dále převádí do textové podoby pomocí systému OCR. Z takto získaných dat dále vytváří index pro vyhledávání. Google Books Ngram Viewer umožňuje pohled na takto získaná data v závislosti na roce vydání knihy.

přestože počet slov ze všech naskenovaných knih (5.2 milionů knih) přesahuje 500 miliard, do Google Books Ngram Viewer se dostanou pouze slova použitá ve více jak 40 knihách[3]. Index Google Books Ngram Viewer proto obsahuje “pouze” zhruba dvě miliardy slov.

Google Books search kromě vyhledávání v knihách dále umožňuje procházení celých jednotlivých knih pokud se předpokládá že jsou volným dílem.


Využití

Google Books Ngram Viewer najde své uplatnění v mnoha oborech:

   lingvistika - vývoj jazyka.
   historie - interpretace historických událostí.
   sociologický výzkum - zjišťování korelací mezi užitím konkrétního slova a nějakou událostí.


poznámky:

Google Books Ngram Viewer je dostupný pro veřejnost v Google labs Od 16. prosince 2010.

Ngram je metoda modelování vět v přirozeném jazyce.

Google Books Ngram Viewer je výsledkem spolupráce Google, Harvardské university, MIT a Encyklopedie Britannica.

Index je volně ke stažení.

Použité zdroje

  1. Google Books Ngram Viewer – unikátní analýza u knih od roku 1500. JustIt.cz[online], 17. prosince 2010 [cit. 2011-06-04]. Dostupné z WWW: <http://www.justit.cz/wordpress/2010/12/17/google-books-ngram-viewer-unikatni-analyza-z-knih-od-roku-1500/>.
  2. ikaros.cz [online]. c2011 [cit. 2011-06-04]. Google Books Ngram Viewer. Dostupné z WWW: <http://www.ikaros.cz/google-books-ngram-viewer>.
  3. googlelabs [online]. c2010 [cit. 2011-06-04]. Google labs Books Ngram Viewer info. Dostupné z WWW: <http://ngrams.googlelabs.com/info>.