Syntéza řeči

Z WikiKnihovna
Přejít na: navigace, hledání

Autor: Lukáš Zduba

Klíčová slova: syntéza řeči, Speech Synthesis, TTS (text-to-speech), syntezátor

Synonyma: ---

Související pojmy:

nadřazené – virtuální komunikace, fonetický přepis
podřazené - vizém, vizuální řeč


Syntéza řeči

„Syntéza řeči je počítačem generovaná simulace lidské řeči."[1] Jiným pohledem je syntéza řeči proces tvorby umělé lidské řeči. V současné době se jedná o běžný prostředek ke komunikaci, bez níž by řada společností a projektů vůbec nevznikla.

Prvním krokem procesu je získání lidského hlasu do digitální podoby. Vybraný hlas se zaznamenává pomocí kvalitních mikrofonů, kde je především dbán velký důraz na čistotu hlasu bez okolních šumů a ruchů. Požadovaný hlas se vybírá dle různých parametrů, mezi které patří např.: barva hlasu, stabilita hlasu a především vyjadřování. Zaznamenávání se pak liší podle účelu. Malé projekty či programy nahrávají celá slova či slovní spojení u velkých programů se zaznamenávají souhlásky, které se později spojují do slov. Jednotlivé prvky jsou v programu naprogramovány a přiřazeny jednotlivým znakům.

S tímto procesem operují samotné syntezátory řeči. „Syntezátor je zařízení pracující se samotným převodem textové formy písma do akustického lidského hlasu."[2] Souhrnný název pro tuto metodu je text-to-speech(text k řeči). Kvalita je určována podobnosti s lidskou řečí a výslovností rozsáhlejších vět. Mezi nejznámější osobu využívající syntezátor jako komunikační prostředek patří britský fyzik, Stephen Hawking.[3]

Nástavbou a zdokonalením syntézy je vizuální řeč. Výsledkem tohoto složitého postupu je vymodelovaná lidská tvář (i 3D), která pohybuje stejně ústy jako živý a dobře artikulující člověk. Klíčem k této vlastnosti je vizém. Člověk při každé slabice či samohlásce jinak využívá artikulační orgány, tyto kombinace se poté označují vizémy. České hlásky, však využívají i stejné pohyby rtů, jako např.: vizém (p, b, m) či vizém sykavek (s, z, c).[4]

Historie

Mezi první zmínku o umělé řeči se postaral v roce 1779 ruský profesor Christian Kratzenstein. V tu dobu vysvětlil fyziologické rozdíly v samohláskách a jejich napodobení dokázal vyvolat uměle pomocí trubek, jenž při úderech rezonovaly do patřičných tónů. Tento jev byl dán tvarem trubky. V roce 1800 přišel s upraveným von Kempeleneho strojem[5], který dokázal produkovat lidské souhlásky a různě je kombinovat. Výstupem mohlo býti i slovo. První elektrický syntezátor byl Voder. Vznikl během 30. let a pomohl vědecké sféře k rozvoji umělé řeči. Postupem času a s vývojem číslicové techniky šel rozvoj prudce nahoru a projekty už byly čistě digitální.[6]

Využití

Podporné programy pro tělesně postižené- Největší využití je pro nevidomé osoby při práci na počítači. Hlasový pomocník je provádí prostředím a umožňuje jim lepší orientaci při práci. Nevidomé nebo špatně vidící osoby si tak poslechnou text na webu, který by za jiných okolností nezaregistrovaly. Lidé s poruchou sluchu mohou touto cestou komunikovat s lidmi, kteří znakové řeči nerozumí.[7]

Uživatelská podpora- Společnosti a firmy se snaží poskytnout svým uživatelům neustálou podporu, proto jsou tyto systémy určeny i ke komunikaci se zákazníky. Firmy je využívají při běžných oznámeních nebo při nepřítomnosti zaměstnanců.

Vzdělání- Programy se syntezátory mohou učit jazyky a především zlepšit výslovnost pro studenty. Při učení je možno vidět psanou formu slova a poté si ověřit jeho výslovnost. Podobné programy pomáhají i žákům, kteří mají problém se čtením i v jejich rodném jazyce. Jedná se především o dyslexii.

GPS- Většina běžných řidičů přišla do kontaktu s hlasovým pomocníkem pomocí GPS navigátoru. Hlavní doménou je komunikace s řidičem bez nutnosti vizuálního kontaktu. GPS navádí pomocí hlasu a pomáhá při orientaci na cestě.

Společnosti pracující se syntézou řeči

• Apple

• Microsoft Windows

• IBM

• AT&T

• Komerční projekty (VoiceOnTheGo, SVOX, IVONA TTS, NeoSpeech TTS …)

• Internet je plný nejrůznějších doplňků, většinou se jedná o free verze ve formě: pluginů, pomůcek, RSS nebo aplikací

Poznámky

  1. ROUSE M. What is speech synthesis?[online]. Aktualizováno 1. 8. 2005 [cit. 2013-03-21]. Dostupné z: <http://whatis.techtarget.com/definition/speech-synthesis>
  2. What is a Speech Synthesizer??[online]. Aktualizováno 19. 4. 2007, [cit. 2013-03-21]. Dostupné z: <http://www.wisegeek.com/what-is-a-speech-synthesizer.htm>
  3. GREENEMEIER L. Stephen Hawking's Voice: New Technology May Help Physicist Talk Faster, Computer Scientist Says?[online]. Aktualizováno 22. 1. 2013 [cit. 2013-03-22]. Dostupné z: http://www.huffingtonpost.com/2013/01/22/stephen-hawking-voice-intel-physicist_n_2525744.html>
  4. FERSCHMANN J. Audiovizuální syntéza řeči[online]. Plzeň 2008 [cit. 2013-03-21]. Dostupné z: <http://musslap.zcu.cz/cs/o-projektu/>
  5. CATER J. P.Electronically Speaking: Computer Speech Generation. Sams Publishing, England, 1983, str. 72-74, ISBN:0672219476.
  6. LEMMETTY S. Review of Speech Synthesis. [online]. Espoo, 1999, str. 5-8, [cit. 2013-03-21]. Dostupné z: <http://www.acoustics.hut.fi/publications/files/theses/lemmetty_mst/thesis.pdf>
  7. LEMMETTY S. Review of Speech Synthesis. [online]. Espoo, 1999, str. 47-48, [cit. 2013-03-21]. Dostupné z: <http://www.acoustics.hut.fi/publications/files/theses/lemmetty_mst/thesis.pdf>

Použitá literatura