Vědci z Univerzity Karlovy připravují v Česku zatím unikátní projekt: dávají dohromady obří databázi českých slov, ze které se počítače budou „učit“ rozumět českému textu. A to tak dobře, aby dokázaly bez pomoci člověka vytvořit dokonalý překlad například životopisu nebo přečetly český text a dokázaly z něj udělat výtah toho nejdůležitějšího.
„V Česku je výzkum jazykových technologií na úplném začátku. Jediné, co počítače s češtinou jakžtakž umějí, je oprava spellingu v textových souborech, což je ta nejjednodušší technologie,“ říká Jan Hajič, profesor Ústavu formální a aplikované lingvistiky při Matematicko-fyzikální fakultě Univerzity Karlovy, který se svým týmem databázi českých slov připravuje.
Nejdřív slova, pak věty a text
„Už od roku 1996 proto dáváme dohromady takzvaný Treebank, což je obrovský soubor českých slov, vět a celých textů posbíraných například z novin a elektronických médií. Je to první krok k tomu, aby mohly jazykové technologie rozumějící češtině vůbec vzniknout,“ říká Hajič.
Počítač totiž musí pochopit vazby mezi jednotlivými slovy, dokázat rozeznat jejich gramatické tvary a vytvářet je, stejně jako pochopit pořádek slov ve větě. „Prvních pět let jsme jen jednotlivým slovům přiřazovali mluvnické kategorie. Ke každému slovu jsme přiřadili 13 kategorií, jako například číslo,pád, rod, vzor a podobně,“ popisuje Hajič.
Dalších pět let vědci v jednotlivých větách určovali význam slov tak, aby bylo jasné, jakou roli slova ve větě hrají. Tedy co je podmět a co přísudek, které přídavné jméno se váže k jakému podstatnému jménu. „Čeština má skoro volný pořádek slov ve větě. Proto je pro počítač velmi těžké rozeznat, jakou roli slova ve větě hrají,“ dodává Hajič, který od roku 2006 se svým týmem slovní banku ještě rozšiřuje a určuje vztahy nejen na úrovni slov a vět, ale celých textů. „Když se například v textu vyskytne slovo prezident a pak Klaus, tak počítač rozpozná, že by spolu mohly souviset,“ říká Hajič.
Bude k dipozici všem
Slovní databanka funguje na principu statistiky. Tedy počítač si zapamatuje nejčastější spojení slov a jejich významů a tím se učí. „Až bude databanka dostatečně velká, budou díky ní firmy moci začít vyrábět softwary, které naučí počítače hovořit a psát česky bez pomoci člověka, jak už je to běžné v anglicky hovořících zemích,“ plánuje Hajič.
„Kromě diktování tak budou moci vzinkout programy, které usnadní vyhledávání na českých internetových stránkách nebo takzvané Sentiment Analysis. Takové programy už existují pro angličtinu. Díky speciálnímu softwaru dokáže počítač sám v diskuzích a různých blozích vyhledat názory lidí na to, jak jsou spokojeni s různými produkty,“ vysvětluje Hajič.
Hrozí, že čeština zmizí z počítačů - čtěte ZDE
Počítače nerozumí česky čím dál víc. Na překlepy stačí, překlady by nezvládly - čtěte ZDE
Výzkum jazykových technologií se rozhodlo podpořit i Ministerstvo školství. To dává 144 milionů do pět let trvajícího projektu, díky kterému by se slovní banka měla ještě zdokonalit a dostat zdarma k veřejnosti. Treebank bude ke stažení na internetových stránkách tak, aby byl k dispozici sofwarovým vývojářům.
- Diskuse
- Celkem 16 příspěvků
počítač nemúže nahradit lidské myšlení! práci ano,rychlost a přesnost...
není ani puška,ani tank ani letadlová loď a koneckonců již ani...
Řekl bych, že to jsou dobře vynaložené prostředky a cesta dobrým...
kdyby tato datábáze už neexistovala a nejmenovala se český národní...
Článek je dost nekvalitní. Národní korpus je typ slovníku, vzniká...
Nový občanský zákoník
Největší změna soukromého práva za 20 let.
Co se změní pro vás?
- Technický ředitel — Rusko
- Ředitel výrobního závodu — Rusko
- Plant Director — Russia
- VÝKONNÝ ŘEDITEL - doprava pro chemický, nebezpečný materiál
- VEDOUCÍ METODIKY A KONTROLY
- VEDOUCÍ PROJEKTU
- MANAŽER TECHNOLOGIE s AJ
- Vedoucí výroby
- Cheif Finance Officer
- Koordinátor dotačních projektů


























