reklama
reklama
29. 9. 2011 | poslední aktualizace: 29. 9. 2011  11:49
Unikátní učebnice češtiny. Pro počítače

Čeští vědci učí počítače česky. Vytvářejí pro ně unikátní učebnici

Vzniká obří databáze českých slov, která umožní počítačům pochopit logiku češtiny. Databáze obsahuje už 2 miliony slov a stála 40 milionů korun. Slovní databanka funguje na principu statistiky: počítač si zapamatuje nejčastější spojení slov a jejich významů a tím se učí.
Čtěte více o: Bílá kniha | počítač | čeština
Plánování podnikových zdrojů se bez počítače neobejde - ilustrační foto.
Plánování podnikových zdrojů se bez počítače neobejde - ilustrační foto.
foto: Thinkstock

Vědci z Univerzity Karlovy připravují v Česku zatím unikátní projekt: dávají dohromady obří databázi českých slov, ze které se počítače budou „učit“ rozumět českému textu. A to tak dobře, aby dokázaly bez pomoci člověka vytvořit dokonalý překlad například životopisu nebo přečetly český text a dokázaly z něj udělat výtah toho nejdůležitějšího.

„V Česku je výzkum jazykových technologií na úplném začátku. Jediné, co počítače s češtinou jakžtakž umějí, je oprava spellingu v textových souborech, což je ta nejjednodušší technologie,“ říká Jan Hajič, profesor Ústavu formální a aplikované lingvistiky při Matematicko-fyzikální fakultě Univerzity Karlovy, který se svým týmem databázi českých slov připravuje.

reklama

Nejdřív slova, pak věty a text

„Už od roku 1996 proto dáváme dohromady takzvaný Treebank, což je obrovský soubor českých slov, vět a celých textů posbíraných například z novin a elektronických médií. Je to první krok k tomu, aby mohly jazykové technologie rozumějící češtině vůbec vzniknout,“ říká Hajič.

Počítač totiž musí pochopit vazby mezi jednotlivými slovy, dokázat rozeznat jejich gramatické tvary a vytvářet je, stejně jako pochopit pořádek slov ve větě. „Prvních pět let jsme jen jednotlivým slovům přiřazovali mluvnické kategorie. Ke každému slovu jsme přiřadili 13 kategorií, jako například číslo,pád, rod, vzor a podobně,“ popisuje Hajič.

Dalších pět let vědci v jednotlivých větách určovali význam slov tak, aby bylo jasné, jakou roli slova ve větě hrají. Tedy co je podmět a co přísudek, které přídavné jméno se váže k jakému podstatnému jménu. „Čeština má skoro volný pořádek slov ve větě. Proto je pro počítač velmi těžké rozeznat, jakou roli slova ve větě hrají,“ dodává Hajič, který od roku 2006 se svým týmem slovní banku ještě rozšiřuje a určuje vztahy nejen na úrovni slov a vět, ale celých textů. „Když se například v textu vyskytne slovo prezident a pak Klaus, tak počítač rozpozná, že by spolu mohly souviset,“ říká Hajič.

Bude k dipozici všem

Slovní databanka funguje na principu statistiky. Tedy počítač si zapamatuje nejčastější spojení slov a jejich významů a tím se učí. „Až bude databanka dostatečně velká, budou díky ní firmy moci začít vyrábět softwary, které naučí počítače hovořit a psát česky bez pomoci člověka, jak už je to běžné v anglicky hovořících zemích,“ plánuje Hajič.

„Kromě diktování tak budou moci vzinkout programy, které usnadní vyhledávání na českých internetových stránkách nebo takzvané Sentiment Analysis. Takové programy už existují pro angličtinu. Díky speciálnímu softwaru dokáže počítač sám v diskuzích a různých blozích vyhledat názory lidí na to, jak jsou spokojeni s různými produkty,“ vysvětluje Hajič.

Výzkum jazykových technologií se rozhodlo podpořit i Ministerstvo školství. To dává 144 milionů do pět let trvajícího projektu, díky kterému by se slovní banka měla ještě zdokonalit a dostat zdarma k veřejnosti. Treebank bude ke stažení na internetových stránkách tak, aby byl k dispozici sofwarovým vývojářům.

reklama
Zobrazit náhled
Zbývá 1000 znaků
velké tajemství.... (hugo)
počítač nemúže nahradit lidské myšlení! práci ano,rychlost a přesnost...
hlavní zbraní v probíhající válce (dodatek)
není ani puška,ani tank ani letadlová loď a koneckonců již ani...
Čeští vědci učí počítače česky. Vytvářejí pro ně unikátní učebnici (anonym)
Řekl bych, že to jsou dobře vynaložené prostředky a cesta dobrým...
Měl byste pravdu, (anonym)
kdyby tato datábáze už neexistovala a nejmenovala se český národní...
B. je správně (Holeček)
Článek je dost nekvalitní. Národní korpus je typ slovníku, vzniká...
Zobrazit diskusi

Nový občanský zákoník

Generální opt-in do zákona o obchodních korporacích

Největší změna soukromého práva za 20 let.
Co se změní pro vás?

Vstupte do speciálu iHNED.cz
Nejčtenější
reklama
VIDEO
Fotbalový zápas, ilustrační foto
Matěj Smlsal
Exkluzivně
Český rozhlas nadále rozšiřuje své aktivity na internetu. Od konce...
VIDEO
Parkovací zóna, ilustrační foto
Eliška Nová
Víme první
Pilotní projekt nových parkovacích zón do dalších pražských městských...
reklama
reklama
reklama