PLIN009 - Uvod do pocitacove lingvistiky Ales Horak ================================================== 19.02.2013 14:25:17 - lession I. Hodnoceni: - zaverecna pisemka 80b, prub. ukol 20b, 1b za netrivialni vylepseni slidu - min. 50 pro E u zk - min. 45 pro k - min. 40 pro z - prednasky nepovinne Prednaskove slidy http://nlp.fi.muni.cz/poc_lingv/ Semestralni ukol - programatorsky × lingv. ukol - progr: upraveni nektere z jazykovych knihoven - lingv. musi byt udelany drive Pocitacova lingvistika - kognitivni lingvistika - jak s jazykem pracuje lidsky mozek (AI a lingvistika) - zkouma problemy analysy a generovani textu nebo mluveneho slova, porozumeni jazyku strojem Turinguv test - imitacni hra - tri mistnosti: stroj, clovek a rozhodci; komunikuji zpravami a stroj se rozhodciho snazi presvedcit, ze je clovek - zpracovani jazyka, vyvozovani, znalosti, uceni ================================================== lesson II. - missing ================================================== 05.03.2013 10:16:26 - lesson III. Synteza reci - TTS - text to speech - v idealnim pripade by mela synteticka rec vypadat jako vyslovena rodilym mluvcim Normalisace textu - vstupni data: text a jazyk textu - nutno rozdelit na vety - obtizny problem kvuli viceznacnosti interpunkce - obyvkle 95 % pres sadu zakladnich pravidel - rozvinuti zkratek, prace s cisly Foneticky prepis - uziti IPA - musi zohlednit asimilace, dialekty - pouziti obecnych pravidel a vyjimek (cizi slova) Prosodicky prepis - suprasegmentalni jevy - element prirozenosti (prenaseni prizvuku, intonace, ...) - u tonalnich jazyku (chn) meni i vyznam - posledni dobou i prace s emocemi SSML - Speech Synthesis Markup Language - XML - standard W3C - , ... Akusticke modelovani - synteza v casove oblasti - casti reci se zpracovavaji postupne - konkatenativni synteza - DB namluvenych segmentu (mohou byt az cela slova) - synteza ve frekvencni oblasti - pristup #1: fyzikalni modelovani hlasoveho ustroji (3D model hlas. ustr. a vypocty pruchodu vzduchu a efekty deformaci ustroji) - pristup #2: formatova synteza: model hlavnich akustickych rysu, filtry modeluji zakladni ton - Platon (nebo Sokrates?) tvrdi, ze [neco] ma objektivni platnost a neni to konsensus ================================================== 12.03.2013 10:18:10 - lesson IV. Deleni morfemu - v analytickych jazycich (eng) - obsahove/content a funkcni/function - volne/free a vazane/bound (musi byt soucasti slova)) - ve flekt. jazycich (cs) - koreny - nesamostatne s element. vyznamy - afixy - deleni podle fce (prefixy, sufixy, infixy, ...) Morfologie - flektivni (sklonovani) - derivativni (vytvareni, odvozovani slov) - fundace - jedno slovo tvori zaklad pro jina slova, vztah mezi fundujicimi a fundovanymi slovy - fundujici slova - zakladni slova (nejsou odvozena, nejstarsi) - fundovana - vysledovatelne pravidlo odvozeni - derivacni rada (rybnikar - rybnik - ryba) - komposicionalni - jak se slova meni pri spojovani, jak se zaziji Morfologicka analysa - ke slovum se prirazuji znacky (Part of Speech (PoS) tags), ktere popisuji gramaticke vlastnosti slova - lexikalni kategorie - oznacuji pojmenovavaci veci - gramaticke kat. - popis. vztahy - jazyky - s jednoduchou morfologii - eng, desitky kategorii - s bohatou marfologii - cs, tisice kategorii - morfologicky analysator - nastroj pro analysu, tagger, lematisace (urceni zakladniho tvaru) - kvalita morf. analysi ovlivnuje vsechny vyssi analyticke roviny - postup analysatoru - vybrat vsechny znacky, ktere muzou slovo popisovat - vybrat nejpravdepodobnejsi znacku (podle frekvence, kontextu, ... - analysi pro nezname slovo podle koncovek Brilluv znackovac - uci se na trenovacich datech - po prirazeni nejpravdepodobnejsich znacek se opravi chyby a to se opakuje dokud zlepsovani jde... - uspesnot pres 90 % pro eng Efektivni implementace morfologickeho lexikonu trie - stromy (grafy) - dlouhe linearni cesty se eliminuji a zkompaktnuji se do jednoho uzlu (zkrati se cas prochazeni stromu) - implementovan v ajce (nebo jak se to jmenuje) - pomaly Implementace konecneho automatu - konecny automat, podle prechodu do finalniho stavu, ktery obsahuje seznam moznych znacek Prazsky morfologicky analysator - snadno nalezitelne informace, nesetri mistem (slovo----X--X------X--) - spatne rozsiritelny Ajka - dvojice atributu - muzou se michat, spojovat - rozsiritelnost ================================================== 19.03.2013 10:14:10 - lesson V. Syntakticka analysa - analysa z tvaru slov a jejich posice ve vete - vystupem strukturni nfo ke kazdemu slovu - rika, jak se radi do kontextu - obvykle podoba syntaktickeho stromu - v eng lze vycist i co je podmet, v cs syntaxi uz to tak jasne neni Backus-Naurova forma - zapis gramatiky prehledny pro clovek - pro bezkontextove gramatiky (algoritmicky nejslozitejsi) - prvni jazyk ALGOL 60 Gramatiky Regularni (regular) - neterminal -> terminal[neterminal] - S -> aS - S -> b - konecne automaty schopny analysovat reg. gram -> analysa je umerna pouze delce retezce - aplikace konecnych automatu - regularni vyrazy - neumi spocitat kolik je kterych slov... Bezkontextove (context-free) - neterminal -> cokoliv - S -> aSb - ekvivalent zasobnikovych automatu - pamet typu stack (zasobnik), umi a^(n)*b^(n), ale uz neumi a^(b)*b^(n)*c^(n) Kontextove (context) - na leve strane skoro cokoliv, specifikace - na leve strane pocet termu musi byt mensi nez na prave, pri odvozeni se musi na leve strane zmensovat - ASB -> AAaBB Rekursivne vycislitelne - nemaji omezeni, nepouziva se std zapis gramatik, pouziva se Turinguv stroj (ukladani, vypocetni jednotka, ...) - jazyky pro ktere jeste lze napsat program, ktery jej bude umet zpracovat Prirozene jazyky (natural language) - dlouho pokladan za bezkontextovy, dnes se predpoklada, ze obsahuje kontextove prvky - nejstarsi formalni popis gramatiky - Paniniho gramatika (sanskrt) Zakladni terminy - slozkove stromy - derivace