$title FI:IB047 Úvod do korpusové lingvistiky a počítačové lexikografie print_last_updated $1 Obsah print_toc $1 Motivace - slovnik - soubor slov - gramatika - jak se slova skladaji - slovníky se tvoří: - intuicí - jeden člověk (velmi subjektivní) - citáty (vypsaný úryvky textů) - (taky subjektivní, někoho to muselo zaujmout, aby to vypsal) $date 2014-02-24 16:08:24 - [b ukoly] - ne vsichni musi psat programy na korpus, nekdo jen anotace $1 Formáty korpusů - archiv - napr. Oxford - daji se z toho dělat korpusy, není to jednotné - textové banky - Gutenberg - víceméně jednotné - binární data v app - souhrny, statistiky, ... - pro konkrétní aplikaci $2 Ukládání korpusů + soubor/dokument + x souborů/dokument: když jsou moc velké korpusy, nedělí se docy podle souborů, ale strkají se do jednoho filu, dokud nedosáhne nějaký velikosti, pak se udělá nový file + x dokumentů/soubor: $2 Data v korpusu - metainformace - velmi se liší korpus od korpusu podle toho, co obsahuje $2 Dělení textů na tokeny - v evr. jazycích - od mezery do mezery bez interpunkce - výjimky musí být jednotné přes korpus, může to ovlivňovat výsledky - [c bude-li ~ bude -li ~ bude - li] - musí to mít nějaké opodstatnění - ve vertikálu se dává mezi tokeny, které v orig. textu nebyly odděleny mezerou, tag [c ]