$title FI:IB047 Úvod do korpusové lingvistiky a počítačové lexikografie
print_last_updated

$1 Obsah
print_toc

$1 Motivace
- slovnik - soubor slov
- gramatika - jak se slova skladaji
- slovníky se tvoří:
	- intuicí - jeden člověk (velmi subjektivní)
	- citáty (vypsaný úryvky textů) - (taky subjektivní, někoho to muselo zaujmout, aby to vypsal)
	
$date 2014-02-24 16:08:24

- [b ukoly]
	- ne vsichni musi psat programy na korpus, nekdo jen anotace

$1 Formáty korpusů
- archiv
	- napr. Oxford
	- daji se z toho dělat korpusy, není to jednotné
- textové banky
	- Gutenberg
		- víceméně jednotné
- binární data v app
	- souhrny, statistiky, ...
	- pro konkrétní aplikaci

$2 Ukládání korpusů
+ soubor/dokument
+ x souborů/dokument: když jsou moc velké korpusy, nedělí se docy podle souborů, ale strkají se do jednoho filu, dokud nedosáhne nějaký velikosti, pak se udělá nový file
+ x dokumentů/soubor: 

$2 Data v korpusu
- metainformace
	- velmi se liší korpus od korpusu podle toho, co obsahuje

$2 Dělení textů na tokeny
- v evr. jazycích - od mezery do mezery bez interpunkce
- výjimky musí být jednotné přes korpus, může to ovlivňovat výsledky
	- [c bude-li ~ bude -li ~ bude - li]
	- musí to mít nějaké opodstatnění
	- ve vertikálu se dává mezi tokeny, které v orig. textu nebyly odděleny mezerou, tag [c <g/>]