FI:IB047 Úvod do korpusové lingvistiky a počítačové lexikografie
Last update: 2014-06-22 20:20:10 UTC
Obsah
Motivace
- slovnik – soubor slov
- gramatika – jak se slova skladaji
- slovníky se tvoří:
- intuicí – jeden člověk (velmi subjektivní)
- citáty (vypsaný úryvky textů) – (taky subjektivní, někoho to muselo zaujmout, aby to vypsal)
2014-02-24 16:08:24
- ukoly
- ne vsichni musi psat programy na korpus, nekdo jen anotace
Formáty korpusů
- archiv
- napr. Oxford
- daji se z toho dělat korpusy, není to jednotné
- textové banky
- binární data v app
- souhrny, statistiky, …
- pro konkrétní aplikaci
Ukládání korpusů
- soubor/dokument
- x souborů/dokument: když jsou moc velké korpusy, nedělí se docy podle souborů, ale strkají se do jednoho filu, dokud nedosáhne nějaký velikosti, pak se udělá nový file
- x dokumentů/soubor:
Data v korpusu
- metainformace
- velmi se liší korpus od korpusu podle toho, co obsahuje
Dělení textů na tokeny
- v evr. jazycích – od mezery do mezery bez interpunkce
- výjimky musí být jednotné přes korpus, může to ovlivňovat výsledky
bude-li ~ bude -li ~ bude – li
- musí to mít nějaké opodstatnění
- ve vertikálu se dává mezi tokeny, které v orig. textu nebyly odděleny mezerou, tag