FI:IB047 Úvod do korpusové lingvistiky a počítačové lexikografie
Last update: 2014-06-22 20:20:10 UTC

Obsah

  1. Obsah
  2. Motivace
  3. Formáty korpusů
    1. Ukládání korpusů
    2. Data v korpusu
    3. Dělení textů na tokeny

Motivace

2014-02-24 16:08:24

Formáty korpusů

Ukládání korpusů

  1. soubor/dokument
  2. x souborů/dokument: když jsou moc velké korpusy, nedělí se docy podle souborů, ale strkají se do jednoho filu, dokud nedosáhne nějaký velikosti, pak se udělá nový file
  3. x dokumentů/soubor:

Data v korpusu

Dělení textů na tokeny