PA153
Strojový překlad Vít Baisa
Překlad
Překlad je převod textu ze zdrojového jazyka do jazyka cílového.
► odborný překlad x literární překlad
► přesná reprodukce x volná převodová parafráze
Maimonidés, 12. stol.
Pro překlad slova je rozhodující kontext.
Werner Winter
Každé slovo je element vytržený z celkového jazykového systému a jeho vztahy k jiným segmentům systému jsou v jednotlivých jazycích rozdílné.
Každý význam je element z celého systému segmentů, v něž mluvčí rozčleňuje skutečnost. V jazyce Mohave: otec ženy ^ otec muže
Otázky překladu
► Je vůbec přesný překlad mezi jazyky možný?
► Jak se pozná, že    je překladový ekvivalent slova w2?
► anglické typy větru, eskymácké typy sněhu, ...
► jak přeložit slova jako alkáč, večerníček, telka, čoklbuřt, knížečka, ČSSD ... ?
Strojový překlad I - definice
Strojový překlad
Obor počítačové lingvistiky zabývající se návrhem, implementací a aplikací automatických systémů (programů) pro překlad textů s minimálním zásahem člověka.
Např. používání elektronických slovníků při překladu nepatří do strojového překladu.
Strojový překlad II - predmet zájmu
Zejména:
► webové stránky
► technické manuály
► vědecké dokumenty
► prospekty, katalogy
► právnické texty
► obecně texty z omezených domén
Nuance na různých jazykových vrstvách v umělecké literatuře jsou mimo schopnosti současných nástrojů NLP.
Strojový překlad III
Ve skutečnosti je výstup z MT vždy revidován. Mluví se o před-překladu resp. o post-editaci.
Ta je někdy nutná i u člověka, ovšem systémy MT dělají zcela rozdílné chyby.
Pro člověka jsou typické chyby:
► špatné předložky (/ am in school)
► chybějící členy (/ saw marí)
► špatné tvary slov: mouses, breaked, ...
Pro počítač jsou typické zejména chyby významové: Kiss me, honey.
Metody přímého zlepšení kvality strojového překladu
► omezení vstupu na:
► podjazyk (oznamovací věty)
► doménu (informatika)
► typ dokumentu (patentové dokumenty)
► pre-processing textu (např. ruční syntaktická analýza)
Klasifikace podle přístupu (approach)
► pravidlový (znalostní) strojový překlad rule-based, knowledge-based - RBMT, KBMT
► transferový
► interlingua
► statistický strojový překlad statistical machine translation - SMT Example-based machine translation - EBMT
► hybridní strojový překlad
hybrid machine translation - HMT, HyTran
Vauquoisův trojúhelník
Interlingua
Klasifikace podle interakce s uživatelem
► (ruční překlad)
► ruční překlad s pomocí počítače machine-aided human translation - MAHT
► automatický překlad s interagujícím překladatelem human-aided machine translation - HAMT
plně automatický překlad
fully automated high-quality (M)T- FAHQT
HAMT a MAHT někdy souhrnně označovány jako CAT -computer-aided translation.
Rané názory na strojový překlad
► překlad je často opakovaná činnost - věřilo se, že bude tuto proceduru možné počítačem napodobit
► úspěchy použití počítačů v kryptografii: vhodné i pro strojový překlad?
Warren Weaver
When I look at an article in Chinese, I say: This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode.
Georgetown experiment
První funkční prototyp strojového překladu.
► 50 vět (zřejmě pečlivě vybraných)
► spolupráce s IBM
► slovník obsahoval 250 slov
► překlad z ruštiny do angličtiny
► gramatika pro ruštinu obsahovala 6 pravidel
Demonstrace systému vyvolala nadšení. MT bylo očividně možné. Následně odstartovalo mnoho nových projektů, hlavně v USA a Rusku.
Vývoj v 50. letech
MT oblast podnítila rozvoj a výzkum na poli
teoretické lingvistiky (Chomsky) počítačové lingvistiky ► umělé inteligence (60. léta)
► s větším pokrytím kvalita strojového překladu klesala
► i nejlepší systémy (GAT, Georgetown, RU^EN) poskytovaly nepoužitelný výstup
Zklamání ze slabých výsledků
► i přes nevalné výsledky přetrvával optimismus
► Yehoshua Bar-Hillel píše v roce 1959 kritiku stavu strojového překladu
► tvrdí, že počítače nejsou schopné provádět lexikální desambiguaci
► fully automated high-quality translation (FAHQT) podle Bar-Hillela stěží dosažitelné
Yehoshua Bar-Hillel - příklad pro desambiguaci
Little John was looking for his toy box. Finally, he found it. The box was in the pen. John was very happy.
Výdaje na projekty strojového překladu se začaly snižovat.
ALPAC report
► Automatic Language Processing Advisory Commitee
► organizace pod U.S. National Academy of Science
► analýzy a vyhodnocení kvality a použitelnosti systémů MT
► doporučila omezit výdaje na podporu strojového překladu
► vývoj strojového překladu v Evropě a Japonsku pokračoval nepřerušené dál
► celých 15 let trvalo než MT v USA znovu získal vážnost a původní postavení
TAUM, METEO
TAUM
► Traduction Automatique ä l'Université de Montreal
► Universitě de Montreal in 1965
► prototypy MT systémů: TAUM-73, TAUM-METEO
► jedny z prvních systémů provádějící automatický překlad přes analýzu zdrojového jazyka a syntézu cílového jazyka
► překlad z angličtiny do francouzštiny METEO
► 1981-2001 používán pro překlad předpovědí počasí
► autor John Chandiou, Kanada
Systran
► jedna z nejstarších MT firem (1968)
► velmi populární překladový systém
► základ Yahoo Babel fish, do r. 2007 využíván v Google
► RBMT, od r. 2010 hybridní překlad
► od r. 1976 oficiální MT systém používaný Evropským hospodářským společenstvím
Strojový překlad v současnosti
► intenzivní sběr paralelních dat
► vývoj systémů vzhledem k hodnotícím metrikám
► USA: zájem o angličtinu jako TL
► EU: překlad mezi 23 úředními jazyky EU (EuroMatrix)
► korporace (Microsoft) zaměřeny na En jako SL
► SMT obohacována syntaxí
► velké páry (En^Sp, En^Fr): velmi dobrý překlad
► Google Translate jako gold standard
► morfologicky bohaté jazyky jsou opomíjeny
► En-* a *-En páry převažují
Motivace pro strojový překlad ve 21. století
překlad webových stránek pro pochopení obsahu (gisting)
► metody pro výrazné urychlení překladatelské práce (překladové paměti)
► extrakce a vyhledávání informací mezi jazyky (cross-lingual IR)
► instantní překlad instantní komunikace
► překlad na mobilních zařízeních
EuroMatrix, 2006-2009
► překlad všech párů EU jazyků
► využití lingvistické znalosti ve statistickém MT
► vývoj a testování hybridních architektur
► každoroční vyhodnocování kvality MT
► open source: nástroje, software, data
► přehled stavu MT pro EU jazyky
Závěr úvodu
► strojový překlad patří mezi Ul-kompletní problémy
► máme k dispozici obrovskou výpočetní sílu
► tržní potenciál je větší než kdy dřív
► statistické metody se aktuálně zdají vhodnější
► nové nápady jsou vítány! (BP, DP)
Rule-based Machine Translation - RBMT
► lingvistické znalosti formou pravidel
► pravidla pro analýzu
► pravidla pro převod struktur mezi jazyky
► pravidla pro syntézu
► Knowledge-based Machine Translation
Rozdělení systémů RBMT:
► přímý překlad
► systémy používající interlinguu
► transferové systémy
Interlingua vs. transferové KBMT
Proces analýzy
► tokenizace
► morfologická analýza (značkování)
► morfologická disambiguace (pravidlová, statistická)
► syntaktická analýza
► sémantická analýza: lexikálni disambiguace
slovo	analýzy	disambiguace
Pravidelné	k2eAgMnPc4d1, k2eAglnPc1 d1, k2eAglnPc4d1, k2eAglnPc5d1, k2eAgFnSc2d1, k2eAgFnSc3d1, k2eAgFnSc6d1, k2eAgFnPc1d1, k2eAgFnPc4d1, k2eAgFnPc5d1, k2eAgNnSc1d1, k2eAgNnSc4d1, k2eAgNnSc5d1, ... (+5)	k2eAgNnSc1d1
krmení	k2eAgMnPc1 d1, k2eAgMnPc5d1, k1 gNnSd, k1gNnSc4, k1gNnSc5, k1gNnSc6, k1gNnSc3, k1gNnSc25 k1gNnPc25 klgNnPd, k1gNnPc45 k1gNnPc5	klgNnSd
je	k5eAalmlp3nS5 k3p3gMnPc45 k3p3glnPc45 k3p3gNnSc45 k3p3gNnPc45 k3p3gFnPc45 kO	k5eAalmlp3nS
pro	k7c4	k7c4
správný	k2eAgMnSc1d15 k2eAgMnSc5d1, k2eAglnSc1d1, k2eAglnSc4d15 k2eAglnSc5d1, ... (+18)	k2eAglnSc4d1
růst	k5eAalmF5 klglnSd, k1glnSc4	k1glnSc4
důležité	k2eAgMnPc4d1, k2eAglnPd d1, k2eAglnPc4d1, k2eAglnPc5d1, k2eAgFnSc2d1, k2eAgFnSc3d1, k2eAgFnSc6d1, k2eAgFnPdd1, k2eAgFnPc4d1, k2eAgFnPc5d15 k2eAgNnSdd1, k2eAgNnSc4d1, k2eAgNnSc5d15 ... (+5)	k2eAgNnSdd1
Statistický MT
► pravidlové systémy motivovány lingvistikou
► SMT inspirován teorií informace a statistikou
► 50 miliónů stránek denně přeložených pomocí SMT
► gisting: stačí, má-li překlad nějaký užitek, nepotřebujeme přesný význam; nejčastější užití MT na internetu
Schéma SMT
Spanish/English Bilingual Text
CEnglish Text ^)
Statistical Analysis Statistical Analysis
Spanish
Broken English
English
Translation Model
Language Model
4 *
Decoding Algorithm
argmax P(e)*p(s|e)
Data pro SMT - (paralelní) korpusy
► Europarl: kolekce textů Evropského parlamentu
► OPUS: paralelní texty různého původu
► Acquis Communautaire: právní dokumenty Evropské únie (20 jazyků)
► volně dostupné jsou řádově 10 a 100 miliónů slov veliké
► vícejazyčné stránky (Wikipedie)
► srovnatelné korpusy (comparable corpora): texty ze stejné domény, ne přímé překlady: New York Times - Le Monde
► Kapradí - korpus překladů Shakespearových dramat (Fl)
► InterCorp - ručně zarovnané beletr. texty (ČNK, FFUK)
SMT - princip noisy channel
Vyvinut Shannonem (1948) pro potřeby samoopravujících se kódů, pro korekce kódovaných signálů přenášených po zašuměných kanálech na základě informace o původní zprávě a typu chyb vznikajících v kanálu.
Příklad s OCR. Rozpoznávání textu z obrázků je chybové, ale dokážeme odhadnout, co by mohlo být v textu (jazykový model) a jaké chyby často vznikají: záměna 1-1 -I, rn-m apod.
e* = arg maxp(e|ř)
e
p{e)p{f\e) = arg max    ' ,\
p{f)
= arg maxp(e)p(ř|e).
e
Jazykové modely
► LM pomáhají zajistit plynulý výstup (správný slovosled)
► LM pomáhají s WSD v obecných případech
► pokud má slovo více významů, můžeme vybrat nejčastější překlad {pen pero)
► ve speciálních textech nelze použít, ale
► LM pomáhají s WSD pomocí kontextu
► PlmO 9° home) > pLM{\ go house)
N-gramové modely
► n-gram je nejdůležitější nástroj ve zpracování řeči a jazyka
► využití statistického pozorování dat
Generování unigramy
To him swallowed confess hear both. Which. Of save on trail for are ay device and rote life have Every enter now severally so, let.
Generování trigramy
Sweet prince, Falstaff shall die. Harry of Monmouth's grave. This shall forbid it should be branded, if renown made it empty.
Kvalita a srovnání jazykových modelů
Chceme být schopni porovnávat kvalitu různých jazykových modelů (trénovány na různých datech, pomocí jakých n-gramů, jak vyhlazených apod.).
Je možné použít 2 přístupy: vnější (extrinsic) a vnitřní (intrinsic) vyhodnocení.
Dobrý model by měl přiřadit dobrému textu vyšší pravděpodobnost než špatnému textu.
Pokud máme nějaký testovací text, můžeme spočítat pravděpodobnost, jakou mu přiřazuje zkoumaný LM. Lepší LM by mu měl přiřadit vyšší pravděpodobnost.
Vyhlazování jazykových modelů
Problém: pokud není v datech určitý n-gram, který se vyskytne v řetězci w, pro který hledáme pravděpodobnost, bude p{w) = 0.
Potřebujeme rozlišovat p i pro neviděná data. Musí platit
Mw.p{w) > 0 Ještě větší je problém u modelů vyšších řádů.
Snaha o upravení reálných počtů n-gramů na očekávané počty těchto n-gramů v libovolných datech (jiných korpusech).
Add-one, add-alpha, deleted estimation, Good-Turing vyhlazování
Interpolace
Předchozí metody zacházely se všemi neviděnými n-gramy stejně. Předpokládejme 3-gramy:
nádherná červená řepa nádherná červená mrkev
I když ani jeden nemáme v trénovacích datech, první 3-gram by měl být pravděpodobnější.
Budeme využívat pravděpodobnosti n-gramů nižších řádů, u kterých máme k dispozici více dat:
červená řepa červená mrkev
Velké jazykové modely - počet n-gramů
Kolik je různých n-gramů v korpusu?
řád	unikátní	singletony
unigram	86700	33447 (38,6%)
bigram	1 948 935	1 132844 (58,1 %)
trigram	8092798	6022286 (74,4%)
4-gram	15 303 847	13 081 621 (85,5%)
5-gram	19882175	18324577 (92,2%)
Europarl, 30 miliónů tokenů.
Výpočet překladové pravděpodobnosti
Pro výpočet p(e, a|f) potřebujeme znát hodnotu funkce t pro všechna slova (věty).
K tomu budeme využívat základní zdroj pro SMT: paralelní korpus se zarovnanými větami.
Bohužel nemáme zarovnání slov mezi sebou. To je úkol tzv. word-alignment.
Ke slovu přichází expectation-maximization (EM) algoritmus.
Ilustrace EM algoritmu
..,  la maison ..,  la maison blue  .,.  la fleur ,..
... the house  ,,, the blue house ... the flower .,. ..,  la maison .,.  la maison bleu  ,..  la fleur  ,..
... the house  ... the blue house .,. the flower ...
p(la|the)  = 0,453 p(le|the)   - 0.334 p(maison|house)  = 0,876 p(bleu|blue)  = 0,563
Matice zarovnání slov
0
cti o E
-t—1 o
-C >
0 Cti
O) "O
CO
cti
CO CO
cti
"O
o5 .1
CO _Q
Cti ^ JZ _Q
Problémy se zarovnáním slov
Frázový překladový model
State-of-the-art statistického strojového překladu. Nepřekládají se pouze samostatná slova. Když to jde, tak i celé sekvence slov.
natuerlich
of course
spass am
spiel
fun with the
game
Fráze nejsou lingvisticky motivované, pouze statisticky. Německé am se zřídka překládá jedním slovem with. Statisticky významný kontext spass am pomáhá správnému překladu. Klasické fráze by se dělily jinak: (fun (with (the game))).
Výhody PBTM
► často překládáme n : m slov, slovo je tedy nevhodný atomický prvek
► překlad skupin slov pomáhá řešit překladové víceznačnosti
► můžeme se učit překládat delší a delší fráze
► jednodušší model: neuvažujeme fertilitu, NULL token atd.
Extrahování frází
michael assumes that he will stay in the house
Automatické hodnocení překladu
► výhody: rychlost, cena; nevýhody: měříme opravdu kvalitu?
► gold standard: ručně připravené referenční překlady
► kandidát c se srovnává s n referenčními překlady r,
► různé přístupy: n-gramová shoda mezi c a r,, editační vzdálenost, ...
Pokrytí a přesnost na slovech
Nejjednodušší způsob automatického hodnocení
system a:     Israeli officials rooponoibility ef airport safety
/ / \
reference:   Israeli officials are responsible for airport security
► přesnost
correct
output-length 6
= - = 50°/
► pokrytí
correct
reference-length 7
= = = 43°/
► f-score
precision x recall
.5 x .43
(precision + recall) /2    (.5 + .43) /2
= 46%
Pokrytí a přesnost - nedostatky
system a:     Israeli officials rooponoibility ef airport safety reference:   Israeli officials are responsible for airport security
system b:    airport security Israeli officials are responsible
metrika	systém A	systém B
přesnost	50%	100%
pokrytí	43%	100%
f-score	46%	100%
Nepostihuje se nesprávný slovosled.
nejznámější (standard), nejpoužívanější, nejstarší (2001) IBM, Papineni
n-gramová shoda mezi referencí a kandidáty počítá se přesnost pro 1 až 4-gramy extra postih za krátkost (brevity penalty)
BLEU = min 1
output-length
(J J precisionj)4
/=1
reference-length
BLEU - příklad
system a:
Israeli officials | responsibility of | airport | safety
2-gram match 1 -gram match
reference:   Israeli officials are responsible for airport security
system b:
airport security 11Israeli officials are responsible
2-gram match 4-gram match
metrika	systém A	systém B
přesnost (1gram)	3/6	6/6
přesnost (2gram)	1/5	4/5
přesnost (3gram)	0/4	2/4
přesnost (4gram)	0/3	1/3
brevity penalty	6/7	6/7
BLEU	0%	52%
Další metriky
► NIST, N EVA
► WAFT
► Word Accuracy for Translation
► editační vzdálenost mezi car
► WAFT = 1 - J+f+j >
max(lr,lc)
► TER
► Translation Edit Rate
► nejmenší počet kroků (smazání, přidání, prohození, změna) ^ -|-ER _     počet editací
*       ~ prům. počet ret slov
► METEOR
► uvažuje synonyma (WordNet) a
► morfologické varianty slov
Hodnocení hodnotících metrik
Korelace automatického hodnocení s manuálním.
Hodnocení překladu podle jazykových párů
		EG			- A	« 1		- 1			HU	* 1		ut	Mf	N-			=11			
	J	101	-e e	123	103	413	11.2	e- e	333	JO.l	372	104	593	434	33 3	:i 3	-3 2	113	493	44.7	10.7	123
as			33.7	334	393	341	43.9	211	26.7	424	22 :■	-e :	293	29.1	213	443	31.1	413	33 3	34..1	34.1	59.9
:?=	15 3	253	J	= ľ 4	43.1	323	47.1	25.7	231	394	27 S	42.7	273	503	193	502	50.2	44.1	30.7	294	314	41.2
(5	ä*	323	42.5	>	-3 e	343	43.9	30.7	301	413	274	443	341	313	11 3	131	392	41.7	361	433	413	42.9
HA	17 jS	25.7	44.1	31.7	J	343	47.1	273	313	413	242	433	29.7	= £ E	21.1	431	343	414	53.9	333	552	47.2
EL	591	324	45.1	37.7	ľ	>	14.0	251	233	43.5	23.7	49.5	293	323	133	433	542	ľ	= 7 2	53.1	553	45.3
3 3	50 jo	31.1	42.7	371	444	394	J	214	231	113	243	11.7	253	301	24 3	433	553	173	33.1	31.7	553	43.7
ET	523	24.5	373	312	373	232	-j 4	J	37.7	334	503	373	513	55.9	201	413	523	373	233	503	523	= ľ =
H	«3	232	ee j	32 jo	573	272	39.7	343	J	291	272	EE E	301	3:.:	194	-:■ 3	233	371	251	273	232	37.6
= =:	:— :■	5-4-1	41.1	E31	474	4£3	50.9	25.7	303	J	211	15.1	233	313	25 3	113	51.7	513	43 3	53.1	513	41.3
-_■	453	24.7	=43	503	353	211	34.1	293	25 4	30.7	J	331	293	313	13.1	55.1	2= 5	=4 2	25.7	253	25 2	30.1
ir	513	32.1	■143	ee e	453	403	2E e	213	29.7	12.7	242	J	294	323	243	501	512	151	393	321	34.7	44 E
LT	au	275	333	37 jo	553	231	11.1	342	323	= 44	231	553	J	10.1	:: 2	53.1	513	313	19.5	313	513	31.5
lv	MjO	23.1	= ľ ľ.	373	331	23.7	25.3	34.2	324	313	233	53.9	534	/	233	411	544	593	513	333	57.1	55.0
v-	72_1	EDC3	37.2	373	533	33.7	43.7	253	2ľ e	424	11-	-E ľ	332	532	J	443	3T .	41.9	53.9	313	403	41.6
^.	153	233	433	373	414	313	13.7	271	233	434	:: =	441	2= E	31.7	223	J	523	47.7	533	50.1	=4 5	43.6
PL	503	311	402	—:	42.1	3*2	43.2	292	29 3	403	241	432	332	313	273	— 5	/	44.1	= = 2	= = 2	593	42.1
PT	50.7	314	423	334	e	40.2	63.7	234	292	152	233	123	233	311	243	493	541	J	394	32.1	344	43.9
Ed	503	33.1	331	373	403	313	.504	24 e	25 2	451	:■	— =	234	233	23.7	433	513	-E:	J	311	51.1	394
3-í	50*	325	39 .i	13.1	4<3	ee e	43.2	293	234	394	274	413	553	33 ~	231	—-	393	433	313	J	42 3	41.3
e.	613	33.1	373	431	-L e	343	47.0	31.1	2E e	332	21.7	423	343	373	303	413	532	44.1	513	533	/	42.7
5*	151	253	413	313	-e e	333	-e e	274	30 3	e e e	22.7	423	2= :	313	23.7	413	52:	— 2	32.7	= . =	551	J