PHILOLOGICA.NET
An Online Journal of Modern Philology ISSN 1214-5505
 

Poznámka o překládání metodou ‚hrubá síla‘

[A note on brute-force method of translation]

Martin Drápela

2007-01-02

The author briefly comments on the latest development in the area of machine translation by considering the consequences brute-force translation method can have for the work of linguists and/or language teachers.

Nedávno vyšla na www serveru vědeckého časopisu Nature zajímavá zpráva (viz Giles 2006) o úspěších společnosti Google, známé především skrze svůj vyhledávací systém, v tvorbě a aplikaci algoritmů pro počítačově generovaný, neboli strojový překlad. Obsah této zprávy má dle mého názoru zásadní význam nejen pro celou lingvisticko-překladatelskou obec, ale i pro kohokoliv, kdo si kdy chtěl něco nechat dát přeložit do jazyka, který zcela neovládal. Tato zpráva v českých médiích vzbudila kupodivu jen pramálo pozornosti.

Společnosti Google se podařil vskutku husarský kousek, když se jí v překladatelské soutěži amerického standardizačního institutu NIST ve strojovém překladu z arabštiny do angličtiny a z čínštiny do angličtiny podařilo několikrát v celkovém skóre porazit všechny ostatní soutěžící. A že konkurence byla v tomto klání skutečně těžká, o tom svědčí nejenom účast dalších IT gigantů jako je IBM či Microsoft, ale i účast prestižních univerzit jako např. Cambridge University, University of California Berkeley, University of Edinburgh a mnoho dalších, celkově pak čtyřicet organizací z devíti zemí světa: Čína, Egypt, Irsko, Itálie, Japonsko, Kanada, Spojené království, Španělsko a USA.

Mluvit o husarském kousku je zde přitom zcela namístě, neboť jak se zdá, uvedenými úspěchy vstupujeme do věku, kdy pro překlad nebude vůbec důležitá znalost gramatické stavby jazyka, z/do něhož se překládá, ale prostě jen co největší množství jazykových vzorků zdrojového a cílového jazyka. Jak uvádí zpráva serveru Nature.com,

„Google has built an English translation tool for Chinese and Arabic texts — using a team that speaks neither of the two languages.“ (Giles 2006).

Situace, kdy více než kdy jindy začíná platit, že na velikosti záleží, staví do dosti nepříjemné pozice veškeré syntaktické teorie. I poměrně nedávná předpověď profesora Petra Sgalla z Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy v Praze může v této souvislosti ukázat, jak obrovský posun tato situace znamená:

„Pokud jde o komputační lingvistiku, nenaplňují se obavy, podle kterých by informatici (‘computer people’) se svou ‚hrubou silou‘ a s uplatňováním statistických postupů ovládli pole a zatlačili starou dobrou lingvistiku.“ (Sgall 1999: 163)

Prozatím se dá ještě předpokládat, že se překladové algoritmy vyhledávače Google a jiných společností kvalitnímu překladateli nevyrovnají stoprocentně, a tedy že kvalititní překladatelé o své živobytí nepřijdou. Podobně budeme mít těžko v dohledné době na Googlu možnost automatických překladů z angličtiny do češtiny a opačně. Můžeme se nicméně alespoň v rychlosti podívat, jak výsledek současného strojového překladu vypadá v podání vyhledávače Google alespoň na angličtině.

Pro krátké srovnání jsem vybral úryvek textu (konkrétně článek I-2) z tzv. Evropské ústavy. Pro metodu používanou Googlem má být charakteristické právě to, že překlady provádí porovnáváním/přiřazováním odpovídajících si pasáží v různých jazykových verzích téhož sdělovaného obsahu. Existence více jazykových verzí budoucí Evropské ústavy se proto jeví jako velmi vhodná volba jazykového materiálu. U tak zásadního dokumentu přitom předpokládám, že již zveřejněná znění prošla poměrně přísnými jazykovými úpravami.[1]

Nejprve uvádím oficiální české znění zvolené pasáže, pak oficiální znění anglické a následně pět překladů pořízených Googlem dne 2. ledna 2007 prostřednictvím nástroje Translate (Translate text) na www stránce http://www.google.com/language_tools?hl=en. Oficiální jazykové předlohy těchto překladů uvádím v příloze.

Oficiální česká verze

Hodnoty Unie
Unie je založena na hodnotách úcty k lidské důstojnosti, svobody, demokracie, rovnosti, právního státu a dodržování lidských práv, včetně práv příslušníků menšin. Tyto hodnoty jsou společné členským státům ve společnosti vyznačující se pluralismem, nepřípustností diskriminace, tolerancí, spravedlností, solidaritou a rovností žen a mužů.

Oficiální anglická verze

The Union's values
The Union is founded on the values of respect for human dignity, freedom, democracy, equality, the rule of law and respect for human rights, including the rights of persons belonging to minorities. These values are common to the Member States in a society in which pluralism, non-discrimination, tolerance, justice, solidarity and equality between women and men prevail.

Překlad oficiální německé verze

The values of the union
The values, on which the union is based, are the attention, liberty, democracy, equality, right nationalness and the keeping of the human rights including the rights of the persons, who belong to minorities. These values are common to all member states in a society, which is characterised by Pluralismus, non-discrimination, tolerance, justice, solidarity and the equality of women and men.

Překlad oficiální španělské verze

Values of the Union
The Union is based on the values of respect of the human dignity, freedom, democracy, equality, State of Right and respect of the human rights, including the rights of the people pertaining to minorities. These values are common to the States members in a society characterized by pluralism, the nondiscrimination, the tolerance, justice, solidarity and the equality between women and men.

Překlad oficiální francouzské verze

Values of the Union
The Union is founded on the values of respect of human dignity, freedom, democracy, equality, the State of right, as well as respect of the human rights, including rights of the people belonging to minorities. These values are common to the Member States in a company characterized by pluralism, the non-discrimination, the tolerance, justice, solidarity and the equality between the women and the men.

Překlad oficiální italské verze

Values of the Union
The Union I found myself on the values of the respect of the human dignity, the freedom, the democracy, the equality, the State of right and the respect of the human rights, comprised the rights of the persons pertaining to one minority. These values are common to the States members in one society characterized from the pluralismo, from not the discrimination, the tolerance, the justice, the solidarity and the parity between women and men.

Překlad oficiální portugalské verze

Values of the Union
The Union establishes in the values of the respect for the dignity human being, of the freedom, the democracy, the equality, the Rule of law and the respect of the rights, including of the rights of the pertaining people the minorities. These values are common to State-Member, in a society characterized for pluralism, not the discrimination, the tolerance, justice, solidarity and the equality between women and men.

Uvedené překlady se bezesporu velice blíží tomu, co vyjadřuje oficiální anglická verze.[2] Na druhé straně i v těchto strojově pořízených překladech lze nalézt místa, která by si zasloužila zásah lidského korektora, potažmo vyladění vyhledávacích algoritmů:

The Union is founded ...:
is based (něm./šp.), I found myself (it.), establishes (port.)
... human dignity ...:
the attention (něm.), the dignity human being (port.)
... in a society in which ...:
in a society, which is (něm.), in one society (it.)
... the rule of law ...:
right nationalness (něm.), State of Right (šp./fr./it.)

Nelze už však dle mého názoru pro takto vyhotovený strojový překlad používat označení orientační, které je myslím ještě do značné míry stále vžité pro překladový software. Je však možné, že orientačními by se mohly stát výsledky strojového překládání textů jiných stylových rovin. Abych se vyhnul spekulacím na toto téma, ponechávám potvrzení čí vyvrácení této domněnky dalšímu výzkumu.

Existují-li nějaké obavy z uplatňování „hrubé síly“ realizující tyto překlady, pak náleží spíše tvůrcům slovníků a gramatik, respektive jazykovědcům obecně. Doposud šlo totiž o to, zjišťovat podstatu jazyka a jazykové komunikace v rámci lidského(!) společenství. Na pozadí výše uvedeného lze nicméně očekávat, že do komunikátů vytvořených člověkem budou stále více a více přimíchávány texty poskládané ve vyhledávacích strojích a síťových gridech.

Bude i poté možné si položit otázku, zdali rodilí mluvčí užívají ve významu právní stát kolokaci state of right nebo spíše rule of law? Co pak jazykovědci či učiteli angličtiny řekne bleskový výpis z korpusu? Pokud by se do takového korpusu dostaly výše uvedené překlady, zřejmě by tou „kvantitativně správnou“ kolokací musela být ta první. Koho však budeme považovat za tvůrce této kolokace? Člověka nebo stroj? Jak budeme poté definovat pojmy langue a parole?

Příloha

Oficiální německé znění

Die Werte der Union
Die Werte, auf die sich die Union gründet, sind die Achtung der Menschenwürde, Freiheit, Demokratie, Gleichheit, Rechtsstaatlichkeit und die Wahrung der Menschenrechte einschließlich der Rechte der Personen, die Minderheiten angehören. Diese Werte sind allen Mitgliedstaaten in einer Gesellschaft gemeinsam, die sich durch Pluralismus, Nichtdiskriminierung, Toleranz, Gerechtigkeit, Solidarität und die Gleichheit von Frauen und Männern auszeichnet.

Oficiální španělskě znění

Valores de la Unión
La Unión se fundamenta en los valores de respeto de la dignidad humana, libertad, democracia, igualdad, Estado de Derecho y respeto de los derechos humanos, incluidos los derechos de las personas pertenecientes a minorías. Estos valores son comunes a los Estados miembros en una sociedad caracterizada por el pluralismo, la no discriminación, la tolerancia, la justicia, la solidaridad y la igualdad entre mujeres y hombres.

Oficiální francouzské znění

Les valeurs de l'Union
L'Union est fondée sur les valeurs de respect de la dignité humaine, de liberté, de démocratie, d'égalité, de l'État de droit, ainsi que de respect des droits de l'homme, y compris des droits des personnes appartenant a des minorités. Ces valeurs sont communes aux États membres dans une société caractérisée par le pluralisme, la non-discrimination, la tolérance, la justice, la solidarité et l'égalité entre les femmes et les hommes.

Oficiální italské znění

Valori dell'Unione
L'Unione si fonda sui valori del rispetto della dignita umana, della liberta, della democrazia, dell'uguaglianza, dello Stato di diritto e del rispetto dei diritti umani, compresi i diritti delle persone appartenenti a una minoranza. Questi valori sono comuni agli Stati membri in una societa caratterizzata dal pluralismo, dalla non discriminazione, dalla tolleranza, dalla giustizia, dalla solidarieta e dalla parita tra donne e uomini.

Oficiální portugalské znění

Valores da Uniao
A Uniao funda-se nos valores do respeito pela dignidade humana, da liberdade, da democracia, da igualdade, do Estado de Direito e do respeito dos direitos, incluindo dos direitos das pessoas pertencentes a minorias. Estes valores sao comuns aos Estados-Membros, numa sociedade caracterizada pelo pluralismo, a nao discriminaçao, a tolerância, a justiça, a solidariedade e a igualdade entre mulheres e homens.

Poznámky

[1] O výskytu chyb v překladech budoucí Evropské ústavy bylo v tisku referováno, viz např. „The translation of the European constitution proved a particular challenge, with dozens of mistakes identified in the Polish and Latvian versions.“ (Lungescu 2005).

[2] Pojmenováním oficiální zde samozřejmě není používáno ve smyslu původní, vzorový, podkladový, pokud o tomto právním dokumentu uvažujeme jako o textu vznikajícím nikoliv v rámci jedné národní vlády v EU.

Literatura

Giles, J.: „Google tops translation ranking“, nature.com [online], 7. listopadu 2006 [citováno 12. listopadu 2006]. Dostupné na WWW: <http://www.nature.com/news/2006/061106/full/061106-6.html>. ISSN: 1744-7933.

Lungescu, O.: „EU seeks to woo young Europeans“, BBC News [online], 21. července 2005 [citováno 2. ledna 2007]. Dostupné na WWW: <http://news.bbc.co.uk/2/hi/europe/4703289.stm>.

NIST (National Institute of Standards and Technology): NIST 2006 Machine Translation Evaluation Official Results [online], 1. listopadu 2006 [citováno 12. listopadu 2006]. Dostupné na WWW: <http://www.nist.gov/speech/tests/mt/mt06eval_official_results.html>.

de Saussure, F.: Kurs obecné lingvistiky, Praha: Academia, 1996. ISBN 80-200-0560-9.

Sgall, P.: „Čekající možnosti a číhající propasti“, Slovo a slovesnost, 1999, roč. 60, č. 3, str. 161-175. ISSN 0037-7031.

Vainert, L.: „Nejlepší překladatel se opičí“, lidovky.cz [online], 10. listopadu 2006 [citováno 12. listopadu 2006]. Dostupné na WWW: <http://lidovky.zpravy.cz/nejlepsi-prekladatel-se-
opici-d28-/ln_veda.asp?c=A061110_085258_ln_veda_vvr
>. ISSN 1213-1385.

Aktualizace článku (27. února 2007)

Považuji za důležité k tomuto článku netradičně přopojit tuto poznámku, která doufám vnese více světla do otázky „Jaké algoritmy u společnosti Google tedy překládají texty?“. Po dalším zkoumání zde uvedené problematiky jsem se totiž dostal i k www stránce SYSTRANBox společnosti Systran, na které je možné si rovněž nechat přeložit texty do různých jazyků. Pokusný překlad výše uvedeného francouzského znění do angličtiny prostřednictvím aplikace SYSTRANBox vedl k následujícímu výsledku

Values of the Union
The Union is founded on the values of respect of human dignity, freedom, democracy, equality, the State of right, as well as respect of the human rights, including rights of the people belonging has minorities. These values are common to the Member States in a company characterized by pluralism, the non-discrimination, the tolerance, justice, solidarity and the equality between the women and the men..

jenž je velmi nápadně podobný tomu, který při přípravě tohoto článku vyprodukoval překladač společnosti Google. I další letmý pokus s překladem německého znění do angličtiny prostřednictvím SYSTRANSBoxu

The values of the union
The values, on which the union is based, are the attention, liberty, democracy, equality, right nationalness and the keeping of the human rights including the rights of the persons, who belong to minorities. These values are common to all member states in a society, which is characterised by Pluralismus, non-discrimination, tolerance, justice, solidarity and the equality of women and men.

tedy spíše dokazuje to, že zřejmě všechny výše uvedené překlady Googlu budou mít původ v algoritmech společnosti Systran, která je podle www stránky Corporate Profile rovněž dodavatelem technologií pro Google. Cituji:

„SYSTRAN is the market leader in providing language translation software products and solutions for the desktop, enterprise and Internet that help individuals, small and mid-sized businesses, and large enterprises instantly translate and understand multilingual information and communicate more effectively in multiple languages. ... With over three decades of expertise, SYSTRAN products and solutions are the choice of leading global corporations, portals such as Google™, Yahoo!®, and Wanadoo, and public agencies like the US Intelligence Community and the European Commission. “

Je tedy možné se domnívat, že překlady uvedené výše v článku mají svůj původ právě v algoritmech společnosti Systran. (Na jakém principu pracují překladové stroje zmíněné společnosti jsem však nezjišťoval.) Tento závěr dokresluje také informace uvedená na stránce Google Translate FAQ, kde Google tvrdí, že vyvinul své vlastní překladové nástroje používající statistickou metodu,

„Yes. Google's research group has developed its own statistical translation system for several language pairs now available on Google Translate.“

ale ihned doplňuje, že jím vytvořená statistická metoda překládání je použita prozatím u následujících kombinací jazyků:

  • English to/from Arabic
  • English to/from Chinese (Simplified)
  • English to/from Chinese (Traditional)
  • English to/from Russian
  • Chinese (Simplified) to/from Chinese (Traditional).

Tuto poznámku si tedy v tuto chvíli dovoluji uzavřít s tím, že překlady, které jsou uvedeny výše v článku, s největší pravděpodobností nejsou výsledkem použití statistické metody překladu, tedy metody překládání hrubou silou.

GOOGLE: Google Translate FAQ [online], 26. února 2007 (20:10:38) [citováno 27. února 2007]. Dostupné na WWW: <http://www.google.co.uk/intl/en/help/faq_translation.html>.

SYSTRAN S.A.: Corporate Profile [online], 1. února 2007 [citováno 27. února 2007]. Dostupné na WWW: <http://www.systransoft.com/index/About-Systran/Corporate-Profile>.

SYSTRAN S.A.: SYSTRANBox.com service [online], 1. ledna 2007 [citováno 27. února 2007]. Dostupné na WWW: <http://www.systranbox.com/systran/box>.

[Viewed on 2017-06-26]
Philologica.net is published by
Albis - Giorgio Cadorini
(From 2004 to 2016 the journal was published by
The Vilém Mathesius Society,
Opava, Czech Republic)
Copyright © 2003-2017, Philologica.net