PHILOLOGICA.NET |
An Online Journal of Modern Philology | ISSN 1214-5505 |
Poznámka o překládání metodou ‚hrubá síla‘[A note on brute-force method of translation]Martin Drápela
2007-01-02
The author briefly comments on the latest development in the area of machine translation by considering the consequences brute-force translation method can have for the work of linguists and/or language teachers. Nedávno vyšla na www serveru vědeckého časopisu Nature zajímavá zpráva (viz Giles 2006) o úspěších společnosti Google, známé především skrze svůj vyhledávací systém, v tvorbě a aplikaci algoritmů pro počítačově generovaný, neboli strojový překlad. Obsah této zprávy má dle mého názoru zásadní význam nejen pro celou lingvisticko-překladatelskou obec, ale i pro kohokoliv, kdo si kdy chtěl něco nechat dát přeložit do jazyka, který zcela neovládal. Tato zpráva v českých médiích vzbudila kupodivu jen pramálo pozornosti. Společnosti Google se podařil vskutku husarský kousek, když se jí v překladatelské soutěži amerického standardizačního institutu NIST ve strojovém překladu z arabštiny do angličtiny a z čínštiny do angličtiny podařilo několikrát v celkovém skóre porazit všechny ostatní soutěžící. A že konkurence byla v tomto klání skutečně těžká, o tom svědčí nejenom účast dalších IT gigantů jako je IBM či Microsoft, ale i účast prestižních univerzit jako např. Cambridge University, University of California Berkeley, University of Edinburgh a mnoho dalších, celkově pak čtyřicet organizací z devíti zemí světa: Čína, Egypt, Irsko, Itálie, Japonsko, Kanada, Spojené království, Španělsko a USA. Mluvit o husarském kousku je zde přitom zcela namístě, neboť jak se zdá, uvedenými úspěchy vstupujeme do věku, kdy pro překlad nebude vůbec důležitá znalost gramatické stavby jazyka, z/do něhož se překládá, ale prostě jen co největší množství jazykových vzorků zdrojového a cílového jazyka. Jak uvádí zpráva serveru Nature.com, „Google has built an English translation tool for Chinese and Arabic texts — using a team that speaks neither of the two languages.“ (Giles 2006). Situace, kdy více než kdy jindy začíná platit, že na velikosti záleží, staví do dosti nepříjemné pozice veškeré syntaktické teorie. I poměrně nedávná předpověď profesora Petra Sgalla z Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy v Praze může v této souvislosti ukázat, jak obrovský posun tato situace znamená: „Pokud jde o komputační lingvistiku, nenaplňují se obavy, podle kterých by informatici (‘computer people’) se svou ‚hrubou silou‘ a s uplatňováním statistických postupů ovládli pole a zatlačili starou dobrou lingvistiku.“ (Sgall 1999: 163) Prozatím se dá ještě předpokládat, že se překladové algoritmy vyhledávače Google a jiných společností kvalitnímu překladateli nevyrovnají stoprocentně, a tedy že kvalititní překladatelé o své živobytí nepřijdou. Podobně budeme mít těžko v dohledné době na Googlu možnost automatických překladů z angličtiny do češtiny a opačně. Můžeme se nicméně alespoň v rychlosti podívat, jak výsledek současného strojového překladu vypadá v podání vyhledávače Google alespoň na angličtině. Pro krátké srovnání jsem vybral úryvek textu (konkrétně článek I-2) z tzv. Evropské ústavy. Pro metodu používanou Googlem má být charakteristické právě to, že překlady provádí porovnáváním/přiřazováním odpovídajících si pasáží v různých jazykových verzích téhož sdělovaného obsahu. Existence více jazykových verzí budoucí Evropské ústavy se proto jeví jako velmi vhodná volba jazykového materiálu. U tak zásadního dokumentu přitom předpokládám, že již zveřejněná znění prošla poměrně přísnými jazykovými úpravami.[1] Nejprve uvádím oficiální české znění zvolené pasáže, pak oficiální znění anglické a následně pět překladů pořízených Googlem dne 2. ledna 2007 prostřednictvím nástroje Translate (Translate text) na www stránce http://www.google.com/language_tools?hl=en. Oficiální jazykové předlohy těchto překladů uvádím v příloze. Oficiální česká verzeHodnoty Unie Oficiální anglická verzeThe Union's values Překlad oficiální německé verzeThe values of the union Překlad oficiální španělské verzeValues of the Union Překlad oficiální francouzské verzeValues of the Union Překlad oficiální italské verzeValues of the Union Překlad oficiální portugalské verzeValues of the Union Uvedené překlady se bezesporu velice blíží tomu, co vyjadřuje oficiální anglická verze.[2] Na druhé straně i v těchto strojově pořízených překladech lze nalézt místa, která by si zasloužila zásah lidského korektora, potažmo vyladění vyhledávacích algoritmů: The Union is founded ...: ... human dignity ...: ... in a society in which ...: ... the rule of law ...: Nelze už však dle mého názoru pro takto vyhotovený strojový překlad používat označení orientační, které je myslím ještě do značné míry stále vžité pro překladový software. Je však možné, že orientačními by se mohly stát výsledky strojového překládání textů jiných stylových rovin. Abych se vyhnul spekulacím na toto téma, ponechávám potvrzení čí vyvrácení této domněnky dalšímu výzkumu. Existují-li nějaké obavy z uplatňování „hrubé síly“ realizující tyto překlady, pak náleží spíše tvůrcům slovníků a gramatik, respektive jazykovědcům obecně. Doposud šlo totiž o to, zjišťovat podstatu jazyka a jazykové komunikace v rámci lidského(!) společenství. Na pozadí výše uvedeného lze nicméně očekávat, že do komunikátů vytvořených člověkem budou stále více a více přimíchávány texty poskládané ve vyhledávacích strojích a síťových gridech. Bude i poté možné si položit otázku, zdali rodilí mluvčí užívají ve významu právní stát kolokaci state of right nebo spíše rule of law? Co pak jazykovědci či učiteli angličtiny řekne bleskový výpis z korpusu? Pokud by se do takového korpusu dostaly výše uvedené překlady, zřejmě by tou „kvantitativně správnou“ kolokací musela být ta první. Koho však budeme považovat za tvůrce této kolokace? Člověka nebo stroj? Jak budeme poté definovat pojmy langue a parole? PřílohaOficiální německé zněníDie Werte der Union Oficiální španělskě zněníValores de la Unión Oficiální francouzské zněníLes valeurs de l'Union Oficiální italské zněníValori dell'Unione Oficiální portugalské zněníValores da Uniao Poznámky[1] O výskytu chyb v překladech budoucí Evropské ústavy bylo v tisku referováno, viz např. „The translation of the European constitution proved a particular challenge, with dozens of mistakes identified in the Polish and Latvian versions.“ (Lungescu 2005). [2] Pojmenováním oficiální zde samozřejmě není používáno ve smyslu původní, vzorový, podkladový, pokud o tomto právním dokumentu uvažujeme jako o textu vznikajícím nikoliv v rámci jedné národní vlády v EU. LiteraturaGiles, J.: „Google tops translation ranking“, nature.com [online], 7. listopadu 2006 [citováno 12. listopadu 2006]. Dostupné na WWW: <http://www.nature.com/news/2006/061106/full/061106-6.html>. ISSN: 1744-7933. Lungescu, O.: „EU seeks to woo young Europeans“, BBC News [online], 21. července 2005 [citováno 2. ledna 2007]. Dostupné na WWW: <http://news.bbc.co.uk/2/hi/europe/4703289.stm>. NIST (National Institute of Standards and Technology): NIST 2006 Machine Translation Evaluation Official Results [online], 1. listopadu 2006 [citováno 12. listopadu 2006]. Dostupné na WWW: <http://www.nist.gov/speech/tests/mt/mt06eval_official_results.html>. de Saussure, F.: Kurs obecné lingvistiky, Praha: Academia, 1996. ISBN 80-200-0560-9. Sgall, P.: „Čekající možnosti a číhající propasti“, Slovo a slovesnost, 1999, roč. 60, č. 3, str. 161-175. ISSN 0037-7031. Vainert, L.: „Nejlepší překladatel se opičí“, lidovky.cz [online], 10. listopadu 2006 [citováno 12. listopadu 2006]. Dostupné na WWW: <http://lidovky.zpravy.cz/nejlepsi-prekladatel-se- Aktualizace článku (27. února 2007)Považuji za důležité k tomuto článku netradičně přopojit tuto poznámku, která doufám vnese více světla do otázky „Jaké algoritmy u společnosti Google tedy překládají texty?“. Po dalším zkoumání zde uvedené problematiky jsem se totiž dostal i k www stránce SYSTRANBox společnosti Systran, na které je možné si rovněž nechat přeložit texty do různých jazyků. Pokusný překlad výše uvedeného francouzského znění do angličtiny prostřednictvím aplikace SYSTRANBox vedl k následujícímu výsledku Values of the Union jenž je velmi nápadně podobný tomu, který při přípravě tohoto článku vyprodukoval překladač společnosti Google. I další letmý pokus s překladem německého znění do angličtiny prostřednictvím SYSTRANSBoxu The values of the union tedy spíše dokazuje to, že zřejmě všechny výše uvedené překlady Googlu budou mít původ v algoritmech společnosti Systran, která je podle www stránky Corporate Profile rovněž dodavatelem technologií pro Google. Cituji: „SYSTRAN is the market leader in providing language translation software products and solutions for the desktop, enterprise and Internet that help individuals, small and mid-sized businesses, and large enterprises instantly translate and understand multilingual information and communicate more effectively in multiple languages. ... With over three decades of expertise, SYSTRAN products and solutions are the choice of leading global corporations, portals such as Google™, Yahoo!®, and Wanadoo, and public agencies like the US Intelligence Community and the European Commission. “ Je tedy možné se domnívat, že překlady uvedené výše v článku mají svůj původ právě v algoritmech společnosti Systran. (Na jakém principu pracují překladové stroje zmíněné společnosti jsem však nezjišťoval.) Tento závěr dokresluje také informace uvedená na stránce Google Translate FAQ, kde Google tvrdí, že vyvinul své vlastní překladové nástroje používající statistickou metodu, „Yes. Google's research group has developed its own statistical translation system for several language pairs now available on Google Translate.“ ale ihned doplňuje, že jím vytvořená statistická metoda překládání je použita prozatím u následujících kombinací jazyků:
Tuto poznámku si tedy v tuto chvíli dovoluji uzavřít s tím, že překlady, které jsou uvedeny výše v článku, s největší pravděpodobností nejsou výsledkem použití statistické metody překladu, tedy metody překládání hrubou silou. GOOGLE: Google Translate FAQ [online], 26. února 2007 (20:10:38) [citováno 27. února 2007]. Dostupné na WWW: <http://www.google.co.uk/intl/en/help/faq_translation.html>. SYSTRAN S.A.: Corporate Profile [online], 1. února 2007 [citováno 27. února 2007]. Dostupné na WWW: <http://www.systransoft.com/index/About-Systran/Corporate-Profile>. SYSTRAN S.A.: SYSTRANBox.com service [online], 1. ledna 2007 [citováno 27. února 2007]. Dostupné na WWW: <http://www.systranbox.com/systran/box>. |
[Viewed on 2024-12-04] |
Philologica.net is published by Albis - Giorgio Cadorini |
(From 2004 to 2016 the journal was published by The Vilém Mathesius Society, Opava, Czech Republic) |
Copyright © 2003-2024, Philologica.net |