Práce s prostým textem

Obsah

Prostý text v OmegaT

Prosté textové soubory obsahují jen textové informace. Tyto soubory nemají žádnou možnost jak jednoznačně informovat počítač o tom, který jazyk obsahují. Globálně řečeno to znamená, že počítač implicitně předpokládá, že obsah souboru je ve stejném jazyce, který tento počítač používá.

Prostý textový soubor je ve většině případů souborem s názvem zakončeným .txt.

Nesprávné zobrazování znaků?

Pokud jste Rus, je velmi pravděpodobné, že Váš počítač pracuje též v ruštině: menu jsou v ruštině, soubory, které otevíráte budou v ruštině atd. Ve většině případů počítač správně předpokládá s ohledem na obsah souborů zhruba toto: všechny tyto soubory obsahují ruštinu a neobsahují nic, co by ruské znaky nemohli zobrazit.

Nyní, pokud jste ruský překladatel, který překládá z japonštiny, dostanete japonské soubory, pokud jsou to soubory s prostým textem, tak budou s největší pravděpodobností počítačem považované za soubory, které obsahují ruštinu. Protože zde chybí informace v samotném souboru, která by počítači prozradila, ve kterém jazyce jsou napsané.

Obsah japonského souboru by mohl být následující:

   OmegaTとは、コンピュータを利用した翻訳ツールです。

Ale váš textový editor by to mohl klidně interpretovat následovně:

   OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB

Protože očekává, že obsah je ruština ... Ale není to ruština. Toto jsou japonské znaky nesprávně zobrazené jako znaky ruské.

Program OmegaT není jiný. OmegaT předpokládá, že soubory s prostým textem obsahují text, který může být automaticky zobrazený pomocí výchozích nastavení počítače. Toto funguje bezchybně, když počítač pracuje ve francouzštině a když dostanete anglické soubory, nebo když počítač je německý a pokud dostanete italské soubory.

Znakové sady a kódování

Proč by to fungovalo s angličtinou a francouzštinou, ale ne s ruštinou a japonštinou? Protože angličtina a francouzština používají společnou znakovou sadu. Jmenovitě Latin-1 nebo variaci.

Ruština a japonština ještě donedávna nepoužívali žádné společné znakové sady. Většina současných ruských znakových sad nepokrývá japonštinu a opačně. Výsledek je tedy takový, jak bylo ukázáno výše.

Japonský klient pracuje s japonským počítačem a vytváří textové soubory, které obsahují japonštinu. Výběr znakové sady počítačem klienta bude záležet na operačním systému a na jiných nastaveních, ale je velmi nepravděpodobné, že vybraná (japonská) znaková sada bude správně interpretovaná ruským počítačem.

Takže způsob jak budou textové informace v zadané znakové sadě fyzicky přenesené (tj. jak je to napsáno v souboru pro počítač na interpretaci a zobrazení) záleží právě na kódování. Když počítač čte soubor, "dekóduje" informace podle kódování a zobrazí je podle znakové sady. Podtrženo sečteno, jedno kódování odpovídá jedné znakové sadě ...

Řešení pomocí OmegaT

V programu OmegaT jsou v podstatě k dispozici 3 způsoby jak na věc.

  1. Drastický způsob:
  2. Výběrový způsob:
  3. Řešení za pomoci "Unicode":

V současnosti je program OmegaT nastavený tak, aby rozuměl prostému textovému souboru následovně: (můžete si to sami zkontrolovat vybráním položky Filtry souborů v menu Možnosti. Klikněte na řádek Textové soubory a potom na tlačítko Editovat.)

Jistě že přípony .txt1, .txt2 a .utf8 v reále neexistují. Program OmegaT právě pro Vás připravil krátký seznam, který Vám pomůže v této věci, jak si poradit s některými cizími soubory.

Představte si, že máte na japonském počítači přeložit francouzský soubor (např. ve_francouzstine.txt). Je velmi pravděpodobné, že soubor byl vytvořen jako soubor v kódování ISO-8859-1. Vy teď víte, že jednoduchým přidáním 1 na konec jeho názvu (ve_francouzstine.txt1) bude OmegaT správně interpretovat jeho obsah, jako by byl v ISO-8859-1... A je to!


Právní poznámky