プレーンテキストの翻訳

目次

OmegaT でのプレーンテキスト

プレーンテキストファイルは文書情報のみが含まれています。プレーンテキストファイルには、中にどの言語が入っているかをコンピューターに知らせるための明確に定義された方法がありません。とてもおおざっぱに言って、コンピューターはデフォルトではファイルの中身はコンピューター自身と同じ言語であると考えることを意味します。

プレーンテキストファイルはほとんどの場合.txtで終わる拡張子を持ちます。

文字化け?

もしあなたがロシア人なら、おそらくあなたのコンピューターもロシア語で動いていることでしょう;メニューはロシア語、開くファイルもロシア語、など。ほとんどの場合、コンピューターは一般的にファイルの中身に対して正しい仮定をします;中身は全てロシア語で、ロシア語の文字でないものは表示できません。

ここで、もしあなたが日本語からの翻訳を行なうロシア人翻訳者だとすると、受け取った日本語のファイルがプレーンテキストなら、おそらくコンピューターはファイルに含まれているのがロシア語だと考えるでしょう。ファイル自身にはどの言語で書かれているかをコンピューターに示す情報がないからです。

日本語のファイルの中身は以下のようなものです:

   OmegaTとは、コンピュータを利用した翻訳ツールです。

しかしあなたの使っているテキストエディタは以下のように表示するかもしれません:

   OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB

中身がロシア語だと思ったからです... しかしこれはロシア語ではありません。これは日本語の文字が間違ってロシア語の文字として表示されています。

OmegaT でも違いはありません。OmegaT は、プレーンテキストの中身はコンピューターのデフォルトを使って自動的に表示できる文書を含んでいると考えます。これは英語のファイルをフランス語のコンピューターで開いたり、イタリア語のファイルをドイツ語のコンピューターで開く場合はうまくいきます。

文字集合とエンコーディング

なぜ英語とフランス語ではうまくいくのにロシア語と日本語ではうまくいかないのでしょうか?英語とフランス語は共通の文字集合を共有しているからです。Latin-1と呼ばれるものか、そのバリエーションです。

最近まで、ロシア語と日本語は文字集合を共有していませんでした。現在のほとんどのロシア語文字集合は日本語をカバーしていませんでしたし、逆もそうでした。結果は上記の通りです。

日本人の顧客は日本語のコンピューターで作業をし、日本語を含むテキストファイルを作成します。顧客のコンピューターが選択した文字集合はオペレーティングシステムとその他の設定に依存しますが、選ばれた(日本語)文字集合がロシア語のコンピューターで正しく解釈されることはまずありません。

ここで、指定された文字集合の文書情報がどのように物理的に転送されるか(つまり、コンピューターに解釈、表示させるためにどのようにファイルに書かれるか)はエンコーディングに依存します。コンピューターがファイルを読むとき、エンコーディングされた情報を「解読」し、文字集合に従って表示します。おおざっぱに言って、一つのエンコーディングは一つの文字集合に対応しています...

OmegaTでの解決方法

OmegaT でこれを修正する方法は基本的に三種類あります。

  1. 思い切った方法:
  2. 選択的な方法:
  3. "Unicode"の方法:

現在のところ、OmegaT はプレーンテキストファイルを以下のようにして理解するように設定されています(設定メニューのファイルフィルタで確認できます。テキストファイルの行をクリックして編集ボタンを押してください。)

もちろん、.txt1, .txt2, .utf8 で終わるファイルは実際の生活には存在しません。OmegaT はいくつかの 外国語の ファイルの扱いをより簡単にするために短いリストを準備しているのです。

そこで、フランス語のファイル (例えばin_french.txt)を日本のコンピューターで翻訳するなら、おそらくそのファイルは ISO-8859-1 エンコーディングで作られているので、単にファイル名の末尾に 1 を追加(in_french.txt1)すると、 OmegaT は適切にこのファイルが ISO-8859-1 であると解釈します... Et voilà!


特記事項