2008年05月20日

Google 翻訳の誤翻訳

Web拍手:


Google 翻訳
http://translate.google.co.jp/translate_t


Google 翻訳の誤翻訳.

わたしは日本人です. → I am not Japanese.
私は日本人です. → I'm Japanese.


http://www.google.co.jp/intl/ja/help/faq_translation.html#google


Google で独自の翻訳ソフトを開発したのですか

はい。Google のリサーチ グループが開発した独自の統計的翻訳システムを Google 翻訳に使用しています。


統計的機械翻訳とは

今日市場に出回っている自動翻訳システムのほとんどは、規則ベースで開発されており、語彙や文法の定義など多くの作業を必要とします。

Google の翻訳システムの手法は異なり、ターゲットとなる言語で記述された単一言語のテキストと、人間が翻訳した他言語のサンプル翻訳テキストを対にしたものを大量にコンピュータに入れます。そしてこれらのテキストに統計的学習手法を適用して、翻訳モデルを構築しています。Google のリサーチ評価では、この手法が優れた結果をもたらすことが判明しています。



なるほど,Google らしいアプローチだ.
構文規則を変換するわけじゃないから,統計的に有意な情報になるまでは誤変換が続くというわけですね.
規則を洗練していく必要がある手法と違って,コーパスが充実してくると勝手に翻訳精度が上がっていく,という.
Google みたいに大量のテキスト・コーパスのペアを持っているようなところでないとできないアプローチだ.
「わたし」と「私」で差異が生じるコーパスの内容は想像できないけれども,そのうち自動的に直るんじゃないかな?
「わたし」と表記する人が少ないから,時間はかかりそう.
(個人的には,野瀬さんくらいしか「わたし」と表記する人を知らない.)


この手法の長所は,現実によく使われるマニアックな単語が正しく変換されやすくなる,というところ.
「生きた変換」とも言えそう.

北斗の拳 → Fist of the North Star
フォックス・モルダー → Fox Moulder
オーパーツ → OOPArt
恐竜土偶 → Acambaro figures

「恐竜土偶」が「Acambaro figures」に翻訳できるなんて,普通の規則変換だと,辞書にない限り無理だ.
辞書に「恐竜土偶」を「Acambaro figures」とペアで登録することも,なかなかないんじゃないかな?

--

恐竜土偶というのは,アカンバロで発見された恐竜の形をした素焼きの人形で,「時代が合わない」ということにされていて,「オーパーツ」ということにされているもの.
私は,これは,オーパーツだとは思わない.
水晶髑髏も,バグダッドの電池も説明ができるしなぁ.
というより,オーパーツだと思えるものがひとつもない.
おもしろがって,話の種にはしているけれども.

--
【コンピュータの最新記事】
posted by NOIKE at 10:04 | Comment(0) | TrackBack(2) | コンピュータ | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック

野池賢二 → Ikeno Kenzi
Excerpt: http://translate.google.com/#ja|en|%E9%87%8E%E6%B1%A0%E8%B3%A2%E4%BA%8C --
Weblog: とりコー
Tracked: 2009-11-18 05:11

Google 翻訳ツールを利用して,このブログを自動翻訳できるようにした.
Excerpt: http://translate.google.com/translate_tools?hl=ja --
Weblog: とりコー
Tracked: 2009-11-22 00:44