DeepLについて考察してみた!

2021年4月5日
インターネット プログラミング・開発

皆さん、こんにちは。

私は仕事や趣味で日本語原稿を翻訳したり、あるいは、その逆の翻訳をすることがありますが、これまでは単語や表現の選択に迷った際に辞書の例文を参照する程度で、翻訳機的なものを使うことはありませんでした。

コンピューターによる翻訳能力はこの10年くらいの間にかなりの進化を遂げていますが、当初は、例えば、日本語から英語に翻訳する場合、「てにをは」といった助詞の省略や、動詞、形容詞、副詞の語尾、主語、述語、目的語の位置や欠落などによって、使い物にならないことが多く、活用しようと思うと、翻訳機に正確に表現を伝えるため文章構成に気を遣い、インタビューなどの口語体の文章であれば、敢えて文語体に直す必要がありました。

もっとも、人に読んでもらう文章であれば、正しい表現や文章構成である方がベターですので、逆に、自身の文章を校正するきっかけにはなりますが、文章作成に時間をかけていられない場合や、さっと翻訳したい場合には(利用者側として身勝手ない言い方をすれば)使い物にならないと言うことになります。

現在では一般的になった「Google 翻訳」は、歴史を遡ると、公開された最初期(2005年頃)には英仏独西語といった欧米圏の言語のみで、日本語を含むアジア圏の言語、その他、世界中の言語がカバーされたのは2010年代以降です。2020年時点でも、ウイグル語やキニヤルワンダ語などが新たに追加されていますので、いかに言語の交換というものが難しいかわかります。

ここ数年では掲題の「DeepL Translator」もオンライン翻訳として話題になり、これまでベータ版であったサービスにサブスクリプション型の有料サービスも付加され、Google 翻訳と双璧をなす存在になろうとしています。本稿執筆時点では対応言語が26言語と、109の言語に対応したGoogleにはまだかないませんが、DeepLのアドバンテージは、DeepL社によるニューラルマシーンの曖昧な表現の解釈や翻訳出力にあります。

例えば、上述の文章から

「2020年時点でも、ウイグル語やキニヤルワンダ語などが新たに追加されていますので、いかに言語の交換というものが難しいかわかります。」

を引用し、翻訳にかけると

「Even in 2020, Uyghur and Kinyarwanda will be added to the list, which shows how difficult it is to exchange languages.」(「will be」と未来形になっていることはさておき)

となりますが、この英語の一部の綴りをわざと間違えた状態に改変し、

「Evne in 2020, Uyghur and Kinyarwanda will be addd to the list, which shows how difficult it is to exchnge languags.」

のように入力して逆に翻訳をかけると、

「2020年にはウイグル語やキニャルワンダ語が追加される予定で、言語を拡張することがいかに難しいかを示しています。」

と、多少の表現や意味の相違は現れますが、言葉が間違っているにもかかわらず、おおよその文章を推測・構成して翻訳内容を出力することができます。今度は、この誤った英語をGoogle 翻訳にかけてみると、

「2020年のエヴネでは、ウイグル人とルワンダ語がリストに追加されます。これは、言語を交換することがいかに難しいかを示しています。」

と出力され、文頭の「Even」のミススペルである「Evne」は誤入力を推測されることなく、ローマ字読みで「エヴネ」と翻訳されてしまいます。

それぞれにメリット、ディメリットはありますが、翻訳が楽になることには間違いないので、私は最近、日本語原稿を作成し終えたあとに英訳する場合、日本語の文章を丸ごといずれかの翻訳機にかけ、結果を推敲して自分の言葉になおしたり、明らかに表現としておかしいところを修正するようにしています。

前述のようにDeepLは(時に誤用も含めて)曖昧な表現の推測が得意なので、まずDeepLに原稿を入力し、英訳していたのですが、ざっと流し読みすると口語体の文章も適確な内容で英訳してくれて感心するものの、それが人に読んでもらう文章として最適かというと、全くそうではない結果となります。

例えば、日本語にせよ英語にせよ、隣接する文章に同じ単語が頻出すると稚拙な印象を与えます。固有名詞については代名詞で置き換えられる場合を除き、連続して文中に使用されるのは仕方ありませんが、代名詞に置き換えられた場合も、英語的な表現としては代名詞の連続は拙い文章になることがあります。

例えば、明らかに誰がそのことを行なったかわかる文脈で、目的後が主体となる場合、例えば、

She played that music online.

とするよりも、

That music was played online.

とした方が英語的な表現として適切なケースがあります。

DeepLはこの辺りを全く考慮せずに、前後の文脈を全て「She」を主体とした文章で表現してしまうことがありますので、こうした翻訳結果は修正が必要になります。又、動詞なども平気で同じ単語を連続的に使用しますので、綺麗な文章を考慮するならば、それなりの推敲・編集が必要になるでしょう。

又、最大の欠点は、翻訳結果が正しいかどうか、英語的に綺麗な表現に置き換えられているのか、辞書的な意味は一致していても元の文章の内容と一致しているかなど、わからなくなる場合があることです。

ある程度の英語能力があれば明らかにおかしい箇所に気付きますが、間違いかどうか微妙に判別しづらい翻訳が頻出するため、かえって骨を折ることもあります。

英語力がそれほどでもなく「とりあえず翻訳してしまえ」と言った場合は特に危険です。学校などのレポートを丸ごと英訳する、などの目的であれば、推敲・編集無しには使用しない方が良いでしょう。

これは、Google 翻訳も同様で、例えば、

「遺憾無く発揮した」

は、DeepLでは、

「I’ve done my best」

と正しい翻訳を返しますが、Google 翻訳の場合、

「Demonstrated without regret」

と訳します。私が作成していた原稿では、文中の「遺憾無く」は「Unfortunately」などと訳されてしまい、そのまま使用していたら文章が台無しになる翻訳結果でした。

少し否定的なコメントばかりになってしまいましたが、私の使用感としては、ある程度かっちりした日本語の文章から英訳するのであれば、Google 翻訳の方がオススメです。

接続詞の使い方などの文章の構成について、日→英はGoogleの方が自然な変換確率が高いです。
又、DeepLは、先の例の通り、誤変換であっても推測が大きく効いてしまうため、間違いが探しにくくなりますが、Googleの場合、明らかに間違った形で変換されるという意味では、誤りを発見しやすいとも言えます。

無料版のDeepLと比較すると、DeepLは5000文字が上限ですが、Googleは様々なフォーマットのファイルをアップロードして翻訳することもできるので、その辺りの利便性もあるでしょう。

DeepLでの日本語から英語の翻訳はあまりオススメできませんが、誤変換でも推測が力を発揮することがあるため、「英語の方が苦手」といった場合には、英語から日本語は、文法や綴りが間違っていても優れた訳を返してくれますので、英→日であれば、DeepLの方が即効性と利便性は高いと言えます。

いずれのサービスも膨大なビッグデータを参照し、ニューラルネットワークによる機械学習から日々精度が向上していきますので、2、3年後には前述のような不満も解消されているはずです。

又、利用者の入力内容がそのデータや機械学習に反映されますので、皆さんが利用することによって、将来的に更なる恩恵を受けることができるようになるでしょう。


ENTRY LIST

DJ Streaming on Twitch

コーダー/プログラマーのための電子書籍ハウツー: そろそろブログやSNSじゃなくて、本にまとめてみたら?

続・成功するフリーランス – 年収1000万円は簡単に実現できる: フリーランスを15年やってみてわかったこと

木を食べる: 花粉症・ダイエット・健康食品・食糧革命への福音書

思春期の男の子を持つ、お母さんのための処方箋: 「いいからやりなさい!」って言ってませんか?