コラム

TOPコラム生成AIのプロンプトエンジニアリングによる機械翻訳の品質向上検証

生成AIのプロンプトエンジニアリングによる機械翻訳の品質向上検証

生成AIの導入率とその現状

2024年3月に発表されたMM総研の調査結果によると、日本国内の企業における生成AIの導入率は19%で、そのうち本格的に導入している企業はわずか6%にとどまることが明らかになりました。筆者が先日参加したセミナーで行われた挙手アンケートでも、1週間以内に生成AI(主にChatGPT)を使用した方は参加者の約2割しかいませんでした。やはり、生成AIの導入がまだ限定的であることを実感しました。

一方で、生成AIの導入準備や導入を検討している企業は24%にのぼることが報告されています。また、2025年度には69%の企業が全社的に本格利用を目指す方針を示しています。このデータからもわかるように、生成AIの企業への導入は今後ますます加速することが予想されます。実際、5月に東京ビッグサイトで開催されたNextech2024のAI・人工知能 EXPOでも多くの来場者があり、生成AIへの関心の高さが伺えました

リンク:生成AILLMの国内利活用動向調査2024

生成AIの具体的な利用シーン

生成AIは、企画書や提案書の作成、議事録の作成、マーケティングコンテンツの生成など、さまざまなビジネスタスクにおいて特に有用とされています。これらのタスクは日常業務の中で頻繁に発生し、効率化が求められるため、生成AIの導入によるメリットは大きいと言えます。特に、マーケティングコンテンツの生成やカスタマーサポートにおいては、生成AIがリアルタイムで大量のデータを処理し、顧客に最適な提案を行うことが可能です。また、弊社が携わるマニュアルライティング/翻訳の分野でも、生成AIを活用したライティングや翻訳サービスへの期待が高まっています。

生成AIを翻訳で使う

生成AIの登場と翻訳業界への影響

生成AIが登場したことで、翻訳業界でも大きな変革が予想されています。従来の機械翻訳(MT)は、高速かつコスト効率の良い翻訳手段として広く利用されていますが、生成AIはその先を行く可能性があります。生成AIは、単なる定型文の翻訳に留まらず、より自然な文脈を理解し、適切な訳文を生成する能力を持っています。

生成AIの限界と課題

しかし、生成AIにも限界があります。例えば、毎回必ず同じ訳を出力するわけではないため、品質の一貫性が担保されないことがあります。また、専門用語や固有名詞の扱いが不十分であり、文脈を誤解して不適切な訳を出力する可能性もあります。

知的財産権とプライバシーの課題

生成AIを翻訳に活用する際には、いくつかの課題が浮上します。まず、知的財産権の問題です。生成AIが生成した翻訳文の著作権は誰に帰属するのか、という問題はまだ解決されていません。また、プライバシーとセキュリティの対策も重要です。特に、個人情報や機密情報を含む文書の翻訳においては、データの取り扱いに細心の注意が必要です。

翻訳品質の検証とバイアスの問題

生成AIの出力における翻訳品質の検証も重要な課題です。生成AIは学習データに基づいて翻訳を生成するため、学習データに含まれるバイアスがそのまま出力に反映される可能性があります。例えば、性別に関する固定観念、人種、宗教、地域、職業に対する偏見などが挙げられます。これらのバイアスを評価し、是正するための新たな指標が必要です。

今年東京で開催された、TAUS*のイベントでもAIが翻訳業界に及ぼす影響が議論されました。
*翻訳とローカリゼーション業界の自動化と革新を推進する国際的なシンクタンク

リンク:TAUS in Tokyo: AIの進化とローカリゼーション業界の未来

生成AIと機械翻訳(MT)の連携

既にGoogleやDeepLなどの機械翻訳(MT)が広く利用されており、海外の支社とのやり取りやメール作成などで活用されています。しかし、機械翻訳(MT)の精度が向上しているとはいえ、依然として不自然な翻訳が出力されることがあるため、その改善が求められています。そこで注目されるのが、「プリエディット」という手法が有効です。プリエディットとは、翻訳元のテキストをあらかじめ編集し、機械翻訳に適した形に整える手法です。これにより、翻訳エンジンがより正確な翻訳を出力できるようになります。

実際に、論文「機械翻訳向けプリエディットの有効性と多様性の調査」では、プリエディットが機械翻訳の品質向上に寄与することが示されています​​。具体的には、プリエディットを行うことで、85%以上の原文が正確に翻訳される結果が得られています。また、プリエディットされた日本語原文は、中国語や韓国語への翻訳でも精度が向上することが確認されています。

リンク:機械翻訳向けプリエディットの有効性と多様性の調査

プリエディットのポイント

機械翻訳(MT)の品質を上げるためのプリエディットにはいくつかのポイントがあります。

・簡潔な文にする:原文を短く、簡潔な文に書き換える
・曖昧な表現を避ける:曖昧な表現や二重の意味を持つ言葉を避け、明確で一義的な表現を使用
・文法と構造の統一:標準的な文法と明確な文構造を維持する
・不要な修飾語の削除:重要でない修飾語を削除し、主語と述語を明確にする

先に紹介した「機械翻訳向けプリエディットの有効性と多様性の調査」内でも、「プリエディットに必要な能力は、ポストエディットや翻訳の能力よりも、技術情報の正確かつ効率的な執筆技術として発展してきたテクニカルライティングの能力に近い」と書かれています。これはマニュアル制作を行う弊社のテクニカルライターが常に意識しているポイントです。また、機械翻訳(MT)の品質を上げるためには誤解しやすい表現や曖昧な言い回しに注意を払う必要があります。特に注意が必要なのは、専門用語、固有名詞、長い文、複雑な構文、比喩表現などです。

よく機械翻訳(MT)でプリエディットの必要性の例として使われる「同じ釜の飯を食う」という比喩表現があります。これをGoogle翻訳にすると「Eat from the same pot」と訳されます。
こういった文章も機械翻訳(MT)用にリライトする必要があります。

機械翻訳(MT)向けのプロンプトエンジニアリング

今回は機械翻訳(MT)の品質向上を目的とした生成AI向けの指示(プロンプト)を作成し、テストしてみました。今回のプロンプトは以前行ったAIによるテクニカルライティングで作成したプロンプトとは内容を変え、より機械翻訳向けに下記の要素も付け加えました。

リンク:ChatGPT 新機能「GPTs」:AIでテクニカルライティングに挑戦

・業界
・ドキュメント類
・ユーザーのスキルセット
・前提知識
・使用するMTシステム

機械翻訳(MT)に使うツールはGoogle翻訳を設定しました。Google翻訳とDeepLでは特性が違うため、今回はGoogle翻訳の特性を盛り込んだプロンプトを作成しました。北海道大学と弊社が行っている次世代マニュアルの共同研究の実証実験結果なども参考に、最終的に100行弱のプロンプトを作成しました。

生成AIによるプリエディットアプリ

GPTでPoCが簡単に行え、アプリ化できるGPTsを作成し、検証してみました。ChatGPTからはプリエディット後の文章と、修正理由も出力するように設定しました。


例文1:
原文(日本語):
彼とは同じ釜の飯を食べた仲です。
プリエディット後(日本語):
彼とは非常に親しい仲です。
簡単な修正の理由: 比喩表現を直接的な表現に置き換えて、機械翻訳が正確に訳せるようにするため。


第二百十二回国会における岸田内閣総理大臣所信表明演説より
例文2:

原文(日本語):
「変化の流れを掴み取る」ための「一丁目一番地」は経済です。 日本経済は、三十年ぶりの変革を果たすまたとないチャンスを迎えています。このチャンスを掴み取るために、私は過去に例のないような大胆な取組に踏みこむ決意です。
プリエディット後(日本語):
「変化の流れを掴む」ための最も重要な要素は経済です。 日本経済は、三十年ぶりの変革を迎えています。この機会を活かすために、私は過去にない大胆な取り組みをする決意です。
簡単な修正の理由:
・比喩表現「一丁目一番地」を「最も重要な要素」に置き換え、明確にするため。
・「またとないチャンス」を「機会」に簡略化し、理解しやすくするため。
・「例のないような大胆な取組」を「ない大胆な取り組み」に簡略化し、自然な表現にするため。


例3:
原文(日本語):
この三十年間、日本経済はコストカット最優先の対応を続けてきました。人への投資や賃金、さらには未来への設備投資・研究開発投資までもが、コストカットの対象とされ、この結果、消費と投資が停滞し、更なる悪循環を招く。低物価・低賃金・低成長に象徴される「コストカット型経済」とも呼び得る状況でした。
プリエディット後(日本語):
この三十年間、日本経済はコスト削減を最優先してきました。人材投資や賃金、さらに未来の設備投資・研究開発投資までもが削減の対象となりました。この結果、消費と投資が停滞し、悪循環を引き起こしました。低物価・低賃金・低成長が特徴の「コスト削減型経済」と呼ばれる状況でした。
簡単な修正の理由:
・「コストカット」を「コスト削減」に変更し、わかりやすくするため。
・「人への投資」を「人材投資」に変更し、具体的にするため。
・「招く」を「引き起こしました」に変更し、文章を簡潔にするため。
・「低物価・低賃金・低成長に象徴される」を「低物価・低賃金・低成長が特徴の」に変更し、意味を明確にするため。


いかがだったでしょうか? 文章を少し変更し、簡素化することで、全体的にわかりやすくなったと思います。例1以外はGoogle翻訳でも問題なく翻訳できましたが、プリエディット後の文章の方が、より明確に意図が伝わる訳文でした。

複数のAIによるプリエディットの比較検証

現在ではChatGPT以外に様々な生成AIを使えるようになりました。自身の作業に最も最適な生成AIの選択も生成AIを使う上で重要な項目になってきました。弊社でもドキュメントに最適な生成AIのリサーチとして、様々な生成AIを試しています。数カ月前からはChatGPTよりもClaude3 を使うことが増えてきました。ただ、先日発表されたChatGPT-4oやGemini 1.5Proなども非常に性能が高いため、常に最新の情報をキャッチアップする必要性を感じています

今回、2024年5月末現在で利用可能な以下の8種類の生成AIを用いたプリエディットの検証も行いました。生成AIによるプリエディットの結果は下記よりダウンロードいただけます。(メールアドレスなどの登録は不要です)

条件
ChatGPTのプリエディットプロンプトを使用

検証している生成AI
・OpenAI ChatGPT-3.5
・OpenAI ChatGPT-4o
・Anthropic Claude3 Sonnet
・Anthropic Claude3 Opus
・Google Gemini 1.5 Flash
・Google Gemini 1.5 Pro
・Meta Llama3-70b
・Cohere Command-r-plus

dify

複数のAIを同時に検証するPoCの画面

 

ドキュメントのコンサルティング

弊社内で機械翻訳(MT)向けに原文をリライトする業務を行っている担当者にこのプロンプトを提供したところ、「文章が分かりやすくなり助かった」との感想をいただきました。ドキュメントや利用する機械翻訳エンジンによっては、プロンプトや選択する生成AIを検討する必要がありますが、生成AIによる機械翻訳の品質向上のためのプリエディットは非常に有効だと感じました。

弊社ではテクニカルライティングや翻訳の知見を活かし、ドキュメントのコンサルティング業務やライティング講座を行っております。生成AIを使ったプリエディットのサポートやドキュメントに関してのご相談がございましたら、お気軽にお問い合わせください。

関連リンク

北海道大学で専門知識をクリアに伝えるテクニカルライティング講座開催
北海道大学と「次世代マニュアル」の共同研究の契約を締結し、研究を開始
翻訳会社に翻訳を依頼するには?~グローバル展開に向けた翻訳~

お問い合わせ

サービスに関するご質問やご相談など、まずはお気軽にお問い合わせください。
045-461-4000 (受付時間 9:00~18:00)
045-461-4000 (受付時間 9:00~18:00) お問い合わせフォーム