翻訳メモリは、ローカライゼーションにおいて最も強力なコスト削減ツールです。しかし日本語は欧州言語より一貫して活用率が低く、多くのチームは「TMの性能が落ちている」と思い込んでしまいます。形態変化、文末助詞の揺れ、敬語のぶれ、プレースホルダーの形式——これらはいずれも、欧州言語のベンチマークでは予測できない形でTMの再利用を削っていきます。本記事では、日本語のTMがなぜ違うのか、どのCATツールが最もうまく扱えるのか、そして長期にわたるSaaSプロジェクトで元が取れるTMをどう構築するかを解説します。
翻訳メモリは、ソースとターゲットのセグメント対を保存しておき、新しいソースセグメントが同一または類似のときに、その保存済みの訳を提案する仕組みです。スペイン語・フランス語・ドイツ語といった欧州言語ではこれがうまく機能します。文の表層形が比較的安定しているからです。代名詞を一つ変えればファジーマッチになり、何も変えなければ完全一致になります。エンジンは確実に再利用先を見つけてくれます。
日本語は別の問題を抱えます。日本語は後置文法を持つ膠着語であり、文末の位置が膨大なバリエーションを担います。確認する(to confirm)という一つの基本動詞は、TMの中で 確認します(丁寧・肯定)、確認してください(丁寧・命令)、確認しました(丁寧・過去)、確認できません(丁寧・否定可能)など、文脈に応じて何十もの形で現れます。その一つひとつが別の文字列です。完全一致には、正しい語彙だけでなく同一の活用が必要であり、敬語レベルの判断によって、翻訳ラウンドごとにセグメント全体がマッチからノーマッチへ移ってしまうこともあります。
助詞の揺れがさらに一層を加えます。日本語は後置助詞(は・が・を・に・で・と・から・まで)で文法的な役割を示し、は と が、あるいは に と で の選択は、翻訳者による意図的なニュアンスの判断であることもあります。翻訳者が改訂時に当初と違う助詞を選ぶと、内容が意味的に同じでも、そのセグメントはファジーマッチに落ちます。欧州言語は語順と前置詞で文法的な役割を示し、これらはセグメント間で比較的安定している傾向があります。
文字種の混在は、欧州言語に対応物のない3つ目の要因です。同一のままのソースセグメントでも、あるラウンドでは 設定を確認する と訳され、次のラウンドでは セッティングを確認する と訳されることがあります。設定 と セッティング は同じ語を別の文字で書いたものです。TMエンジンはこれらを別の文字列として認識します。これは必ずしも誤りではありません。文字種の選択が意図的に更新された可能性もあります(製品がその機能名を変えたのかもしれません)。それでも意図にかかわらず活用率を削り、しかもTMを能動的に監査しない限り、それは見えないまま進行します。
セグメンテーション——一つのセグメントがどこで終わり、次がどこから始まるかを定義するルール——は、たいていのPMが想定する以上に、日本語のTM品質に大きな影響を与えます。ほとんどのCATツールのデフォルトのセグメンテーションルールは、欧州言語の文の境界(ピリオド、感嘆符、疑問符)を前提に作られています。日本語はこれを2つの点で複雑にします。
第一に、日本語はピリオドではなく 。(句点)を使いますが、これは主要なツールすべてが正しく処理します。2つ目の問題はより微妙です。日本語の文は接続的な形や文末助詞で終わることが多く、ルールベースのセグメンターがそれをセグメント境界と誤認することがあります。セグメント境界の末尾にある ね という助詞は、一つの節であるべきものを2つの不完全なセグメントに割ってしまい、どちらも文法的に不完全なため、TM内で有用なものにマッチしなくなります。
が(but)、ので(because)、から(because/since)のような接続助詞は文末ではなく文中にありますが、西洋の句読点向けに調整されたセグメンターには、もっともらしい区切り点に見えてしまいます。これらの点で区切ると、その保存済みの訳が前の内容に文法的に依存しているため、マッチの悪いセグメントが生まれます。対策は、これらの接続助詞をセグメンテーションルールの非区切りリストに加えることです。
ファジーマッチの割合は、日本語では特定の方向に誤解を招きます。類似度を過大に示すのです。CATツールが日本語のセグメントに80%マッチと表示するとき、その80%は文字の重なりで計算されています——そして日本語の文字は意味の密度が高い。日本語の80%の文字の重なりは、多くの場合、動詞の活用が一つだけ変わっただけの実質的な文に対応しますが、その動詞の変化は、まったく異なる丁寧度・時制・可能/否定の意味を運んでいることがあります。
TMに ファイルを削除できません。(You cannot delete the file.)として保存されたセグメントを考えてみます。新しいソースセグメントは ファイルを削除しました。(The file was deleted.)というマッチ候補を生み出します。文字の重なりは高く——ファイルを削除 が共有されています——しかし意味は逆です。このファジーマッチを受け入れて語尾だけを編集する翻訳者は、おそらく正しい出力を作れますが、実際の採用率は欧州言語より低くなります。日本語の翻訳者は、欧州言語の同業者よりも、高い割合のファジーマッチを信用しないよう訓練されているからです。
実務上の含意は、翻訳料金表における日本語のファジーマッチ割引は、文字の重なりではなく実際の翻訳者の労力を反映すべきだということです。日本語の85%ファジーマッチは通常、フランス語やドイツ語で同じ割合が示唆する25〜30%の割引ではなく、通常単価の60〜75%のコストがかかります。
プロの日本語SaaSローカライゼーションのワークフローで最もよく使われる3つのCATツールは、Phrase(旧Memsource)、memoQ、Tradosです。3つとも日本語に対応していますが、セグメンテーションルール・TMマッチング・用語ベースの統合が、日本語固有の課題をどれだけうまく扱えるかで、意味のある差があります。
| 機能 | Phrase(Memsource) | memoQ | Trados |
|---|---|---|---|
| 日本語のセグメンテーションルール(標準) | 強い — 日本語向けに継続メンテナンス | 良好 — 設定可能、一部手動調整が必要 | 十分 — 日本語助詞のためルール追加を手動で行う必要 |
| 形態の揺れに対するTMマッチングアルゴリズム | 文字n-gram、ある程度の形態素認識あり | 文字ベース、ペナルティ重みを設定可能 | 文字ベース、日本語固有の調整は少なめ |
| TBX用語ベースの統合 | 良好 — 文脈内で用語をハイライト | 優秀 — 業界随一の用語強制 | 良好 — MultiTerm を統合 |
| プレースホルダーの扱い({name}、%s、{{count}}) | 強い — マッチ時に自動反映 | 強い — プレースホルダールールを設定可能 | 良好 — 形式ごとにフィルター設定が必要 |
| MTプリフィルの統合 | DeepL/Googleをネイティブ統合 | プラグイン方式、DeepL推奨 | Language Weaverをネイティブ統合、サードパーティはプラグイン経由 |
| クラウド/APIワークフロー | API優先、強力なTMS統合 | サーバーモデル、REST API利用可 | サーバー向けGroupShare、エンタープライズに強い |
| 日本語翻訳者に多い選好 | 増加中、特にSaaSクライアントで | 高い — 日本のLSPで標準的 | 確立済み、古参のユーザー層 |
ゼロから日本語ローカライゼーションの体制を作るほとんどのSaaSチームにとって、Phraseが最も着手しやすい起点です。API優先のアーキテクチャがコンテンツのパイプライン(GitHub、Figma、Contentful)ときれいに統合でき、日本語のセグメンテーションルールが手動設定を最も必要としないためです。memoQは、それを好む確立した日本語LSPパートナーと組むときや、用語の強制が優先課題のときの選択肢になります——用語ハイライトと整合性チェックの機能は、複雑なグロッサリーにおいてPhraseより明らかに優れています。Tradosは、すでにTradosのエコシステムを持つエンタープライズのワークフローでその地位を得ていますが、日本語を狙う新規プロジェクトが、日本語固有の機能を理由にこれを選ぶべきではありません。
日本語TMの初回翻訳への投資は確かに存在し、前倒しで発生します。既存のTMがない新規プロジェクトでは、すべてのセグメントに全文翻訳が必要で、TMは空の状態で始まります。回収までの期間は、コンテンツの繰り返し率、更新の頻度、そしてTMをどれだけ積極的にメンテナンスするかに左右されます。
UI文字列・ヘルプセンター記事・リリースノートを持つ典型的なSaaS製品では、現実的なTM回収の道筋はこうなります。最初の2万語はTMを埋めますが、リターンはわずか——同じバッチ内で繰り返される新規文字列で、せいぜい5〜8%です。2万語から5万語にかけて、内部の繰り返しが積み上がり始め、活用率は15〜20%に上がります。5万語を超えると、TMがよく整備されていれば、既存製品と語彙を共有する更新や新規コンテンツについて、活用率は25〜35%の範囲で安定します。
プロジェクト計画上の含意は、日本語TMの投資対効果は、初回プロジェクトの節約ではなく長期投資だということです。初回の翻訳バッチで投資対効果を計算するチームは、芳しくない数字を目にします。投資対効果は3〜12か月目に、更新ラウンドが構築済みのTMから恩恵を受ける形で現れます。
能動的にメンテナンスされない日本語TMは、欧州言語のTMより速く品質が劣化します。特定の理由——敬語レベルのぶれです。製品が当初フォーマルなトーン(でございます調、「御社」の意味での 貴社)を使い、より親しみやすいトーン(です/ます、御社、または省略)へ移ると、TM内の古いセグメントは誤ったトーンを引きずります。古いトーンのTM提案を——たとえ95%マッチでも——受け入れた翻訳者は、技術的には正しくても、現在の製品とトーンの揃わない出力を作ってしまいます。
単なる更新ではなくTM監査を引き起こすべき3つの出来事:
MTプリフィル——TMのマッチしきい値を満たさないセグメントを、翻訳者がレビューする前に機械翻訳で埋めること——は、いまや日本語ローカライゼーションの標準的な実務です。DeepL Proは日本語で最も広く使われるMTエンジンであり、その日本語出力の品質は2024〜2026年にかけて大きく向上しました。ハイブリッドワークフロー(まずTM、ノーマッチと低ファジーマッチにはMT)は、ノーマッチセグメントにおける翻訳者の労力を減らし、プロジェクトごとの期間を短縮します。
TM+MTハイブリッドのリスクは、MTによるTMの汚染です。翻訳者がMTで埋められたセグメントを編集せずに受け入れ、それがTMに追加されると、それは今後のマッチのためのTMソースになります——しかしそれは、人間の翻訳の水準でレビューされていません。時間とともに、MT由来のTMエントリはTM品質を劣化させます。MTの日本語出力には特定の失敗パターンが一貫して現れるからです——過度に直訳的な助詞選択、スタイルガイドが漢字を指定している用語のカタカナ表記、ブランドボイスが能動を求める場面での受動構文などです。
正しいアーキテクチャはこうです。MTはノーマッチセグメントを出発点として埋めますが、TMへの追加にはゲートを設けます。翻訳者がレビュー・編集し、かつQAを通過したセグメントだけが、TMへの書き戻しの対象になります。編集せずにMTを受け入れたセグメントは、MT由来として印を付け、TMへの書き戻しから除外するか、自動反映しない低信頼のTM階層に保持します。
プレースホルダーの扱いは、日本語TMにおける完全一致失敗の不釣り合いに大きな原因であり、しかも完全に防げます。問題は、プレースホルダーの形式がエンジニアリングチームや開発時期によって異なることです。{name}、%s、%(name)s、{{name}}、{0} はすべて同じ役割を果たしますが、TMエンジンにとっては別の文字列です。{name} で保存されたセグメントは、ほかのすべての文字が同一でも、%(name)s で書かれた同じセグメントにはマッチしません。
日本語では、プレースホルダーは英語とは異なる文法的に特定の位置にも入ります。英語はプレースホルダーを前方に置く傾向があります。Hello, {name}!。日本語の後置文法は、それを述部の前か内部に置きます。{name}様、ようこそ。。プレースホルダーの位置はセグメント構造の一部であり、エンジニアリングがプレースホルダーの構文を変えると、セグメント全体がマッチしなくなります。
解決策は、日本語TMの構築が始まる前に、エンジニアリングと一つのプレースホルダー形式で合意し、その標準をソース文字列のレビュー工程で強制することです。プレースホルダーの統一を既存のTMに後付けするには、TM全体を再インポートして再マッチする必要があり、これは高くつきます。前もって行えば、一度きりのすり合わせの会話で済みます。
日本語の用語ベース(TBX形式)は、TMの置き換えではなく、その相棒です。TMは完全なセグメントを保存し、用語ベースは承認済みの用語対(英語のソース用語 → 日本語のターゲット用語)を、使用上の注記・禁止する代替案・文脈とともに保存します。PhraseやmemoQでこの2つをつなぐと、新しいセグメントを開いたときに、用語ベースの承認済み用語がソースとTM提案の両方でハイライトされ、承認外の訳語を使うと翻訳者にフラグが立ちます。
日本語SaaSローカライゼーションでは、用語ベースに少なくとも次を含めるべきです。製品名・機能名、UI要素の用語(ダッシュボード、設定、ユーザー管理)、法務・コンプライアンス用語(個人情報、利用規約)、そして会社名のローマ字/カタカナ表記ルール(ブランド名をカタカナでどう書くか)。TBX形式は主要な3つのCATツールすべてで対応されており、TMと並行してメンテナンスすべきです——製品名のリネームでTMを更新するときは、同じ変更イベントで用語ベースのエントリも更新します。
コンテンツ領域の60%をカバーする2年もののTMを持つ、5万語の日本語SaaSローカライゼーションプロジェクトの計算例です。
| マッチ区分 | 語数 | プロジェクト比 | 単価(通常25円/語に対し) | コスト |
|---|---|---|---|---|
| 100%完全一致 | 12,500 | 25% | 3円/語(レビューのみ) | 37,500円 |
| 75〜99%ファジーマッチ | 15,000 | 30% | 14円/語(60%割引) | 210,000円 |
| ノーマッチ(<75%) | 22,500 | 45% | 25円/語(通常単価) | 562,500円 |
| TMありの合計 | 50,000 | 100% | — | 810,000円 |
| TMなし(すべて通常単価) | 50,000 | — | 25円/語 | 1,250,000円 |
削減額:このプロジェクトで44万円(35%削減)。TMが成長し続ける12か月の更新スケジュールにわたって積み上げると、この規模の製品での年換算の削減額は、典型的には120万〜200万円になります——TM構築への投資と、継続的なメンテナンスの負担を、初年度のうちにまかなえる水準です。
セグメンテーション・プレースホルダーの統一・TMメンテナンスを最初に正しく決めておくと、初期投資をはるかに上回る効果が生まれます。TM設定と既存セグメントの日本語ローカライゼーションQAレビューは、後々の品質問題へと積み上がっていく火種をあぶり出します。
日本語ローカライゼーションの専門家に相談する日本語は欧州言語よりTM活用率が低いのはなぜですか?
日本語は形態的に豊かな膠着語です。同じ基本動詞でも、時制・丁寧度・文末助詞によって何十もの活用形を取り、その一つひとつがTMエンジンにとっては別の文字列になります。英語では85%マッチになるセグメントが、動詞の活用が変わっただけで日本語では62%マッチになることがあります。欧州言語も語形変化はしますが、表層の揺れははるかに小さくなります。さらに日本語は3種類の文字を使い分けるため、ある単語を漢字からカタカナに変えただけで、ファジーマッチのしきい値を下回ることもあります。
日本語の形態を最もうまく扱えるCATツールはどれですか?
日本語の比重が高いワークフローで最も多く推奨されるのはPhrase(旧Memsource)です。日本語向けのセグメンテーションルールが継続的にメンテナンスされており、TMのマッチングアルゴリズムが形態の揺れをある程度考慮するためです。memoQは有力な次点で、TBX用語ベースの統合を理由に多くの日本語翻訳者に好まれます。Tradosも日本語を十分に扱えますが、ほかのツールが自動的に処理する文末助詞や接続助詞の区切りについては、セグメンテーションルールの手動調整がより多く必要になります。
文字列形式のプレースホルダーは日本語のTM活用率にどう影響しますか?
{name}・%s・{{count}} のようなプレースホルダーは、英語版とは異なる位置で日本語の文中に現れます。日本語には後置の助詞があるため、{name}様 や {{count}}件 といった形が典型です。プレースホルダーが(%s から {0} へ、あるいは {count} から {{count}} へ)変わると、そのセグメントは完全一致のしきい値を下回り、訳し直しが必要になります。だからこそ、TM構築の前にすべてのソース文字列でプレースホルダー形式を統一しておくことが、日本語ローカライゼーションでは投資対効果の高い工程になります。
日本語のTMセグメントは、更新ではなく廃止すべきなのはどんなときですか?
次の場合は更新ではなく廃止します。製品名や機能名が変わったとき(古い名称が今後の候補に再び現れるべきではない)、製品全体で敬語のレベルが切り替わったとき(古いセグメントが誤ったトーンを引きずる)、あるいはAPPIや法令の更新によって法的文言が変わったとき。トーンや用語を変えない事実上の修正であれば、その場で更新します。古いトーンのセグメントと新しいトーンのセグメントが混在することは、日本語TMで最もよく起きるぶれの問題であり、その対策はトーンや用語を変更したあとに日付付きでTM監査を行うことです。
日本語SaaSローカライゼーションのTM投資対効果はどう計算しますか?
標準的な式は次のとおりです。TM削減額 =(100%マッチの語数 × レビューのみの単価)+(75〜99%マッチの語数 × 割引単価)+(ノーマッチの語数 × 通常単価)。成熟したTMを持つ5万語の日本語プロジェクトでは、現実的な内訳は完全一致25%、ファジーマッチ30%(40〜60%割引)、ノーマッチ45%です。通常単価が1語あたり25円のとき、語数コストは約81万円となり、TMなしの125万円に対して35%の削減になります。日本語のTM削減効果は確かにありますが、同じTM量でも欧州言語でよく見られる40〜55%の削減より低くなります。