英語では無理なく収まる字幕が、日本語にすると行からあふれる。英語の視聴者の読む速度に合わせたタイミングの字幕は、日本の視聴者が読み終える前に消えてしまう。日本語字幕は、独自の文字数制限・改行ルール・凝縮(要約)の技術・用語の制約を持つ職人仕事です。本記事では、翻訳された原稿を、日本の視聴者が表示時間内に実際に読める字幕へと変える判断を扱います。
日本語の動画ローカライゼーションで最もよくある失敗は、字幕を「翻訳の問題」として扱うことです。本当はそれは「タイミングと空間の問題」です。字幕は自由なテキストではありません。2つの厳しい制約——画面に収まる量と、消える前に視聴者が読める速さ——に縛られたテキストです。英語の字幕チームは、英語についてはこの制約を直感的に把握しています。しかしその直感は日本語には移植できません。日本語は詰め込み方も読み取られ方も違うからです。
無理なく収まり、3秒で読める2行の英語字幕を考えてみてください。それを日本語に直訳すると、2つのことが同時に起こります。第一に、助詞や丁寧な動詞の語尾が加わることで、日本語の行はしばしば許される空間より視覚的に長く、あるいは密になります。第二に、たとえ収まっても、漢字の多い全訳は元の英語を読むより読み取りに時間がかかることがあり——字幕は視聴者が読み終える前に消えてしまいます。その翻訳は、正確であると同時に読めないのです。
だからこそプロの日本語字幕は、置き換えではなく凝縮を軸に組み立てられます。字幕者の仕事は、視聴者が与えられた時間で無理なく読める最少の文字数で本質的な意味を伝えることであり、冗長・つなぎ言葉・映像がすでに示しているものを削ぎ落とすことです。機械翻訳や逐語的な人手翻訳はこの工程をまるごと飛ばします。だから自動生成やアマチュアの日本語字幕は同じ兆候を共有します——技術的には正しいのに、読むのがひどく疲れるのです。
視点の転換は、ほとんどの字幕作業を立て直すものと同じです。「この英語の行は日本語で何と言うか」を問うのをやめ、「与えられた時間と空間でこれを伝える、最も読みやすい日本語の行は何か」を問い始めること。以降の内容はすべて、その問いに奉仕するものです。
日本語字幕は、多くの英語チームが想定するより厳しい1行あたりの文字数制限で作られます。普遍的な唯一の数字はなく——制限は媒体・プラットフォーム・ハウススタイルで異なります——それでも作業上の慣習は自由なテキストよりはるかに制約的です。日本の映画・放送字幕では、長らく1行あたりおおよそ13文字程度、画面上は同時に最大2行という慣習が用いられてきました。ストリーミングやオンラインのチュートリアル動画ではもう少し許容される場合もありますが、原則は変わりません——行は短く、制約となるのは原文への忠実さではなく読む時間です。
現実的な帰結として、文字数制限が書き方を決めるのであって、その逆ではありません。字幕者は、行を訳してから収まるか確認するのではなく、最初から制限に合わせて書き、意味を保つ最も無駄のない言い回しを選びます。だから同じ行に対して、力量のある2人の日本語字幕者が、見た目は違うのに同じく妥当な字幕を作れるのです——凝縮の仕方は多数あり、その技は、枠の中で気持ちよく読める一つを選ぶことにあります。
この例で何を削ったかに注目してください。会話的な前置き(それでは)、丁寧さの余白(してみてください)、そして画面上のUIがすでに示している明示的な「ボタン」。どれも視聴者に必要な情報を運んでいません。凝縮された行は劣った翻訳ではありません——字幕としては、より良い翻訳です。
読む速度は文字数制限の背後にある制約であり、日本語の読む速度は英語にきれいには対応しません。漢字で書かれた日本語の行は少ない文字数に多くの意味を詰め込みます——一見すると利点です——が、漢字の密な文章は読み取りの視覚的負荷も高く、ぎっしり詰まった文字の壁は、その文字数が示すより読むのが遅くなることがあります。結果として、日本語字幕のタイミングは文字数だけでは設定できません。その行が具体的にどれほど読みにくいかを考慮しなければならないのです。
これが最も効いてくるのがスポッティング——各字幕のイン/アウトのタイミング設定です。英語の音声でうまくいったのと同じテンポで現れて消える字幕は、日本語では速すぎることが頻繁にあります。視聴者は密な日本語の行を読み取るのにわずかに長い時間を要するからです。良い日本語のスポッティングは、各字幕に無理のない速度で読めるだけの表示時間を与え、視聴者が「ついていけていない」と感じる早送りのような点滅を避けます。読み切れない字幕は、字幕がない状態よりも悪いものです。なぜなら積極的にフラストレーションを与えるからです。
凝縮とスポッティングの相互作用にこそ職人技が宿ります。ある行がどうしても情報密度が高く、これ以上凝縮できないなら、より長い表示時間が必要です。編集で表示時間が固定されているなら、行をより強く凝縮しなければなりません。字幕者は、どの字幕も視聴者に無理な速さで読ませないよう、すべての字幕でこの2つを釣り合わせます。この1行ごとの判断こそ、まさに自動字幕ツールにはできないことです。
日本語字幕が2行にどこで折り返すかは任意ではなく、これを誤るのは最も目につくアマチュアの兆候のひとつです。改行——改行(かいぎょう)——は、自然な節や句の境界、読み手が自然に間を置く位置に入れるべきです。単語を分割したり、複合語を2行にまたがせたり、名詞をそれを文法的に結びつける助詞から切り離したりしては絶対にいけません。
理由は理解の速さです。字幕は一瞬で読まれるものであり、自然な境界に置かれた改行は、読み手が行を意味のあるかたまりに即座に区切ることを可能にします。句の途中に置かれた改行は、読み手に文を頭の中で組み立て直させます——最初の断片を保持し、2行目に飛び、つなぎ合わせる——これは字幕に残されていない、まさにその一瞬を奪います。改行は句読点として機能しています。うまく置けば読みを助け、まずく置けば妨げるのです。
自動字幕ツールは、文法を一切意識せず、文字数や画面幅で行を折り返します——だから自動改行の日本語字幕は、すべての単語が正しくても、これほど確実に不自然に感じられるのです。適切な改行は自動化できません。行を読み、意味が間を許す位置に改行を置く人間が必要です。
すべての動画を字幕にすべきとは限りません。字幕・ボイスオーバー・フル吹き替えの選択は、内容がどれだけうまく機能するかに実際の結果をもたらすローカライゼーションの判断であり、特にチュートリアル内容では、既定の答えが必ずしも字幕ではありません。
字幕は制作が速く安価で、製品が変わったときの更新も容易、視聴者は元の音声も聞けます——だからソフトウェアのウォークスルーや製品デモではよく使われる既定の選択です。しかし字幕にはチュートリアルで切実に効いてくるコストがあります——視聴者の視線を画面と奪い合うのです。チュートリアルでは、視聴者は実演されているUIを見る必要があります。同時に画面下部の字幕も読んでいると、注意は指示とそれが説明する動作の間で分断され、どちらかを見逃します。
これがチュートリアル内容でボイスオーバーを推す最も強い論拠です。翻訳・凝縮した台本をナレーターが元の動画に重ねて読むことで、視聴者は視線をUIに保ったまま、音声で指示を受け取れます。字幕より高価で更新も遅くなりますが、画面を見ることがすべてである手順型の教則内容では、はるかに効果的に教えられます。フル吹き替え——元の話者の演技を置き換えるもの——はさらに重く、通常は作り込まれたマーケティングやエンターテインメント、つまり画面上の話者の存在が重要な場面に限られます。
ローカライズしたチュートリアルを役立たずにする最も速い方法は、UI要素を、ローカライズ済み製品での表示とは違う名前で字幕に書くことです。ナレーションや字幕が視聴者に「設定」をクリックするよう伝えるのに、ローカライズされたインターフェースがその操作対象を「環境設定」と表示していたら、視聴者は今読んだ言葉を画面で探し、見つけられず、立ち止まります。チュートリアルは、最も肝心なまさにその瞬間に教えるのをやめてしまうのです。
ルールは絶対です——字幕やボイスオーバーで言及するすべてのUI要素は、ローカライズ済み製品で使われている文字列と完全に一致させなければなりません——同じ漢字やカタカナ、同じ表記、同じ句読点、製品が使う括弧も含めて。これは字幕者が独立して訳して運よく当てられるものではありません。動画内の用語が画面上の用語と同じ「正本」から引かれるよう、字幕の制作フローが製品のローカライゼーション用語集、あるいは実際のローカライズ済みビルドを参照する必要があります。
これは、チュートリアル字幕を製品UIのローカライゼーション確定前に確定できない理由でもあります。UIの文字列がまだ流動的なら、用語が変わった瞬間に字幕は同期からずれます。動画と製品の間の用語統一は、翻訳の問題であると同時にワークフローの問題であり、ローカライズされたチュートリアルが静かに役目を果たせなくなる最も一般的な原因のひとつです。
チュートリアルや教育系の内容では、すべての視聴者が自信を持って読めるとは限らない漢字の専門用語——業界特有の語彙、まれな複合語、製品固有の造語——が出てくることがあります。印刷物での解決策はふりがなです。漢字の上に小さく印字する読みの補助です。字幕ではふりがなは空間に制約され、控えめにしか使えませんが、根本の問題はやはり解決しなければなりません。
現実的な手立てはこうです。より広く読める形がある場合はそちらを選ぶ(一般の視聴者には、難解な漢字の複合語より、よく使われるカタカナの外来語の方が一目で読みやすいことがある)。漢字が価値を加えないなら、初出時に難しい用語をかな書きにする。あるいは、プラットフォームがルビをサポートしているなら、本当に難しいが必要な漢字にふりがなを振る。判断は視聴者に依存します——開発者向けチュートリアルは、消費者向けのオンボーディング動画より高い漢字の読解力を前提にできます——また、その用語が製品UIと一致するためにそのまま出さなければならないかにも依存します。
避けるべき判断は、読みやすさを度外視して最も「正しい」あるいは格式ある漢字形を既定にすることです。字幕は一瞬で読まれるために存在します。視聴者が立ち止まって解読しなければならない用語は、どれほど漢字が正しくても目的を裏切ります。基準は、与えられた一瞥の中での読みやすさです。混在した視聴者層には、それはしばしば、博識な形よりも読みやすい形を選ぶことを意味します。
字幕とアクセシビリティ用のキャプションは同じものではなく、両者を混同すると、どちらの視聴者にも十分には役立たない内容ができます。標準的な字幕(字幕)は、聞こえるがテキストを必要とする視聴者向けに、話された台詞やナレーションを——通常は翻訳として——表示します。アクセシビリティの意味でのクローズドキャプションは、台詞以外の音声情報も伝えます。話者の識別、効果音、音楽のキュー、トーンなどを、耳の聞こえない・聞こえにくい視聴者のために示すのです。
翻訳されたチュートリアルでは、ローカライゼーションチームはどちらを作っているのかを決めなければなりません。翻訳のみの字幕トラックは、ついていこうとする聴覚のある日本の視聴者のニーズは満たしますが、たとえば確認音が鳴ったことや警告音がしたことを知る必要のある、耳の聞こえない視聴者のアクセシビリティ要件は満たしません。アクセシビリティが要件であれば——そして多くの企業向け・公共向け製品では、それはますます要件になっています——キャプショントラックには、翻訳された台詞に加えて、適切に明示された台詞以外の情報が必要です。
現実的な指針は、最初からゴールを明確にすることです。成果物が翻訳の補助なら、すっきり凝縮した字幕トラックが正解です。成果物がアクセシブルでなければならないなら、キャプショントラックは音と話者の情報を含むより大きな作業であり、後から発覚するのではなく、そのように範囲と予算を見積もるべきです。アクセシビリティを翻訳の後付けとして扱うと、技術的には存在するが、それに頼る視聴者には実際には役立たないキャプションができあがります。
あふれる行、速すぎるタイミング、崩れた改行、製品と一致しないUI用語は、ローカライズされたチュートリアルが教えられなくなる最も一般的な原因です。日本語字幕・チュートリアルのQAレビューは、表示時間内に読めない字幕、改行が理解を妨げている箇所、製品UIからずれた用語を特定します。
ミニ診断を依頼する日本語字幕の文字数制限はどのくらいですか?
普遍的な唯一の数字があるわけではありませんが、プロの日本語字幕は英語よりはるかに厳しい1行あたりの文字数で作られます。日本の映画・放送字幕では、長らく1行あたりおおよそ13文字程度、画面上は最大2行という慣習が用いられてきました。ストリーミングやチュートリアル動画ではもう少し許容される場合もあります。ローカライゼーションで重要なのは、日本語字幕は英語の文章との直接の対応ではなく、視聴者が表示時間内に読める量で制約されるという点です。2行の英語字幕は、同じ表示時間の中で読める日本語1行に収めるために、ただ翻訳するのではなく凝縮(要約)しなければならないことがほとんどです。
なぜ日本語字幕は直訳ではなく凝縮が必要なのですか?
読む速度と情報密度が異なるからです。日本語は漢字・ひらがな・カタカナが混在し、漢字の多い行は1文字あたりの意味が多い一方で、読み取るのに視覚的な負荷もかかります。英語字幕を逐語的に全訳すると、画面に表示される数秒では快適に読み切れないほど長くなりがちです。プロの日本語字幕は凝縮します——本質的な意味を保ちつつ冗長な部分を削ぎ、無理のない速度で読めるようにする。これは1語1語の置き換えではなく職人的な技術であり、アマチュアとプロの日本語字幕を分ける最大の違いです。
日本語字幕の改行はどう扱うべきですか?
日本語字幕の改行は、自然な節(せつ)や句のまとまりの境界に置くべきで、単語の途中や、文法的に強く結びついた要素の途中で切ってはいけません。名詞を助詞から切り離したり、複合語を2行にまたがせたりする不自然な改行は、視聴者に文を組み立て直させ、理解を遅らせます。良い日本語字幕は、改行を「読み手が文を意味のかたまりに区切る助けになる句読点」として扱い、自然な間(ま)が生じる位置に置きます。機械的・不注意な改行は、ローカライズされた日本語字幕で最も目につく品質の失敗のひとつです。
日本語のチュートリアル動画は字幕・吹き替え・ボイスオーバーのどれを選ぶべきですか?
ソフトウェアのチュートリアルや製品ウォークスルーでは、字幕が最も現実的で信頼される選択肢であることが多いです——制作が速く安価で、UIが変わったときの更新も容易、視聴者は元の音声も聞けます。ボイスオーバー(翻訳した台本をナレーターが元の音声に重ねて読むもの)は、視聴者が字幕を読むより画面を見る必要がある教則的な内容に向きます。フル吹き替えはさらに重く、通常は作り込まれたマーケティングやエンターテインメント向けに限られます。チュートリアルでは特に、画面上のUI操作と字幕が視聴者の注意を奪い合うという点が決め手になりやすく、これはボイスオーバー、あるいはUIと衝突しないよう慎重にタイミングを取って凝縮した字幕を選ぶ理由になります。
字幕と製品UIの用語統一はどれほど重要ですか?
きわめて重要で、しかも頻繁に崩れます。チュートリアル字幕がボタンを「設定」と呼ぶのに、ローカライズ済みの製品UIでは同じものが「環境設定」と表示されていたら、視聴者は操作についていけません——読んだ言葉を画面上で探しても見つからないからです。チュートリアル字幕で言及するすべてのUI要素は、句読点やカタカナの表記も含めて、ローカライズ済み製品で使われている文字列と完全に一致しなければなりません。そのためには字幕の制作フローが製品のローカライゼーション用語集を参照する必要があり、UI用語を独立して訳してはいけません。動画と製品の間の用語のズレは、ローカライズされたチュートリアルが実際には機能しなくなる最も一般的な原因のひとつです。