技術提案 字幕制作システムの高度化提案
感情が表現できる字幕システム
NHKテクノロジーズがDNPと共同開発
NHKのインターネット同時配信・見逃し番組配信サービス「NHKプラス」は、8月より「ネット配信向け生字幕同期システム」を見逃し番組配信サービスにおける一部番組で採用している。その機能は「一目瞭然」で、従来は難しいとされてきた映像・音声と生字幕がピタリと一致している。ネット配信の弱点である「遅延」の時間を逆に生かし、独自の技術力で同期を成し遂げたNHKの生字幕同期システムについて聞く。
(構成:高瀬徹朗・ジャーナリスト、写真:古山智恵・本誌編集部)
ネット配信特有の遅延を生かす
「ネット配信向け生字幕同期システム」は、生字幕の表示タイミングを番組内容に同期させることで、ネット配信での生字幕サービスの質を向上させる目的で開発されたものだ。
その仕組みは、SDI信号に重畳された生字幕データと音声認識結果をテキストマッチングして実際の発話時刻を推定。その結果にあわせて表示時刻を補正し、ほぼ本線・字幕がピタリと同期したタイミングで表示する〔図〕。
まずポイントとなるのが、ネット配信特有の遅延、つまり配信用ファイル生成のエンコード処理に要するタイムラグを無駄なく活用している点。およそ30秒とされる「NHKプラス」の遅延が、生字幕同期処理においてポジティブに働いている。。
感情表現字幕システム開発の発案者である岡田俊一氏(NT デジタル開発技術本部IT開発・運用センター 情報システム部 部長)は、当時、ニュース字幕を送出するテクニカルディレクター担当だった。「視覚や聴覚に障害のある人はテレビをどう楽しんでいるのか、そんな疑問からのスタートでした」。さっそく岡田部長らはインタビューやフィールドワークなどを行い、リードユーザーが普段どんなメディアに接し、どんな方法で楽しんでいるのかなど、日常生活を知ることから始めた。
「リードユーザーと渋谷の街を歩いたり、食事をしたり、いろいろな体験を一緒にしました。そうしたなかで、これまでの字幕のフォントには抑揚がないこと、発話者がわかりにくいこと、タイミングがずれるなどの課題があること、テロップに使われるユニークなフォントは印象深くなることを知ったのです」。ある日の深夜、テレビ番組でギターのネック付近に音色のオノマトペをテロップで表現している写真がリードユーザーからLINEで送られてきて、これがとってもわかりやすくおもしろかったという。「文字が感情を伝える大事な役
割を果たしているのではという直感が確信に変わった瞬間でした!」(岡田氏)。
音声と生字幕をテキストマッチング
第二のポイントとなるのが、音声認識と入力字幕のテキストマッチングだ。
「生字幕の入力は人力が基本。当然、その入力速度は入力担当者のコンディションによっても変動するため、例えば『10秒固定で前倒し』では安定性を欠く。その点、音声は映像と同期しているため、タイミングが安定します」(田中氏)。
マッチングの鍵を握るのは音声をテキスト化する音声認識技術だが、ここに「100%を求めていない」(同)ことも重要なポイント。つまり、自動認識に誤変換が含まれた場合でもおおよそのあたりをつけてマッチングさせている、ということだ。
「技研(NHK放送技術研究所)の音声認識エンジンとNgram検索アルゴリズム、認識結果の確かさを判定する独自のスコアリング処理をあわせることで高い補正性能が実現できました。放送とは異なるアプローチで、優れたサービスに辿り着けたと考えています」(技術局開発センター メディア施設部副部長・石川佳寿氏)。
なお、仮にマッチングに失敗した場合でも、直近のマッチング成功時の補正量から推定して表示時刻を補正する、簡易な学習機能も搭載。同番組内、それも直近の事例を参考とするため、大きなずれのない補正を実現できているという。
現在は見逃し番組配信サービスでの「おはよう日本(7時台)」「正午ニュース」「ニュース7」「ニュースウオッチ9」の4番組で運用しているが、ニュース以外の生番組を含めて、対象番組の拡充を検討中。さらに、将来的には、同時配信サービスでの提供や、より分かりやすい字幕を目指した表示方法の改善、多言語対応なども検討したいとしている。
「緊急災害発生時やスポーツ中継などライブ性が重要とされる番組では、NHKプラスが放送に対して遅れているという課題は残りますが、平常時、『NHKプラスだけを見ている方』には遅延は気にならないというのが原点」(石川氏)という発想、また音声認識が100%でなくても処理できるシステムとしたことは、これまでの放送システムにはなかったもの。いわゆる「放送・通信の融合」とは異なる、放送局による通信サービスの活用は、いよいよ本格的な広がりを見せているようだ。
ニュース番組でのデモ事例。視聴者が画面左の「おやすみ前の~~」の字幕を読んでいるとき、テレビからの音声は画面右の表示する字幕の「さらに詳しく~~」が流れているという「生字幕遅延」の課題を解決
@月刊ニューメディア2020年11月号掲載