TOPページ > 2020年11月号の記事 字幕制作システムの高度化提案

技術提案 字幕制作システムの高度化提案

感情が表現できる字幕システム
NHKテクノロジーズがDNPと共同開発

NHKのインターネット同時配信・見逃し番組配信サービス「NHKプラス」は、8月より「ネット配信向け生字幕同期システム」を見逃し番組配信サービスにおける一部番組で採用している。その機能は「一目瞭然」で、従来は難しいとされてきた映像・音声と生字幕がピタリと一致している。ネット配信の弱点である「遅延」の時間を逆に生かし、独自の技術力で同期を成し遂げたNHKの生字幕同期システムについて聞く。
(構成:高瀬徹朗・ジャーナリスト、写真:古山智恵・本誌編集部)


ネット配信特有の遅延を生かす

 「ネット配信向け生字幕同期システム」は、生字幕の表示タイミングを番組内容に同期させることで、ネット配信での生字幕サービスの質を向上させる目的で開発されたものだ。
 その仕組みは、SDI信号に重畳された生字幕データと音声認識結果をテキストマッチングして実際の発話時刻を推定。その結果にあわせて表示時刻を補正し、ほぼ本線・字幕がピタリと同期したタイミングで表示する〔図〕。

 まずポイントとなるのが、ネット配信特有の遅延、つまり配信用ファイル生成のエンコード処理に要するタイムラグを無駄なく活用している点。およそ30秒とされる「NHKプラス」の遅延が、生字幕同期処理においてポジティブに働いている。。

 感情表現字幕システム開発の発案者である岡田俊一氏(NT デジタル開発技術本部IT開発・運用センター 情報システム部 部長)は、当時、ニュース字幕を送出するテクニカルディレクター担当だった。「視覚や聴覚に障害のある人はテレビをどう楽しんでいるのか、そんな疑問からのスタートでした」。さっそく岡田部長らはインタビューやフィールドワークなどを行い、リードユーザーが普段どんなメディアに接し、どんな方法で楽しんでいるのかなど、日常生活を知ることから始めた。

「リードユーザーと渋谷の街を歩いたり、食事をしたり、いろいろな体験を一緒にしました。そうしたなかで、これまでの字幕のフォントには抑揚がないこと、発話者がわかりにくいこと、タイミングがずれるなどの課題があること、テロップに使われるユニークなフォントは印象深くなることを知ったのです」。ある日の深夜、テレビ番組でギターのネック付近に音色のオノマトペをテロップで表現している写真がリードユーザーからLINEで送られてきて、これがとってもわかりやすくおもしろかったという。「文字が感情を伝える大事な役
割を果たしているのではという直感が確信に変わった瞬間でした!」(岡田氏)。

音声と生字幕をテキストマッチング

 第二のポイントとなるのが、音声認識と入力字幕のテキストマッチングだ。

 「生字幕の入力は人力が基本。当然、その入力速度は入力担当者のコンディションによっても変動するため、例えば『10秒固定で前倒し』では安定性を欠く。その点、音声は映像と同期しているため、タイミングが安定します」(田中氏)。

 マッチングの鍵を握るのは音声をテキスト化する音声認識技術だが、ここに「100%を求めていない」(同)ことも重要なポイント。つまり、自動認識に誤変換が含まれた場合でもおおよそのあたりをつけてマッチングさせている、ということだ。

 「技研(NHK放送技術研究所)の音声認識エンジンとNgram検索アルゴリズム、認識結果の確かさを判定する独自のスコアリング処理をあわせることで高い補正性能が実現できました。放送とは異なるアプローチで、優れたサービスに辿り着けたと考えています」(技術局開発センター メディア施設部副部長・石川佳寿氏)。

 なお、仮にマッチングに失敗した場合でも、直近のマッチング成功時の補正量から推定して表示時刻を補正する、簡易な学習機能も搭載。同番組内、それも直近の事例を参考とするため、大きなずれのない補正を実現できているという。

 現在は見逃し番組配信サービスでの「おはよう日本(7時台)」「正午ニュース」「ニュース7」「ニュースウオッチ9」の4番組で運用しているが、ニュース以外の生番組を含めて、対象番組の拡充を検討中。さらに、将来的には、同時配信サービスでの提供や、より分かりやすい字幕を目指した表示方法の改善、多言語対応なども検討したいとしている。

 「緊急災害発生時やスポーツ中継などライブ性が重要とされる番組では、NHKプラスが放送に対して遅れているという課題は残りますが、平常時、『NHKプラスだけを見ている方』には遅延は気にならないというのが原点」(石川氏)という発想、また音声認識が100%でなくても処理できるシステムとしたことは、これまでの放送システムにはなかったもの。いわゆる「放送・通信の融合」とは異なる、放送局による通信サービスの活用は、いよいよ本格的な広がりを見せているようだ。

図:システム概要

図:システム概要
ニュース番組でのデモ事例。視聴者が画面左の「おやすみ前の~~」の字幕を読んでいるとき、テレビからの音声は画面右の表示する字幕の「さらに詳しく~~」が流れているという「生字幕遅延」の課題を解決


@月刊ニューメディア2020年11月号掲載


ツアーのご案内
NAB2023ツアー 設立100年のNAB(全米放送連盟)。放送電波からネットのストリーミングサービスの
展開、コンテンツ表現もAR/VRと広がる。広告モデルも著しい議論の現場へ
雑誌、書籍ご購入
本誌編集部より
新刊本

2022年11月14日発行
NM BOOKS 「IPライブ伝送システム」解説シリーズ第5弾
リモートプロダクション
必須の基本項目

~分かれば、できる。できれば、分かる。~
NM BOOKS 「IPライブ伝送システム」解説シリーズ第5弾 
リモートプロダクション
必須の基本項目 表紙A5判/オールカラー/94ページ
価格1,000円(税込)送料別
*直販のみ。ホームページからお申し込みを。

ホワイトペーパー
英DCMS 2022年4月28日発表
放送政策に関するホワイトペーパー(英文版)
『Up Next
The Government's vision for the broadcasting sector』
リンク

●字幕付きCM普及推進協議会
<構成:日本民間放送連盟(民放連)、日本広告業協会(業協)、日本アドバタイザーズ協会(アド協)>
動画「字幕付きCM5つのお話」YouTube公開

●字幕付きCM普及推進協議会
<構成:日本民間放送連盟(民放連)、日本広告業協会(業協)、日本アドバタイザーズ協会(アド協)>
動画「字幕付きCM5つのお話」YouTube公開 バナー
好評発売中

HDR 制作解説書 Ver.3
HDRとSDRのサイマル制作HDR 制作解説書 Ver.3144ページ 定価1,500円 (税込/送料別

好評発売中
NEWMEDIA別冊

HDR制作の解説書
次代の映像クリエーターたちが執筆HDR制作の解説書

好評発売中

「一周まわってテレビ論」とローカル放送展望の解説書 月刊ニューメディア12月号別冊
解説書 HDR制作84ページ 定価1,000円(税込/送料別)
※ニューメディアからの直接販売のみとなります。

日本画質学会
募集

・今と言えば、今すぐ対応できる人
・短時間で仕上げられる人
・たび重なる修正に耐えられる人
・安くてもOKな人
担当:渡辺・本誌編集長
info@newww-media.co.jp


燃料電池ビジネス

GetAdobeReader