技術提案 字幕制作システムの高度化提案
感情が表現できる字幕システム
NHKテクノロジーズがDNPと共同開発
岡田俊一氏
NHKテクノロジーズ デジタル開発技術本部 IT開発・運用センター 情報システム部 部長
まるで棒読みのようだった字幕が感情を表現するようになる。たとえば、便利に使っている「すみません」という言葉も、状況や感情で意味が変わる。でも、今の字幕では、その違いを文字面からは読み取れない。この状況を打ち破ったのは、株式会社NHKテクノロジーズ(NT)が大日本印刷株式会社(DNP)と共同で開発した「感情表現字幕システム」だ。そのプロトタイプが「超福祉展」(9月2~8日、渋谷ヒカリエおよびオンラインで開催)で展示された。
ユニバーサルメディアを考える
きっかけは、教育番組を手がけるNHKエデュケーショナル(NED)がテレビ番組の制作技術を多様なメディアで生かし視聴者に届けることを目的に、2015年に立ち上げた組織横断的なワークショップ「創発Café」だった。この「創発Café」に2年目より参加したのがNTの前身のNHKメディアテクノロジーで、2018年度のテーマに挙がったのが「ユニバーサルメディア」だった。
感情表現字幕システム開発の発案者である岡田俊一氏(NT デジタル開発技術本部IT開発・運用センター 情報システム部 部長)は、当時、ニュース字幕を送出するテクニカルディレクター担当だった。「視覚や聴覚に障害のある人はテレビをどう楽しんでいるのか、そんな疑問からのスタートでした」。さっそく岡田部長らはインタビューやフィールドワークなどを行い、リードユーザーが普段どんなメディアに接し、どんな方法で楽しんでいるのかなど、日常生活を知ることから始めた。
「リードユーザーと渋谷の街を歩いたり、食事をしたり、いろいろな体験を一緒にしました。そうしたなかで、これまでの字幕のフォントには抑揚がないこと、発話者がわかりにくいこと、タイミングがずれるなどの課題があること、テロップに使われるユニークなフォントは印象深くなることを知ったのです」。ある日の深夜、テレビ番組でギターのネック付近に音色のオノマトペをテロップで表現している写真がリードユーザーからLINEで送られてきて、これがとってもわかりやすくおもしろかったという。「文字が感情を伝える大事な役
割を果たしているのではという直感が確信に変わった瞬間でした!」(岡田氏)。
ポイントは
字幕制作のオートメーション化
とはいえ、番組に字幕を入れる作業は制作サイドにとって大きな負荷となっている。だから、できるだけオートメーション化することを考え、AIに着目したという。音声認識技術によるテキスト化、顔認識技術による感情の読み取りだ。音声認識技術はクラウドサービスの一般的なものを活用し、感情を表わすフォントはDNPが2018年に開発した「DNP感情表現フォントシステム」を活用した。 DNP感情表現フォントシステムは、文章の内容や映像内の発話者の表情から、その言葉が 持つ感情やイメージを12種類(安らぎ、穏やか、楽しい、喜び、好き、哀れ、不安、恐怖、怒り、驚き、デジタル=ネットスラング、ニュートラル=中立)に分類し、それに最も適したフォントを自動で判別して変換する。さらに、映像内の発話者を特定し、その口元近くに字幕を自動的に表示することができる。
こうして出来上がったプロトタイプが超福祉展でお披露目された。岡田氏は次のステージを見据えてこういう。「感情表現字幕システムはテレビ番組だけにとどまらず、アニメや映画など、さまざまな分野での活用が期待できます。また、AIの精度を上げることで生放送やインターネット同時配信サービスの字幕展開も可能です」。 最後にこうも話す。「あらゆるメディアの字幕を、ただ付加するという範囲を越え、誰もがもっと楽しめるものにしていきたい」
@月刊ニューメディア2020年11月号掲載