AIのお手並み拝見話し方

AIは流暢に話せるのか

スマートスピーカーの普及もあり、生活のなかでAIの声を耳にすることが増えてきた。自動音声案内など電子的な音声を使うサービスは古くからあるが、以前に比べてかなり聞きやすくなったと感じる人も多いだろう。
音声合成技術は、近年、急速な進化を遂げている。当初は一つひとつの音をつなげていく方式が主流で、どうしても機械的な棒読みになりがちだったが、ディープラーニングの登場により、大量の音声データから、アクセントやイントネーションも含めて人間らしい話し方を学べるようになった。
学習する音声データをさらに増やしていけば、AIはより自然に話せるようになる。では、最も正しく滑らかな話し方が求められるアナウンサーにもなり得るのか。

人の読み方を徹底して学習文脈に応じて読み分けも

「AIアナウンサーは既に実用化され始めています。ニュース原稿については、文節ごとに適度な間を置くなど、人に近い自然な発音で読み上げることができます」と、AIアナウンサーを開発したスペクティの村上建治郎氏は語る。
同社のAIアナウンサー「荒木ゆい」は、実際のアナウンサーが読んだ約10万件のニュース音声を学習。今やニュース原稿であれば読み間違いはほとんどなく、文脈に応じた読み分けも可能だという。たとえば同じ「2-1」という原稿も、「新宿区○○町2-1」とあれば「ニノイチ」、「日本代表が2-1で勝利」であれば「ニタイイチ」、「2-1=1」であれば「ニヒクイチ」と正しく読み上げることができる。
「ただし、聞きやすく自然な読み上げができるのは、ニュースに特化しての話です。ひたすらニュース音声だけを学習させているので、AIはその読み方を真似しているにすぎません。学習した音声データをもとに、この原稿に対してベストと思われる読み方を選んでいるだけで、文章の意味を理解しているわけではないのです。実際、AIアナウンサーに小説の朗読をさせても、ニュース原稿のように正しく淡々と読み上げていくだけで、人間のように感情を込めて読むことはできません」
意味を理解していないため、音声データとして学習していない新しい言葉を、意味から推察して読み上げるのも難しい。原稿の内容を踏まえて、明るい話題であれば声のトーンを上げて読むなどの柔軟な対応もできないということになる。

音声による情報伝達はAIが担う時代に

そうした課題はあるものの、「ニュースを伝えるという点では、AIアナウンサーは十分に活用できるレベルにある」という。「荒木ゆい」に対しても、人員に限りのある地方局や小規模なFM放送局などを中心に、引き合いが増えている。ニュースを読む以外に、既にラジオ番組の司会も担当している。台本通りに進行するものであれば、問題なく対応できるという。
人手不足や働き方改革の流れのなかで、特に災害時の緊急対応などを人間だけで担うには限界がある。聞きやすい音声でいち早く正しい情報を伝えられるなら、その担い手は人でもAIでも構わないはずだ。
「報道機関に限った話ではありません。ある自治体では、防災行政無線をいつも担当している人が台風の影響ですぐに庁舎に来られず、急遽別の人が担当したところ、住民から『聞き取りにくい』とのクレームが数多く寄せられたそうです。こうした仕事は、初めからAIアナウンサーに任せてしまえばいいのです。そのほうが住民にとっても安心でしょう」
駅や店舗内のアナウンス、観光案内、イベントでの人の誘導など、日常生活のなかで、音声によって情報を伝える場面はたくさんある。今後そのほとんどが、AIで代替できるようになるはずだ。
「AIアナウンサーにはニュース音声を、チャットボットには人間の会話のパターンをというように、用途に応じて適切な音声データを与えて学習させていけば、話し方の精度はどんどん上がります。人間と区別がつかないほど、自然な話し方ができるようになる日もそれほど遠くないと思います」

Text=瀬戸友子 Photo=平山諭 Illustration=山下アキ

村上建治郎氏
スペクティ代表取締役CEO。
Murakami Kenjiro 米国ネバダ大学理学部物理学科卒業。早稲田大学大学院商学研究科修了。エー・アイ・アイにて、オンライン・デジタルコンテンツの事業開発などを担当後、米国Charles River Laboratories、シスコシステムズを経て、2011年に独立。「新時代のCNN」を目指してSNS速報サービス「スペクティ」やAIアナウンサー「荒木ゆい」を開発。