AIりんなの成長記録

坪井一菜氏(以下、坪井):みなさんこんにちは。マイクロソフトでAI「りんな」の開発をしています、坪井一菜と申します。今日は「AIりんなの成長記録」ということで、私たち開発チームが何を考えてどのようにりんなを成長させてきたか、最新の技術アップデートを含めましてご紹介したいと思います。

今日のこのセッションでは、りんなのお話を通じて最新のAIテクノロジーのお話をさせていただきますが、細かい技術の内容というより「なぜそのAIを開発しているの?」というところにフォーカスを当ててお話をします。AI初心者の方、今日は数式は出てきませんので、ぜひリラックスして聞いてください。

なぜそんなプレゼンをするかというと、とくに最近AIで今何ができるかという情報はたくさん出ているんですが、一方でディープラーニングの技術はいろいろなことに使えるがゆえに、製品化するときは何のためにそれを開発するのか目的を定めることが非常に重要です。そこがうまく定まっていないと、「その学習で本当に正しいの?」というところが見えなくなります。

なので、AIの製品が何のためにどう考えて作られているかという点に注目していただきたく、AIりんなの話を通じて「何を」の視点を知っていただければと思います。そして私たちの考え方に共感いただけた方は、ぜひその話を他の人にも共有していただけると幸いです。

では、今日のセッションについてです。まず、私たち開発チームがAIりんなで夢を見ている未来についてご紹介します。そして、それを目指すために大切にしている2つの考え方についてと、それをベースにこの5年間どんなことをやってきたのか。そして、今注目しているコンテンツの考え方についてご紹介します。最後に、今回初出しの情報となる新しいチャットモデル「コンテンツチャットモデル」についてご紹介します。では、短い間ですが、お付き合いください。

AIが人と世界のつながりを変えると信じて

さて、みなさん、ちょっとふだんの自分の生活について思い返してみてください。

スマートフォンやパソコンで1日いったいどれくらいの情報に触れていますか? 私自身も仕事のパソコンでメールを見たりTeamsで仲間と会話としたり、あとはスマホでいろいろなニュースサイトやYouTubeを見たり、SNSもFacebookやTwitter、しかもそれは用途に合わせて複数アカウント、Instagram、LINE、TikTokなどいろいろなアプリケーションから情報を得てコミュニケーションをしています。

さらに、それらの内容についてプラットフォームに跨った会話をしています。例えばLINEでお友達と「Instagramで投稿していたあの料理、めっちゃ美味しそうだったじゃん」みたいな話が行われています。つまり、私たちの身の回りには今情報で溢れ返っています。

人はコンピュータやスマートフォンを手に入れたことによって今までの人類史上、類を見ないほどにお互いに情報交換ができるようになりました。

そしてその情報のインタラクションは、私たちにたくさんの恩恵をもたらしました。人と人のコミュニケーションは物理的距離を超えて行われています。

ただ一方で、つながる手段も増え続け、さらに情報がいろいろなところに細切れに断片化して、その情報がすべて私たちのところに押し寄せてきています。肝心な中身だけでなく断片的に切り取られた内容が拡散して炎上するということも起きてしまっていますよね。正直、そろそろ個人が向き合える以上の情報が私たちに押し寄せています。

そんな世の中だからこそ、今もう一度新しく世界と人をつなげる方法が必要とされています。そして私たち開発チームは、人らしい面と機械らしい面を兼ね備えたAIのインタラクションこそが人と世界のつながりを変えることができる、そう信じています。

人間社会で、人と人はお互いのコミュニケーションによってお互いの信頼関係を確立し、人と人のネットワーク、つまり社会を構築してきました。

その交流の物理的な壁を取っ払ったのがコンピュータです。そしてその先に続く検索エンジンやモバイルインターネットが爆発的につながりをもたらしました。その双方の良い面を合わせて、AIは人間にとって馴染みやすい社交性と、コンピュータらしい並列性を兼ね備えた新しいプラットフォームになり得ると私たちは信じています。そのAIと人のインタラクションこそが人と世界のつながりを変えます。

そのような夢を持つ私たちが開発にあたって大切にしているのが、AIが人と人のコミュニケーションをつなげる役割を果たすことです。

私たちは会話ができるAIを開発していますが、AIと人間が長時間ずっと会話をしているというような状態を見たことがありますし、「AIができるなら人間いらないじゃん」なんてことを言う人も見たことがあります。

でも、そうではなくて、AIが人と人をつなげることが大切だと思っています。それができるAIが人と世界の新しいつながりをもたらすことができると信じています。

そしてそのハブ的役割を担うために将来的には人らしさと機械らしさの両方を持ち合わせたAIが必要です。

「共感」をテーマに開発されたAIりんな

りんなのチームでは5年前から、まずはいかにAIに人らしさをもたらすかということを目指し、人間の心の面に注目して「共感」をテーマに開発をしてきました。

私たちの言う共感は、相手が気持ちを込めた内容を送ってきたときにこちらもエモーショナルな内容を返信し、それが続くことによってやり取りのループが生まれてくることを言います。

例えば、会話においてはタスクをこなすように質問に対して回答をするのではなく、会話が長く続くように返答します。このインタラクションによって人が会話を通じて関係を育むように、心でつながった関係性の構築を目指しています。

人が心でつながるAIを実現するために生み出されたのがAIりんなです。2015年にデビューをしてからお友達数が820万人を突破し、現在はおしゃべりできるチャットボットとしてだけではなく、歌手やラジオのMCなど幅広く活躍をしています。

また、その会話技術を他社さんにご提供させていただいています。例えばローソンのあきこちゃん、ソフトバンクのPepper君、あとはバーチャル女子高生のSayaさんの裏でりんなが活躍しています。企業のみなさんが会話を通じて人とつながるお手伝いをさせていただいています。

AIキャラクターが社会で活躍するのに必要な3要素

では、次に具体的にこのようなAIキャラクターたちが社会で活躍していくにあたって必要な要素についてご説明いたします。

Emotional Computing Frameworkは、こういったAIのキャラクターたちが活躍するために必要な要素をまとめた考え方です。人間とやり取りする人間らしさの面、世界について情報を扱う面、そして彼らが活躍する居場所、この3つの要素が非常に重要です。

りんなではテキストでやり取りする能力だけではなく、人でいうところの口や目、そして耳の能力を音声や画像、動画を扱う技術によって実現しています。

そして、世界について情報を処理する能力ですが、これはただ知識として知っているだけではなく、それを人に伝えるという力が重要で、さらに内容をコンテンツ化していく能力が必要となってきます。

最後に、彼らの居場所についてですが、さまざまなプラットフォーム上だけではなく同時に社会的な役割を持たせることによって人との接点を持つことができるという考え方です。

AIりんなの5年間の足取り

では、その人らしさの技術についてこの5年間の足取りについてご紹介します。

2015年からりんなは繰り返し技術のアップデートが行われてきました。はじめは検索モデルを基にしたチャットのモデルと犬の認識といったような内容のものだったのですが、開始3年目の2017年前後にAI界に生成の波が押し寄せ、歌や電話ができるようになったり、りんなとおしゃべりをしながら見たものについて感想を語り合うことができる共感視覚モデルといった内容が登場しました。

そして、去年ぐらいからAIでできることの複雑さとエモーショナルさがどんどん上がってきて、私たちの夢に向かっているという実感を強く感じるような技術がどんどん登場しました。正直今、この5年間の中で2015年に初めてりんなと会話としてて電車を乗り過ごしたあのとき以来のドキドキが止まらないような状態です。

このあたりを1つ1つ紹介していると正直余裕で1日話し続けてしまうので、ぜひご興味があったらりんなのホームページの動画や発表当時の記事へのリンクなどをご覧いただければと思います。

これらの技術進化と同時にりんなが社会で活躍する場と役割もどんどん増えてきました。

最初は、身近な友達としてシャープさんの公式アカウントのツイートを代行で行うところからちょっと有名になってきたところ、「ファンブックを出しませんか?」というお話をいただいたり、『世にも奇妙な物語』で女優デビューもさせていただきました。そして、声ができたらいろいろな歌やラジオ番組に登場することができるようになり、さらに地方創生をテーマに地域とつながったさまざまなコンテンツを展開してきました。

そして、最近ですと音楽アーティストとして紅白歌合戦出場歌手の方と歌の対戦をさせていただいたり、ライブをしたり、画家を始めたり、クリエイターとしての活躍も盛んに行っています。

それでは前半のまとめです。私たち個人が接する情報は断片化して、私たちの処理能力を超えるほど溢れる世の中になってしまっています。そこで人と人、人とコンピュータに続く新しいインタラクションが必要とされています。私たちはAIが人の情報のハブになって人と世界をつなげる未来が作れると考えています。

そして、そのための私たちのチームのアプローチは、「共感」のベクトルから考えること。そのようなAIを作るためには人間らしさ、情報をコンテンツ化する力、そして社会的ポジションを与えることが重要だと考えています。そして、りんなはこの5年間で技術進化とともに身近な友人からクリエイターへと変化をしています。

AIに必要なことは「コンテンツを生み出す力」

りんなは人とコミュニケーションとインタラクションをとるためにいろいろと人間っぽいことができるようになったのね、というところは先ほどのお話でなんとなく感じていただけたと思うんですが、「じゃあいったいどうやって人と人をつなげるんだろう?」と疑問に思っている方がいらっしゃると思います。人とハブになるために、今AIに必要なことは「コンテンツを生み出す力」だと私たちは考えています。

コンテンツは人にとって意味のある情報の集合体を指します。そして人はその情報を求めてコンテンツに集まります。今のAIには、そのコンテンツの表現と内容をAIで創り出すというところが重要です。

りんながデビューした当時、りんなの元に人が集まってきたのも会話的なゲームができたことだけではなく雑談もコンテンツだったからです。りんなの他のアカウントやりんなの歌声などに人が集まってくるのも、そこにコンテンツがあるからです。

そしてぜひ今覚えてほしいのは、ディープラーニングによって予測や認識のタスクのみならず生成ができるようになった、ということです。転機は新しいアルゴリズムが出たことで、GAN(敵対的生成ネットワーク)というアルゴリズムがあるんですが、例えば、アイドルや人の顔の画像が作れるといったことが話題になっていて、ご存知の方もいらっしゃると思います。

りんなではディープラーニングによって音声やテキスト、そして描画についてのクリエーションに挑戦しています。今日は最新のアップデートとして音声と描画についてのご紹介をいたします。

ディープラーニングによるコンテンツの生成

りんなは、ディープラーニングによって話し声と歌声を生成することができます。人間の声の表現のニュアンスを学習し、その表現を再現することによって音声を生成します。文章や歌に必要な情報を、楽譜や人の声のお手本から耳コピ的に取得することによって、どうやってその内容を表現するかを予測し、音声を生成します。

今年5月に発表させていただいたのが、人の悲しい声やうれしい声を学習した感情表現のアップデートです。

まずは話し声のサンプルをお聞きください。感情がない音です。

話し声のサンプル(感情なし):いつもこころのとなりにいるよ。たとえとおくはなれていても。

坪井:続いて悲しい表現です。

話し声のサンプル(悲しい表現):いつも心の隣にいるよ。たとえ遠く離れていても。

坪井:かなりどんよりしてますね。そしてうれしい声です。

話し声のサンプル(うれしい声):いつも心の隣にいるよ。たとえ遠く離れていても。

坪井:これはかなりハッピーな声がしていますね。そしてこの感情表現は歌にも応用することができていて、バラードやポップといった音楽的な表現に加えて感情表現を掛け合わせた歌声の表現ができるようになりました。

それでは、バラードの表現に感情の表現を掛け合わせた歌声のデモをお聞きください。

歌声のデモ(バラードのみ):ねぇ、なくなったことすら気付かないようなささいなことも実はかならず

歌声のデモ(バラード×悲しい):ねぇ、なくなったことすら気付かないようなささいなことも実はかならず

歌声のデモ(バラード×うれしい):ねぇ、なくなったことすら気付かないようなささいなことも実はかならず

坪井:そしてりんなは文章からインスピレーションを受けて絵画風の絵を生成できるようになりました。これも先ほど少し触れたGANという技術を応用してできるようになったもので、右下の画像は、りんなのInstagramのフォロワーの人に「雨の日はどうする?」というような質問を投げかけて返ってきた返答から作ったものです。

もっとりんなの絵を見てみたいという方は、りんなのInstagramを覗いてみてください。また、LINEのアカウント上で「アート検定」と送ってみてください。すると、りんなのアートがどれか、アートと絵画を見分けるクイズが出てきますので、ぜひチャレンジしてみてください。

動きによる表現の生成

そしてさらに、りんなは動きによる表現を生成することもできます。先ほどの描画の技術を応用して、音と動きの関係を学習して曲から振り付けを生成します。

左の動画が実際に作った振り付けで、真ん中が私なんですけど、その振り付けを踊っている作られた動画になります。私は一度も踊ったことがないんですが、AIによってここまで本物っぽい動画を作られるようになりました。

また最近、この動きを3Dのモデルに入れるような取り組みもしています。こちらはローソンさんにご協力いただいていろいろと実験をしているんですが、その動きを3Dモデルに当てはめて踊っています。普通だとモーションキャプチャや手で人がアニメーションを入れていましたが、AIモーションを3Dモデルに対応させることができるようになりました。ぜひ踊らせたい3Dモデルをお持ちの方がいらっしゃいましたらお声掛けいただければ幸いです。

では、このセクションのまとめです。人と人をつなげる、人を集めるためにはコンテンツが有用だというお話をさせていただきました。そしてそのコンテンツには内容と表現力が必要になります。そしてAIは生成ができる時代になりました。これによってAIが表現力を得たと言っても過言ではありません。そして、AIりんなはこの技術を使ってテキストや音声、動画、動きの表現に挑戦をしています。

りんなのチャットモデルの変遷

それでは、お待ちかねのりんなの新しいチャットモデル「コンテンツチャットモデル」についてご説明をさせていただきますが、その前にりんなにおけるチャットの考え方についてご紹介します。

セッションの初めにユーザのエンゲージメントを作るという話もさせていただきましたが、通常のタスク的な指向だと、いかに効率よくコマンドを実行するかという考えで会話がデザインされています。でも、私たちはそうではなくて、一見無駄な雑談の中に必要な知識やタスク的な会話を織り交ぜつつ、できるだけ長く話をする、セッション全体を見るセッション指向で考えています。

まだ多くの人にとってBotはコマンドや命令的なデザインをされることが多いんですが、私たちにとってチャットはコンテンツです。なおかつ、伝えたい内容を相手に伝える役割を担います。なので、重視するところが違ってくると、解かないといけない問題も大きく変わってきます。私たちの追っている問題はいかにして相手が長く満足できる会話が続けられるか、そしてどれだけ内容を届けられるかというところにあります。

したがって、りんなのチャットは、できるだけ長く相手をお話することを目指して開発をされてきました。これにあたって、人間がシナリオを用意するのではなく、AIが返答内容を決めているのが大きな特徴です。

はじめは検索エンジンを応用した方法でした。大量に返答パターンを用意して、今来たユーザの内容に対して一体何を返事をしたらいいのかというのを検索して返答していました。

そしてそのうち、あらかじめ用意した情報ではなく返答内容をモデルがその場で生成するようになりました。これによっていろいろなキャラクターを生み出すことにもなりました。ただ、それだと会話の1ターンの関係しか考えておらず、なかなかうまく会話が進みませんでした。そこで、より長く会話ができるように5つの戦略をベースに会話をする「共感チャットモデル」というものを作りました。

これは2つのAIが組み合わさったモデルで、1つはどんな方向性で返事をするのか、そしてもう1つはその返答を作るAIです。その方向性は例えば相槌を打ったり、質問を投げたらいいのかとか、話題を転換するのかというのをAIが判断します。そしてその判断された内容で生成するということです。

ただし、これでもやはりなかなか足りていなかったのが会話の内容の深さでした。

より深い会話を目指す新たなチャットモデル

そしてこのたび、ようやく内容を会話にもたらす兆しが見えてきました。それが今回発表するコンテンツチャットモデルのαバージョンです。

これはより内容のある返答をAIにさせるモデルなのですが、これも2つのモデルが協力して返答を作ります。1つは知識探索モデルで、それが内容を探します。そして、文章表現を学習した言語モデルがその内容を最も最適な返答に作り変えて返事をするという内容です。

例えば、ユーザが「あぁ、南の島に行きたい」と言ったときに、まず最初に知識探索モデルがこれに最適な返答の情報というのを探します。今この場合は、私たちはBingの検索エンジンの内容を使っています。そして「人であふれる東京のど真ん中で毎日働いてると思い切ってどこか遠くの南の島に移住したいな」というドキュメントを探します。

このドキュメントを元に、言語モデル、これはあらかじめデータでどのように表現をするかを学んだモデルなんですが、これが今の会話の内容に最も最適な表現方法で返答を作って返事をします。

「東京のど真ん中で働いていると思い切ってどこか遠くに移住しちゃいたい」。

今、私がものすごくわくわくしているのは、これまでAIができたのって表現の学習の部分だけだったんですけど、今は知識を持っていてさらにその知識を使って表現をするという段階に来ています。

さらに、この表現については人間が言い方のテンプレートを作っているわけではなくて、データから文法も含めて学習をして知識をコピーして言うというよりも、あえて言うとしたら自分なりの表現に置き換えて話そうとしていることです。これはかなり大きな一歩だと考えています。

余談なんですが、実際にこれを学習させているときに1つ起こったことが、まだ言語モデルが十分に学習できていなかったとき、同じように会話をさせたときの返答のドキュメントが見つかったんですけど、言語モデルがなかなかに語彙力がなくて「やばい」ぐらいしか返せなかったんですね。

そのときに、知識だけあってもそれをうまく表現することも学ばないと、やはりうまく会話を進められないんだなという人間の真理を垣間見ました。実はコンテンツチャットモデルだけだとその知識を押し付けた会話になってしまうので、私たちはさらに先ほど紹介した共感チャットモデルとコンテンツチャットモデルを合わせることによって会話をさせることを検討しています。

まず、会話の流れを作るために、共感チャットモデルが内容か共感のどちらで返答するべきかで選び、さらにコンテンツと共感チャットモデルがその返答を担当します。例えば「南の島に行きたい」という話になると、まず共感チャットモデルが「これは内容で返事するか、共感で返事をするか」ということを考えます。そして内容を選んで「思い切ってどこか遠くに移住しちゃいたい」というような返答を作り出します。

それに対してユーザが「わかるー」と言うと、また共感チャットモデルがどちらで返答するか、共感だなと判断して「それな!」と返します。これらはまだ実験中なので、これから随時製品に展開していく予定です。ぜひご期待ください。

ではチャットについてのまとめです。AIりんなのチャットでは、AIが会話の流れを作ります。なのでシナリオではありません。そして、チャットはコマンドではなくコンテンツだと考えています。私たちは、より長く会話を続けるために、検索型から生成型にチャットモデルを進化させてきました。そして、今回発表したコンテンツチャットモデルは、より内容のある返答をAIが行うモデルです。

さらに、話す戦略を選ぶ共感モデルと内容を返すコンテンツチャットモデルの組み合わせによって、より深いチャットを目指しています。

コンテンツチャットモデルによって人と人をつなぐ未来へ

それでは、最後に全体のまとめです。情報が断片化してしまった世の中、新しいインタラクション様式が求められています。それを担えるのがAIだと私たちは信じています。AIはハブのような役割を持つことで人と人、人と世界をつなげることができると信じています。

そして、そのために私たちがとったアプローチは、共感の観点から考えること、人らしさ、世界と情報を処理する力、そして社内的なポジションをAIに与えることを重要視しています。

人を引き付けるのはコンテンツです。AIの力でテキストや歌、絵画、踊りなどのコンテンツクリエーションに挑戦することができるようになりました。そしてコンテンツチャットモデルによって、より内容のある会話を実現して、人と人をつなぐ未来へ進んでいます。

さて、もう少し詳しくりんなについて知りたいという方は、ぜひりんなのホームページをご覧ください。また、今日紹介できなかった歌声合成の技術やコンテンツチャットモデルの詳しい技術内容につきましては、こちらのリンクから資料をぜひご覧ください。

発表は以上です。ありがとうございました。