AIに自然な接客はできるのか？　サイバーエージェントとマツコロイドを作った石黒研究室の挑戦

デジタルマーケティング支援とAI

馬場惇氏（以下、馬場）：ありがとうございます。株式会社サイバーエージェントの馬場と申します。今日は「人をAIが接客する世界」というタイトルで、私、馬場とロボット事業を推進している研究員の岩本の2人で20分ずつくらい、弊社の取り組みをご紹介させていただけたらなと思います。

まず軽く自己紹介ですけれども、株式会社サイバーエージェントという会社でAI Labという研究開発組織を立ち上げております。そこで研究員をしていると同時に、今は大阪大学の招聘研究員として大阪に常駐しています。

今日は、サイバーエージェントのAI Labの紹介を軽くした後に、大阪大学の石黒研究室との共同研究講座のご紹介をさせていただきます。今のAI接客におけるコミュニケーション手段の限界みたいなところと、それに対して現状どういった接客が可能になっているかを、弊社の取り組みを2つほどご紹介しつつ、お話させていただきたいと思います。

まず、弊社サイバーエージェントはインターネット産業を軸足に事業を展開しておりまして、大きく5つほどセクションがございます。メディア事業とインターネット広告事業とゲームと、あとは小学生向けのプログラミング教育だったり、見づらいですけれどもクラウドファンディングのプラットホームといったことをやっています。

AI Labという研究組織以外にも、メディアのデータを分析するような秋葉原ラボというようなものだったり、ゲームのほうにも研究部門みたいなものがあるんですけれども、今日はこの真ん中のインターネット広告ゾーンのお話をさせていただきたいと思います。

弊社、いろいろな事業をやっておりますけれども、売上の半分ほどを広告事業でまかなっています。それでここに対する熱意にも並々ならないものがありまして、主には広告を手段としてクライアント企業様のデジタルマーケティング支援というのをやっております。

このデジタルマーケティング支援、電通さんとかたくさんの方がいらっしゃるところではあると思うんですけども、ここで最近になって重要になってきているのがAIだ、ということで、僕らもここの事業に対してAI技術の研究開発組織「AI Lab」というものを2016年1月に立ち上げました。

対話エージェントを使った接客の研究

現在でいうと3～5年の目線で研究開発をやっておりまして、大きく3つの柱があります。1つ目が「対話エージェント自動対話技術」、2つ目が「広告クリエイティブの自動製作支援と自動生成」、3つ目が「広告の因果推論配信」です。2つ目は、午前中に電通さんが発表されていたようなものと少し似ているところがありまして。

（3つ目は）画像の自動生成をしたいというところだったり、広告配信というものが、本来は当たっていない人と当たっている人を比べて配信したいんですけれども、同じ人・同じ条件で、当たっている・当たっていないは判断できないので、その部分の因果推論を研究している部門があったりします。

その中で僕が今取り組んでいるのは、「対話エージェント自動対話技術」を使ったデジタルマーケティング支援でして、そこに使えるような研究技術を開発しています。1つの特色としてAI Labは産学連携を進めておりまして、現在でいうと8つの研究室と連携をさせていただいています。

佐藤先生であったり、今回お話をする石黒先生の研究室、または理研の研究機関から出てきていただいたり、イェール大学の先生と一緒にやっていただいたり、いろいろなところと産学連携をしていまして、エキスパートの力を使って、AI技術をしっかり良くしていこうと、自分たちで作っていこうと取り組んでいます。

その中で、僕が現在推進している共同研究講座ですが、これは大阪大学の石黒研究室と一緒に進めています。

主には、いわゆる対話エージェントによる接客対話を念頭に置いた研究開発をしておりまして、テキストメッセージというものであったり、音声対話であったり、ロボットというような、あらゆる対話エージェントを使った接客での対話をどうやってうまくやろうか、というのを研究しています。

ここで軽く大阪大学の石黒研究室のご紹介をさせていただきたいんですけれども、このマツコデラックスのマツコロイドというアンドロイドを番組で紹介し、ワンクール番組をやったというので有名になりましたが、いわゆる人と似ている形、似ている表情、似た動きをするアンドロイドというものを動かして、それらによって人がどう感じるか、みたいな社会実験に重きを置いた日常活動型のロボットを研究している研究室になります。

ここの研究室でやっていることはアンドロイドに限らず、例えばこういう卓上型ロボットの接客であったり、人間同士での会話を選択式でやらせて、選択式の対話が人にどういう影響を及ぼすかの実験などをしていたりします。

こういった形で、ロボットや対話エージェントによって社会実験をやっていくことによって、ロボット工学から社会心理学、機械学習、哲学みたいなところまで幅広い人材が集まっている研究室になっておりまして、そこで我々は一緒に研究をしています。

AIの音声対話の難しさ

石黒研究室で研究されている技術はたくさんあるんですけれども、今日ご紹介する技術としては、人に似たようなアンドロイドを用意して、それが人に対してどういう影響を及ぼすかというところの知見や技術が一つ。

また、ここは僕らがよくお世話になっているというか、使っている技術になるんですけれども。複数人によるエージェントの対話技術だったり、選択をさせることによって対話を進めていく、自由文入力ではなくて選択によって対話を進めていくような技術だったりを持っています。

体制としては、石黒研究室とは別に先端知能システム共同研究講座というものを作りまして、そこに僕が入って、実際に人を雇って共同研究講座をやっているという、まあまあ大きな産学連携の枠組みの中で進めさせていただいています。

現在、AI接客というか、対話エージェントによる接客を実際にやっていこうと考えた時には、コミュニケーションの手段というものがいくつかあります。

それはすごく簡単に言いますと、まず音声対話。音声によってやり取りをするというような、Google Home とか、ホームアシスタントみたいなものもここに加えられます。それ以外にはテキストによって自由に入力をして、チャットボットが応答してくれるようなテキスト入力対話。

あとは先ほど出しましたが、タブレットやチャットUIの中に選択肢を置いて選択してもらうことで対話を進めていく選択式対話があります。

現状、僕らがこれらを使って一生懸命接客の対話を設計しているわけですけれども、設計している中で感じている音声対話の限界というものがありまして。

現状の音声認識の精度は、年々向上しています。2018年1月現在で、英語発話認識の単語誤り率1個の尺度があるんですけれども、1つの英単語を誤って認識する割合が5.6パーセント。つまり正解率が94.4パーセントあると。

人間が実際に聞いて、誤っている誤っていないというのをやるとして、90から95パーセントが人間の持っているレベルなので、ほぼ近づいてきているような状態にはなっています。

また複数人の同時発話も精度9割を越えるような専用マイクの開発がされてきていまして、簡単な技術でいうとものすごくきています。ただ僕らの中で問題視しているのは、入力から応答までの時間がものすごくかかってしまうことです。

音声認識に用いられる時系列系の深層学習のモデル、RNN（Reccurent Neural Network）系のモデルを使うと認識にけっこう時間がかかるというのと、最後に入力を完了して発話をある程度一区切りやってから、これらを録音したものをデータ処理するというような流れで処理をしていると、発話が終わるまで処理が進まず、そこから処理となると更に遅くなる。

今のAIは自然な早さで応答したり、文脈を読むことが苦手

さらには、音声認識で5パーセントの誤ったデータを受け取る文字認識のほうですね。テキスト処理をしてその意味解釈をするようなところが裏側に乗ると、更に遅くなります。

そしてそれをAIスピーカーであったり、いろんなクラウド側で認識処理をやってあげたりするデバイスでやると、通信遅延が更に発生してしまって、自然な早さで応答を返すというところができない。

僕らが接客をやる時には、自然な発話、違和感のない対話というのを重要視していまして、そこがひとたび崩れると、接客相手としての信頼は一気に損なわれるというところがありますので、ここを重要視してやっています。が、なかなか厳しいものです。テキストの自由入力に関しても、現状すぐにできるようなものではなくて。

一問一答に関してはとにかく精度は上がってきています。Question Answeringという研究分野だったり、あとはFAQの応答だったりするんですけれども、そこの精度は上がってきています。また幅広い一般知識が必要だったりするんですけど、その研究も高い精度を出しています。

ところが、一問一答では接客は一部しか行えません。質問に対して、「これ提出したいんだけど、どこに出したらいい？」「ここです」って言うだけしかできないんです。

本来であれば、さらに続く「この書類、はんこ必要ですか？」という発言に対して、「その書類だったらはんこがいります」というような、その書類という文脈を引き継いで発話しないといけないので、接客のフローというか、文脈をよみながら発話するということが非常に難しい。

僕らの中では文脈、状態を更新して、今の発言を制約することを「文脈を読む」と呼んでいるんですけども、そういったものが難しかったり、後は誤認識で会話が破綻してしまった時に、その検知やリカバリーが必要になってきますので、なかなか本当の接客という意味で使おうとすると、ここらへんの問題が解決されないと難しいかなと思っています。

なので現実的にその接客対話を、いわゆる自然な対話、違和感のない対話というものを実現しようとすると、この選択式というものが、唯一といってはあれなんですけども、違和感のないものが比較的作りやすい入力方法になっています。

ロボットにタッチパネルを作ったり、バーチャルエージェントに選択ボタンを用意したり、チャットポットに選択ボタンを用意したり、というものが考えられるんですけども、こういった選択式対話以外にも、もうちょっと簡単な方法でできないかな、というのをいくつかやっています。この選択式対話はあとでご紹介します。

Occurred on 2018-01-31, Published at 2018-02-26 19:30

注目