マイクロソフトが提供するAIサービスの今

竹内宏之氏(以下、竹内):みなさんよろしくお願いします。日本マイクロソフトの竹内と申します。

簡単に自己紹介をさせてください。私は今日ご紹介するMicrosoft AzureのAI関連の製品担当をやっております。

本日の内容なんですが、3部構成でお話を進めさせていただきます。

まずはマイクロソフトのAIにおける取り組みについてお話しし、マイクロソフトのAIの関連サービス、製品の紹介をさせていただいて、最後にお客様の導入事例を紹介させていただきます。導入事例は今日のテーマでもある、お客様とのコミュニケーション領域でどのようにマイクロソフトのAIが使われているかというお話ができればと思います。

最初に、マイクロソフトのミッションを簡単にご紹介させてください。古くは「すべての机にパソコンを」ということで、マイクロソフトは最初はパソコンの会社でした。ですが、現在はミッションは変わっております。

現在は、「地球上のすべての個人とすべての組織が、より多くのことを達成できるようにする」というのが会社のミッションです。

まさに今日お話しするAIも、より多くのことができるというところに寄与するサービスだと思っています。今日はざっと参加者のみなさんの顔触れを拝見させていただいたのですが、実はマイクロソフトはAIについてはかなり古くから取り組んできました。

マイクロソフトにおけるAIの先駆け「カイル君」

みなさんの多くがマイクロソフトのAIに触れたのは、おそらくこの「カイル君」です。

Office 97で搭載された、今でいうチャットボット・AIアシスタントです。現在のマイクロソフトのAIは、いろいろなところで研究発表をしております。

マイクロソフトの中にはマイクロソフトリサーチという研究機関があります。例えばみなさんは写真を見て、これが猫の写真か、または公園の写真なのか、車が走っている写真なのかはわかると思います。

だいたい人間が写真を見て、これが何の写真が答えられる精度は95、6パーセントと言われています。マイクロソフトのAIの画像認識の精度に関してもだいたい96パーセントで、ほぼ人間と同じぐらいの精度で画像を認識できるようになっています。

音声認識では、こ話している言葉をテキストにしたり、文章の意味を正しく理解するなどこちらも人間と同程度の精度をAIが達成しています。

AIによる音声認識・音声生成のクオリティ

では、音声認識のところについてご紹介したいと思います。先ほどお話したように、人間に近い精度で認識できる結果が出たのがだいたい3年前です。

今から音を流すので、何を言っているかをみなさんに考えていただきたいと思います。英語なのでよく聞いていただきたいんですけど……。

(音声が流れる)

だいぶ籠ったような話し方をしていましたが、この3つのどれかを言っています。

これをAIが認識することができます。今回の正解はCですね。これは文字を見ながら聞いたらなんとなくわかるかもしれませんが、こういった話している言葉をテキストに落とすということがAIでできるようになっています。

今度は、逆にAIに話をさせてみる。Text to Speechです。どちらがAIが話しているのか、ぜひ考えていただきたいと思います。

(音声が流れる)

どちらも人間のように聞こえませんか?

実は、AのほうがテキストデータをもとにAIに作らせた音声です。マイクロソフトではこういった様々なAIをいかにみなさまに簡単に使えるようにするかを考えて、さまざまなサービス提供をしております。

Microsoft OfficeにもAIは使われている

AIが誰か特定の人や、特定の技術がある人、もしくは特定の資本力がある人や組織だけが使えるものではなくて、いかにみんなで使えるようにするかということを追及していくことがマイクロソフトにおけるAIの位置付け、立ち位置となっております。AIの民主化というやつです。

おそらくみなさんが一番身近でAIを感じていただけているのが、Microsoft Officeではないかと思います。みなさん日々Officeを使っていただいているかと思いますが、実はOfficeの中にもAIがいくつか含まれております。先ほど言ったText to Speech。話した言葉をテキストにするという処理です。

これは実はすでにWordで実装されており、右上のマイクボタンを押して話しかけていただくと、喋った言葉がテキストに変換されます。あとは今日私が使っているPowerPointにも一部使われていますが、PowerPointの中に「PowerPointデザイナー」という機能があります。テキストを打っていただいたり写真を並べていただくだけで、AIが「こんなデザインがいいですよ」ということをレコメンドする機能があります。

なので「デザインどうしようかな」とか「この写真はどうやって切り取って……」ということを考えることなく、実際にAIにその部分を任せてたり、AIからアイディアをもらってデザインを起こすことができるようになっています。

このような各種AIサービスは、Microsoft Azure(以下、Azure)というクラウドプラットフォームのいちサービスとして利用することができます。AzureはAIだけのプラットフォームではなく、ここに書いたアイコンの数ぐらいカテゴリがあります。

AIはどこにあるかというと、真ん中に書いてある、脳みそのマークであったり、フラスコのマークがあるところですね。Machine Leaningと書いてあるところがAIに関連するサービスです。

なので、それ以外のAzureに関しても非常に多くのサービスがあるのですが、今日はこのAIの部分に絞ってご紹介したいと思います。

3つのAI関連サービスの特徴

マイクロソフトのAI関連サービスは、だいたい3つに分かれています。

1つは「Azure Bot Service」。これはボットを作るためのサービスです。本日は残りの2つをご紹介したいのですが、学習済みサービスAIの「Cognitive Services」というサービスと、「Azure Machine Learning」というカスタムAIのサービスです。

まずはCognitive Servicesから簡単にご紹介します。AIを作るには莫大なデータが必要です。先ほど私が画像認識のところでもお話ししましたが「この画像が犬かどうか」ということをAIに覚えさせるためには、犬の画像のデータが必要になるわけですね。猫を判別したい場合には猫のデータが必要です。車だったら車のデータがいる。それも膨大に。

非常に多くのデータを集めて、そのデータを学習させてAIを作るのですが、もちろんデータを集めるのは非常に手間が掛かりますので、その部分をマイクロソフトがすでにやっています。AIに学習させているデータをマイクロソフト側で用意してAIを作ったものがCognitive Servicesになります。データを用意せず、すぐ使えるAIというのがCognitive Servicesです。後ほど詳しくお話しします。

右側の「カスタムAI」は、さきほどのCognitive Servicesとは違って、みなさんのほうでデータを集めていただいて、AIを作りたいというところを実現するためのサービスになります。この2つのAIを使い分けていただくのがマイクロソフトのAI関連サービスです。

Cognitive Servicesについて深掘りいたします。Cognitive Servicesは5つのカテゴリに分かれています。

それぞれ画像・言語・音声・検索・決定とカテゴリ名が付いていますが、一番わかりやすいのは画像ですかね。先ほどの例でありましたように画像を認識するAIです。

画像に写っている顔の座標や顔の表情をパラメータ化することも可能です。クラウドに画像を送っていただきAIの分析結果を得る。言語であればテキストをクラウドに送ってその結果を得る事ができます。

我々のCognitive Servicesは先ほどもお話したように、データいらずですぐに使うことができるのですが、下のところに水色で「カスタム〇〇」と書いています。この部分はみなさまでカスタマイズできるという意味です。ここは後ほど詳しくご紹介したいと思います。

画像の判別から表情の分析まで

それでは、Computer Visionで何ができるかを紹介します。

こちらは画像を分析するものです。例えば右の写真を見ていただくと、おそらく男性がプールか海で泳いでいるのがわかると思います。これをAIに分析させると、上にありますように「people_swimming」ということで、人が泳いでいることを認識して、この画像がどんな画像なのかを判別しています。一方で、この中の色のデータも分析することができまして、何がアクセントカラーなのかということも分析できます。

真ん中の例はOCR機能ですね。画像の中にテキストデータが写ってることがあるかと思います。画像の中のテキストを抽出してデータとしてAIが返してくれる。

そして一番下は我々マイクロソフトのCEOのサティア・ナデラですが、こういった有名人の場合は、その写真に写っているのが誰かということを個人まで特定できる機能があります。

もう1つ画像でお話ししたいのが、Faceという機能です。

これは画像のどこに人の顔が写っているのかを分析ができたり、その顔のデータから年齢や性別を紐付けできます。あとは顔の表情をパラメータ化できるようになってます。

「怒り」や「悲しみ」などの8種類の感情のどの数値が大きいかが数字でわかるようになります。

例えばこちらの写真は驚いていることがみなさんおわかりになるかと思います。

左側を見てみると、一番下のSurpriseの数値が0.9ということで、数字が一番大きくなっています。この写真の中のこの顔が持っている感情の分析もできるようになっています。

自分でデータを用意することでカスタマイズが可能に

これらはみなさまが持っている分析したい画像データをクラウドに送って切り替えることができるのですが、先ほどのComputer Visionでは、車を判別することはできますが、その車がどこのメーカーなのかどの車種なのかは分析できません。

じゃあメーカーを分析したい場合はイチから作らないといけないのかと言うとそうではなくて、実はCustom Vision Serviceというものがあります。

みなさんのお手元にいくつかのメーカーのデータを用意していただいて、マイクロソフトのAIをみなさま用に賢くできるサービスになっています。

先ほどの車を例に話をしましょう。例えばこの車はどのメーカーの車か、別のメーカーの車を分析して分けたい場合には、それぞれの画像データを追加してクラウド上で学習させることによって、それを分析できるようになります。

このカスタムでできるのは2つの機能です。写真全体として何の写真かを分析するイメージ分類であれば、それぞれの分析したいカテゴリの結果によって最低5枚の写真を用意してアップロードしていただければ使うことができるようになります。

もう1つは、画像の中に何が写っているかを判別するObject Detectionという機能です。こちらはそれぞれのイメージをオブジェクトごとに15枚以上アップロードしていただけば、分析していただくことが可能です。この例だと、ドラム缶がどこに写っているか。写真の中に写っているものを分析するのがObject Detectionになります。

このように我々のCognitive Servicesは、今ある状態でも使っていただくことができますし、みなさんのお手持ちのデータを追加していただくことで、賢くみなさまのカスタマイズしたAIに仕上げられる特徴です。

テキストからキーワードやポジ・ネガを読み取る

画像だけではなくテキストのお話もさせていただきます。Text Analyticsという機能があります。

これはテキストの中に書かれているキーワードや、ポジティブ・ネガティブを分析するものですね。実際にやってみた結果、例えば先ほどの我々のミッションを分析すると、キーフレーズは何なのか、テキストがポジティブかネガティブかを分析できるようになります。

これを使うことで、例えば新しく出た製品のアンケートがユーザにとってポジティブかネガティブかを簡単に分析できるようになります。

他には、既存のQ&Aの表データやドキュメントからボットのエンジンを作るQnA Makerという機能がございます。

サービスをやられているお客様であれば、Webサイトに「FAQ」や「よくある質問」があると思います。また、社内ではExcelやWordで、来た質問を集めた想定問答集を作られているかもしれません。QnA Makerはそのデータを学習してQAエンジンを作ることができるようになります。

こちらもイチからQAのボットのエンジンを作るのではなくて、今あるデータをアップロードしていただくことによって、ボットのエンジンを作ることができるサービスとして提供しています。

ブラウザがあればいつでもお試しが可能

これらのサービスは基本的にAPIベースで提供しておりますので、プログラミングでクラウド上のAPIに画像やテキストデータを送る処理を書いてもらうことで、AIの分析結果を簡単に得ることができます。 「プログラミングがいるんだ!?」と思われるかもしれませんが、ブラウザ1つで簡単に試すことが可能です。

これは我々のMicrosoft Azureのサイトです。

左上の「製品」タブをクリックしていただくと、Azureのすべてのサービスカテゴリが出てきます。おすすめのすぐ下に「AI + 機械学習」というのがありますのでここをクリックすると、今紹介したCognitive Servicesが最初に出ているかなと思います。

これをクリックすると、Cognitive Servicesのページに進みます。この中に話した5つのカテゴリがあります。例えば「視覚」→「Computer Vision」をクリックすると、先ほど紹介したComputer Visionの説明に飛ぶことができ、ブラウザの中でお試しいただけます。

サンプル画像を選べば、右側に結果が表示されます。手元の画像データをアップロードして試すこともできるようになっています。

試しに犬の画像をアップロードしてみたいと思います。「犬がここにいる」「ポメラニアンがここにいるよ」と表示されており、左に「Pomeranian」と書いてあるのがわかるかと思います。この画像の分析結果が右側に出ていて、例えば芝生の上にいるから「grass」であったり、野外なので「outdoor」というタグも分析結果として表示されています。

このようにWebサイトから簡単に試すことができます。今日はすべてのサービスをご紹介できないので、実際に触ってみてどんな事ができるのか、ぜひ触っていただければなと思います。

クラウドだけでなくエッジ側でも使用可能

簡単にCognitive Servicesについてまとめます。

学習済みなのでデータがいらないAIになっています。みなさまのデータを追加してより賢くカスタマイズすることができます。あとは、先ほどからクラウド側に送って分析結果を得るとお話ししましたが、エッジ側でもCognitive Servicesを使うことができます。

エッジとは何かと言うと、手元のパソコン上や、最近だとカメラデバイスにLinuxが乗っていたりしますので、その上にCognitive Servicesをダウンロードして使うこともできるようになっています。

SLAなど各種コンプライアンスに対応したかたちでご利用いただけるのが特徴です。