会話型AI構築プラットフォーム「miibo」開発の苦悩　最大の課題「何を言ってしまうかわからない」への挑戦

株式会社miibo・代表取締役 CEOの功刀氏

功刀雅士氏：それでは、「『miibo』開発の苦悩を会話AIの歴史と共に振り返る」というテーマで発表させていただきます。よろしくお願いします。

株式会社miiboの提供でお送りします。ふだんは「miibo」という会話型AI構築プラットフォームの開発と運営をしています。発表者は株式会社miiboの功刀です。「maKunugi」という名前で「Twitter（現「X」）」で活動しています。よかったらフォローしていただけるとうれしいです。

生成系AIをベースとした会話型AI構築プラットフォーム「miibo」

ちょっとスライドをちょっと作りすぎてしまったので、ポンポンいってしまいますが、miiboというサービスを作っています。

miiboというサービスは、Generative AI、GPTなどの生成系AIをベースとした会話型AIを作るプラットフォームです。後ほどちょっとデモをさせていただこうと思います。

LLMをカスタムして、思いどおりの会話AIを作れるようにすることを目指したサービスです。「LINE」ボットとか「Slack」ボットとか、あとはWebチャット画面とか、APIとか、さまざまなプラットフォームで動くものが作れます。

（スライドを示して）このようなコンセプトでやっていて、誰でも簡単にサクッとGPTを使った会話AIが作れるといいよね、という思想で作っています。

生成系AI最大の課題「アンコントローラブルな側面」を補う

Generative AI、生成系AIというのは、すごく高性能で今注目を浴びている技術ですが、あえて課題を挙げるとすると、「アンコントローラブルな側面がある」というのがあると思います。つまり、何を言ってしまうかわからない。

GPTでチャットボットを作って公開すると考えた時に、何を言ってしまうかわからないし、事実と異なることを言ってしまったり、提供者の意に反したことを言ってしまったり、会話の流れがどんなふうになっていくかが予測できなかったりなど、そういった課題をGenerative AI、GPTは持っているのかなと思っています。

miiboは専門知識などもカスタマイズして、うまくコントロールした状態で提供できます。つまり、次世代会話AIも提供できるようにしようというのがmiiboの目指しているところです。

また、miiboではプログラミング不要、なおかつ爆速で、ロケットスケートができます。GPTをカスタムした会話AIを、素早くデプロイしてプロダクトに入れることができるプロダクトになっています。

無料で始められるので、ぜひお試しいただけるとうれしいです。

デモ

では、ちょっとデモをしようと思います。

「miibo.jp」というページに行くと、miiboの公式ページがあります。ここで、サインアップというボタンを押して、ここからサインインを行ってください。Google、Apple、メールアドレス認証、それぞれできます。

私はもうAIを作ってしまっているので、ちょっと自分のAIが見えているのですが、初めての方はブランク画面になっているかなと思います。

こちらの画面から、新規作成を押していきます。AI太郎という名前でサンプルを作ってみようと思います。この項目をポンポンと埋めていきます。ちょっと時間の関係上、駆け足になってしまいますが、アイコンの設定や自己紹介ですね。「AIの太郎です」みたいな自己紹介ができます。

AIのモデルですね。今は、GPT-3.5 Turboが設定されていますが、適宜変えられます。今回は、一番精度の高いGPT-4を使ってみようと思います。

デフォルトのプロンプトが入っているので、ここは適宜調整をすると、表現が変わります。

「AIの太郎として、チャットボットとして振る舞います」と役割が書いてあったり、自分のことをなんて呼ぶとか、ルールが書いてあります。あとは、親しみ深いとか。ほかにはプロフィール。「人工知能の研究が趣味です」など、いろいろ書いてあります。そういったキャラクター設定がされている画面です。

これも今回はデフォルトのまま進めて「登録して開始する」をやってみようと思います。

この画面が出たら、もうAIのチャットボットとして動かすことができます。試しに会話のテストをしてみようと思います。

「自己紹介をしてください」。先ほどプロンプトに入っていた内容を読み上げているのがわかるかなと思います。「太郎といいます。趣味は人工知能の研究をすることで、仕事はAIとして人々のアシスタントをすることです」。これは、プロンプトに入っていた内容かなと思います。

試しにダメな例として、「miiboってどんなサービスなの？」と、おそらく答えられないことを聞いてみようかなと思います。

「Miiboは、AI技術を活用したチャットボットサービスです。ユーザーが質問や相談を投げかけると、Miiboがその内容に適切な回答やアドバイスをします。主に企業が顧客対応やFAQの代わりに導入して利用することが多く……」。

ちょっと近い内容を言ってはいますが、miiboの説明としてそこまで的確ではないと思います。

試しに、この発言を矯正するというのを、デモをしようかなと思います。

miiboの画面に戻って、ナレッジデータストアという機能を使ってみます。ナレッジデータストアは、専門知識をGPTに与えるための機能で、いわゆるベクトルデータベースみたいなものです。

試しに、「miibo.jp」の公式ページの専門知識を与えてみようと思います。このデータの追加から、さまざまなフォーマットでデータ追加ができます。ここでURLを指定して挿入します。これで公式ページの情報がすべて入りました。

データベースに入れることができたら、エージェントの設定画面に戻って、ここでナレッジデータストアとの接続をオンにします。これだけの作業で、専門知識を入れることができました。

先ほどの画面をいったんリロードして、「miiboってどんなサービスなの？」と、もう1回聞いてみようと思います。

先ほどと会話の応答がちょっと変わったのがわかるかなと思います。「会話型AIを簡単に構築できるサービスです」。LPの情報をうまく取ってきて、会話が矯正された、カスタムされたことがわかるかなと思います。

これは、miiboの1つの機能ではあるのですが、このようにGPTの応答を制御して、カスタムして、素早く反映させることができるというのがmiiboの、1つ強みにしているところ、ポイントとしているところです。

ほかにもさまざまな機能がありますが、1つ、紹介としてデモをさせていただきました。GPT-4だと応答がちょっと遅かったり、コストが高かったりするので、適宜GPT-3.5を使うといった選択肢もあります。

miiboの仕組み

それではいったんスライドに戻ります。今miiboのデモを見ていただきましたが、結局やっていることはプロンプトエンジニアリングです。

プロンプトは、みなさんもご存じのとおり、AIに例示を与えるもの、AIの応答にバイアスをかける文字列ですが、それを創意工夫し、AIに自然言語によるタスクを遂行してもらうというハックが、プロンプトエンジニアリングかなと思っています。

miiboは、先ほどのナレッジデータストアといった機能のほかにも、会話コンテンツを追加する機能がさまざまあるのですが、それらはすべて、このプロンプトに集約される仕組みになっています。

先ほどのナレッジデータストアの機能もそうですし、会話の流れを決めるシナリオエディタの機能や、トピックをディレクトリ構造のように与えて会話コンテンツを追加するという機能もあります。

そういったものをすべて、会話時にこのプロンプトに盛り込んで、サイズなども最適化してGPTに投げることによって、会話AIをカスタムしていくという仕組みになっています。先ほどご説明したとおり、さまざまなプラットフォーム上にデプロイできるようになっています。

そんなmiiboですが、チャットボットとしてWeb上に設置して、右下のWebページに設置してもらうケースや、アーティストのAI化みたいな事例や、Slackコミュニティの導入事例が出てきています。

ほかにも、YouTuberをAIに置き換えたり、人事の面接をシミュレーションする対話シミュレーションAIにしてみたり、デジタルヒューマン、AIアバターの会話の脳みそとして入れてみたりなど、さまざまなところでちょっとずつ事例が出てきているのが現状になります。

miibo開発までの歩み

今回のLTの内容としては、ここからちょっと踏み込んでいこうかと思うのですが、miiboの開発期間は約2年あったので、その経緯と、どのような苦戦があったのか、その流れの中で、会話型AI関連の技術変遷はどうだったのかなど、そのあたりを紹介できればいいなと思っています。

約10年分の会話型AIの変遷を振り返ろうと思っています。そうすると今後の動向が見えてくるのかなと思っているので、ちょっと紹介をしようかなと思っている次第です。

miibo開発までの歩みについて。2012年ぐらいに、大学で自然言語処理の勉強を始めました。ドライブスルーの自動応答機みたいな試作をやりながら入門をしました。

2014年には、（スライドの）右にあるAndroid向けの音声対話アプリを出したり、2019年に、雑談対話API「Chaplus」という、雑談の応答を返してくれるAPIを作ったり、そういったことをしていました。

そんな経緯があって、2021年にmiiboをリリースしました。コツコツと個人事業で開発を続けて、2023年、株式会社miiboを作りました。今はそこで開発をしています。

歴史を振り返っていくとめちゃめちゃ長いので、こちらの「note」にすごくつらつらと書きました。よかったらご参照ください。今回は、ちょっと抜粋していこうと思います。

会話型AIの変遷

会話型AIの変遷について。（スライドを示して）これはいわゆる、ハイプ・サイクルというやつなのですが、会話型AI、特にチャットボットというのは、このハイプ・サイクルでいう幻滅期に当たると言われています。

過度な期待値があって、それでちょっと1回落ち込んで、次は安定期に入るかなというのを待ちわびていた技術なのですが、GPT-4の登場で、安定期に入るんじゃないかと期待されているというのが今のフェーズかなと思います。

この変遷は大きく4つあります。僕が勝手に分けたやつなんですが、ディープラーニング普及前と普及後です。BERTという言語モデルが出たのが、1つのターニングポイントでした。最近のGPT-3.5の登場がもう1つのターニングポイントなんじゃないかなと思って、この4つのフェーズにちょっと分けてみています。

一つひとつしゃべっていくと時間がないのでサクサクいきますが、ディープラーニング普及前は、パターンマッチングだとか旧来の機械学習モデルだとか、あとマークアップ言語を使うというところで、いわゆるルールベースな対話システムが一般的でした。『シーマン』とかがありましたよね、という話ですね。

ディープラーニングが普及してから、分散表現とかができるようなWord2vecなどが使われるようになって、2016年には、チャットボット元年と言われるようにLINEのボットが爆発的に増えました。チャットボットというのがかなり一般的になってきたフェーズがこの頃かなと思っています。

この頃は、タスク指向型対話システムと、非タスク指向型、つまり雑談、この2つに分かれていて、それぞれにこんな実装方法があるよねというのが、教科書的にはありました。

会話型AIと言っていたのですが、会話というよりもやはり人が指示したとおりの会話を遂行するシステムという印象が強く、なかなか人間のような会話ができないというところで、ちょっと人間のハードルとギャップがあって、幻滅期に入っていってしまったのかなというのが個人的な印象です。

幻滅期に入っていくのですが、そんな中でこのBERTというのが登場しました。BERTという、いわゆる文章理解がめちゃめちゃできるAIができたのが2018年です。これによって幻滅期には入りつつも、その時点でチャットボットの精度がすごく上がりました。

その2年後の2020年には、今のGPTの2つ前ですかね。GPT-3が出て、アメリカを中心にめちゃめちゃ注目を浴びた時期です。ここからGPT-3.5、4と続いていくわけですね。

そして、GPT-3.5が登場しました。これが本当にブレイクスルーなんじゃないかと思っていて、脚光を浴びているのが今かなと思っています。

今までと何が違うかというと、今までは、人間が「こう会話しなさい」というようなことを決めた中で会話をするのが会話型AIの形でした。今は生成AIに見られるように、AIが自発的に会話をします。まぁ、確率的になのですが、自発的に会話をすると。

いろいろな文脈、いろいろな質問に答えられるというところから、本当の意味での会話に近づいてきているよねというところで、かなり今、注目を浴びているんじゃないかなと思っています。

さらに2023年に、GPT-4が出て、めちゃめちゃ高度な会話ができるというのはもうみなさんご存じのとおりかなと思っています。

“自由な会話”の実現が、会話型AIへの期待を復活させた

この経緯で、ポイントが4つほどあるかなと思っています。旧来の会話型AIは、人間のコントロール下のみで応答していたということに対して、これからの会話型AIは、人間がAIに応答をよしなにお願いする。「こんな感じで言っておいてください」と言ったら、生成AIが勝手に応答するというのが違いだと思っています。

それによって、自由な会話がAIでできるようになったという話なので、幻滅期にあった会話型AIへの期待を復活させたというのが、すごいターニングポイントなのかなと思っています。

一方で、先ほどmiiboで目指しているところでも述べたとおり、Generative AIは、アンコントローラブルな存在なので、そこが今後の課題になってくるというのが、この変遷を振り返るとわかると思っています。

根本的な構造・本質は変わっていない

ポイント2。GPTは、もう2010年後半ぐらいからあったわけですが、根本的な構造、本質は変わっていません。ただ、パラメーター数が爆増して、精度が進化してきました。アルゴリズムや細かい変化は、もちろんいっぱいあったのですが、基本的にそういうものでした。

精度の高さには驚くのですが、本質は変わっていないので、取るべきアプローチが今後けっこう見えてくるんじゃないかなと思っています、というのがポイントの2つ目です。

コストパフォーマンスは大きな争点になる

ポイントの3つ目は、LLMの利用は非常にコストがかかるということです。パラメーター数が大きくなるということは、LLMのサイズが大きくなるということなので、その分コストもかさんできています。

例えば「OpenAI API」経由で、GPT-4を利用してチャットボットを作ろうとすると、1発話が20円を超えてしまうこともあり、コスパは、短期的に大きな争点になるところかなと思っています。

情報検索ではなく、確率的に文章生成をしている

ポイント4。情報検索ではなく、確率的に文章生成をするという言語モデルだという点で、一般的に誤解が多いかなと思っています。

「GPTにアイドルのことを聞いたんだけど、GPTがうまく応答できなかったんだよ」みたいな問答をよく聞くのですが、実は、検索しているのではなく、各学習したことを確率的に文章生成しているので、そういった一問一答による評価に弱かったりするわけです。そういった誤解がけっこう課題なのかなと（思っています）。

ChatGPTがブラウジングに対応するというニュースもありますが、根本的なLLMとして、そういった課題があることをきちんと認識して使うのがポイントかなと思っています。

miibo開発における苦悩

miiboは、今までさまざまなAIモデルを使って取り組んできました。用例ベース、ルールベースと、決め打ちのものから、昔流行ったSeq2Seqというモデルや、GPT-2から4までいろいろ試したのですが、その中ではいろいろな苦悩がありました。

特に苦悩したのが、この3つのポイントです。1つは、アンコントローラブルでなかなか実用してもらえない。2つ目が、コストが高すぎる。3つ目は、情報が正しくない。一問一答のケースが多く、なるべく答えられるようにしていくのに苦労しました。

miiboは先ほどお見せしたように、裏側で使うというよりは、作ったものを表に出すものなので、アンコントローラブルなことを言ってしまうと、マズイというのがよくありました。

開発の中で取り組んできた3つのアプローチ

そんな中で、どんなことに取り組んできたかを3つほど書いてみました。

今回変遷を振り返ったのですが、従来型の会話型AIの手法が、部分的にかなり大事だよねというところが、気づいたところでした。

例えば、先ほどシナリオ対話が混ぜられるとお話ししましたが、要は、アンコントローラブルなことを言う中ででも、「会話の文脈は制御したほうがいい」とか、「企業のチャットボットには、こういう流れで会話を言わせたい」とか、そういった会話の骨子みたいな、骨組みみたいなものは、旧来の会話型AIの手法で制御できるよねとか。

あと、部分的にルールベースを入れると、会話の流れをけっこう制御できるよねとか、そういったことで従来の会話型AIの手法と融合させるのが、miiboとしてのアプローチでは重要でした。

あと、「コストが高すぎて導入してもらえない」というのは、もうプロンプトを小さくするしかないと。プロンプトを小さくするということは、適材適所、会話の流れの中で必要な情報をプロンプトに入れる作業が必要になります。そこを突き詰めていくと、料金をけっこう安くできるんじゃないかなというのが、見えたところでした。

「一問一答になるべく正確に答えさせたい」というところに関しては、先ほど紹介したベクトルデータベースを使ったり、専門知識を入れたりすることで、解決を図ったり、Webの検索と連携させたりといったアプローチで、miiboは取り組んできました。

つまり、アンコントローラブルなGPTを、旧来の対話システムの技術を用いて、コントローラブルに扱っていこう。それが今miiboで考えているアプローチです。

AI発展により、今後起こっていくこと

これは先日、Microsoftさんのハンズオンの会に参加した時のものなのですが、このAIネイティブなアーキテクチャへという図がすごく印象的でした。

これは、GPTがハブになって、いろいろなAIとオーケストレーションするという図です。つまりGPTにも得意不得意があると。

ただ、会話という、とてもわかりやすいインターフェイスで人間とコミュニケーションを図ることができるので、GPTがハブになって、さまざまなAIや旧来の技術を組み合わせて1つのAIのプロダクトにしていくと、めちゃめちゃいいものができる。先ほどの文脈でいうと、コスパもいいんじゃないかというのが、今miiboで考えていることです。

なので、オーケストレーションが大事になります、というのを踏まえて、先ほどの会話AIの変遷も踏まえてまとめると、プロンプト最適化の技術が今後、一般化されていく。GPTと専門ドメイン特化AIのオーケストレーションが一般化されていくというのが起こっていく。プロダクトを作っていく上ではそういう壁にぶち当たるので、そういった動きにみんななっていくんだと思っています。

あとは、GPTのコストパフォーマンス。GPT-3.5 Turboが出た時は、プライスが10分の1になっていたので、いずれGPT-4自体のコストパフォーマンスも改善して、またブレイクスルーが起きるんじゃないかと思っています。

今、GPT-4と3.5はかなり精度が違うので、そのタイミングで、社会実装がかなり加速するんじゃないかと思っています。今はたぶん、そこを待つ状況なのですが、そこの準備を必ずしておいたほうがいいと思っています。なので、みんなでガンガン実装していきましょうと。