ROXX社・CTO松本宏太氏

松本宏太氏:弊社は「ChatGPT×Whisper」でいろいろプロトタイプを作っているので、その中の事例を1つ紹介して、そこで学んだ内容をもとに、今後の展望をお話できればなと思っています。

(スライドを示して)今日は、こういう感じで話していこうかなと思っています。まず、自己紹介をさせていただきます。

あらためて、株式会社ROXXでCTOをやっている松本と申します。「kotamat」という名前でいろいろやっているのですが、もともとバックエンド寄りのエンジニア出身で、最近はLLMを使った開発をテーマに、4人ぐらいのチームで取り組み始めています。

転職エージェントがサポートしたがらない層に対する支援をChatGPTで効率化

弊社は、2つの事業を展開していて、今日は(スライドを示して)この「agent bank」という方を、メインにお話しさせていただければなと思っています。

ちょっと聞き慣れないサービスかもしれないので、簡単に説明いたします。agent bankは、非正規や非大卒を中心とした未経験の求職者のための正社員転職プラットフォームで、対象にしているターゲットは転職市場における求職者です。この層は大きく分けて2つの層があり、(年収ベースでの)ミドル層以上と、それ未満の層となっています。

転職エージェントも採用企業も、このミドル層以上の方々を取り合っている感じで、かつ、(彼らは)自分たち自身でキャリアを構築できちゃう層なので、実は人材紹介のサービスは、かなり過剰供給になってしまっていると思っています。

一方で、この濃い青色の層の人たちは、国内人材紹介サービスの多くが学歴や職歴を持ったいわゆる“即戦力”の求職者を対象としているという背景がありつつ、自分たち自身でキャリアを構築するというところも、なかなか難しいので、実はこの層に特化したキャリアアドバイザーによる支援を非常に欲している層になります。

要は、需要がメチャクチャ大きい一方で、供給がぜんぜん足りていない、という層になってます。

ここの転職支援価値をいかに高められるかが非常に大事になってきて、agent bankでは転職エージェント向けに求人開拓を担ったり、求職者へのサポート方法をコンサルティングしたり、実際にキャリアアドバイザーを組織化したりしています。

非常にステークホルダーが多く、やり取りもたくさんあるので、すべて自然言語でやり取りされているというところが、コストに対してリターンが合わない最大の要因となっているのではないか、と思っています。

GPTを使ってどうしていきたいのか、というところですが、あらゆる方面での支援効率を高めていくということに使えると考えています。そうしていくと、(キャリアアドバイザー)1人当たりが支援できる求職者が増えていきます。

そうするとキャリアアドバイザーも高収益、高利益な事業ができるようになるので、こうした層を対象とした市場への参入意欲が高まることで、シンプルに1人当たりの支援量が増えるので、(スライドを示して)この濃い青色の層の人たちが、キャリアを構築できるようになって、最終的には日本全体のGDP向上にも貢献していけたらと考えています。

履歴書・職務経歴書を一緒に作成するプロセスを効率化

その中で1つ、事例を紹介できればなと思っています。キャリアアドバイザーの業務の中に、履歴書や職務系履歴書を求職者と一緒に作り上げていくというプロセスがあります。

やはり、求職者は履歴書の書き方がわからなかったり、そもそもPCを持ってないので自分で履歴書を作りにくいというケースがあるため、キャリアアドバイザーが親身になってサポートし、そうした書類作成からともに取り組みます。

実際にすでに通話の録音データがあるので、これをアップロードして「Whisper」という文字起こしのツールを使って文字起こしします。

文字起こしのデータだけだと本当に雑なテキストになっちゃうので、それを「GPT」に食わせて、適切なフォーマットに成型していくという流れを作っています。

実際に使った技術は、こんな感じになっています。「gradio」というAIプロダクトに特化したUIの作成ツールがあるのですが、これとWhisper、GPTをバックエンドに添えて、Cloud Runにホスティングするという構成になっています。

ChatGPTとwhisperを使ったプロトタイピングでわかったこと

実際にやってみてどうだったのかというところなんですが、音声という雑なフォーマットからGPTが成型していくのは、非常に相性がいいなというところが見えてきました。Whisper自体がすごく生成スピードが速く、精度も高いというところで、非常に文字起こしには使えるなという印象ですね。

あと、WhisperもGPTも実はプロンプトベースでいろいろ微調整ができるので、1度デプロイしてしまえば、あとはユーザーサイドでPDCAを回せるというところも非常にGoodかなと思いました。

逆にMoreなところで言うと、Whisperの部分になりますが、GPTと同様、Transfomerという技術が裏で動いているので、無音期間や非英語音声の場合、特有の繰り返し文字が生成されちゃうというのがあります。

これは、VADという技術でチャンク分割していくとよかったりします。あとは音声データ自体も、例えば1時間ぐらいの音声にはだいたい2万トークンが含まれてきてしまうので、GPT4でも対応できないというところがあります。

これに関してはきちんとチャンクして、いい感じにGPTに食わせることが必要で、リファインという手法を使っていくと、きれいに成型できます。

今後の展望 ChatGPTを“接着剤”として使う

今後の展望の話も最後にできればなと思っています。Whisperを使ったプロトタイプだけじゃなく、いろいろ開発していく中で見えてきたところがあります。それは「薄いUI」と「SoR(System of Record)」の組み合わせに対して、ChatGPTがグルーというか、接着剤になってやるのが非常に活きるなということです。

この「薄いUI」が何かというと、本当にフォーマットを問わない入力形式。先ほど言ったような音声ファイルだったり、それこそブラウザのAPIである「WebSpeechAPI」だったりを使って文字起こしするとか。

あとは、テキストエリア1個、ボタン1個。もはやもうUIがないケースもあるかなと思いますが、とにかくユーザーが楽にインプットできるあらゆる手法が「薄いUI」として実装されると思っていて、UI自体が薄いので、実装上は本当にサクッと作って、サクッと消せるものになるかなと思います。

一方で、事業課題にきちんとフォーマットされたかたちでデータを格納するレイヤーの「System of Record(SoR)」は、セキュリティの観点などがあって、このメンバーには見られてよい、このメンバーには見られちゃいけないというように公開範囲を設定することもきちんと管理する、しっかりしたデータベースみたいなところだと考えていて、ここと「薄いUI」とのやり取りをGPTが橋渡しするのが非常にいいなと見えてきています。

先ほど申し上げたとおり、agent bankでいうと、キャリアアドバイザーの支援効率を向上させるためにあらゆる手法でやぁやぁとやっていくところになるので、戦略としてはいかに「薄いUI」を大量に作っていくのかと、いかに重要なデータをちゃんと格納していくのか。つまり信頼性が高い状態だったり、セキュアだったり、あとは中央集権的なかたちできちんとデータを格納していくというところが必要になっていくと、今思っています。

最後に、弊社はいろいろなポジションで積極採用中なので、もしよければ応募いただければなと思っています。発表自体は以上です。ありがとうございます。