「連続最適化」を研究し、ヤフーへ
池上哲矢氏(以下、池上):ご紹介に預かりました、ヤフー株式会社の池上哲矢と申します。
今日は「機械学習ブームの裏側に」というタイトルで、発表させていただきたいと思います。こういったイベントは初めてで、すごく緊張しているんですけど(笑)、楽しい発表にできればなと思うので、よろしくお願いします。
まずは、簡単に自己紹介をさせてください。大学のほうは京都大学に入りまして、そのまま京都大学の大学院に入って「連続最適化」の研究をしていました。研究する中で、NTTデータさんが主催するデータ解析コンペなどにも出て、そこで賞をいただくこともあり、データ解析に興味を持つようになりました。
「やっぱりデータ解析といえば、データをたくさん持ってるヤフーだろう」と思ってヤフーに入ったんですが、配属されたのがデータプラットフォーム部という、データ解析の基盤づくりの部署で、今はまったくデータ解析はできないんですよね(笑)。
ちょっと足し算もできなくなってきて、危ないなと思ったので土日に機械学習を勉強し始めました。なので、機械学習歴としては10ヶ月ぐらいで、かなり短いと思います。
「なんでこんな素人がここに立っているのか」って話なんですけど、けっこう個人的に技術ブログを書かせていただきまして、その中の1つがITmedia NEWSさんに取り上げられたり、あとは『AbemaPrime』さんに出演させていただいたりすることもあって、今回登壇することになりました。
普段は「勾配ブ―スティング」「カプセルネットワーク」などといったモダンなアルゴリズムの解説を書いていたんですけど、この時は『バレンタインチョコを、義理か本命か分別する』っていう記事を書きまして、これがちょっとウケたと。ご覧になった方いますかね?
(会場挙手なし)
池上:まあ、そうですよね(笑)。
エンジニアの方にも機械学習に興味を持ってもらいたい
池上:ここから少し話は大きくなります。これは言うまでもないと思うんですけど、機械学習ブームが来ていて、一番有名なものの1つに「自動運転」があります。GoogleやTencentさんが主導して、公道実験なども行われていると思います。
2016年にはイ・セドルを破ったAlphaGoがあったと思うんですけど、これがさらに進化してAlphaGo Zeroという、自己対局の中で学習するようなアルゴリズムが発明されました。他にはPFNさんが提供している、自動着色ツールのPaintsChainerを使ったマンガなんかもつい最近発売されて、これもおもしろいと思います。
とはいえ、機械学習っていうのがすごく広まってきたと思うんですけど、まだまだ専門でない方にとっては難しそうであったり、とっつきにくそうというのが、正直なところだと思います。
とくに知り合いの方から聞いた話では、「経営陣の方は複雑なアルゴリズムなんかはわからなくて、何ができて何ができないのかわからない。そのために利活用が遅れている」という話も、よくお聞きします。
なので、今日伝えたいこととしましては、そういう専門でない方にとっても、「機械学習っておもしろい」と、機械学習にどんどん興味を持っていただきたいなということを、今日はお伝えしたいと思います。
「機械学習っておもしろい」と思ってもらうためには、機械学習で多くの方が抱える課題を解決することが一番いいのかなと思っています。
今日、来ていただいた方はエンジニアが多いと思うので、エンジニア全員が抱えるもっとも重要な課題を解決して、「機械学習はすごいな」っていうのを体験していただければなと思います。
男性エンジニアを女性にするというソリューション
池上:エンジニア全員が抱えているもっとも重要な課題っていうのは、言うまでもないと思うんですが「女性エンジニアが少ない」。
これは言うまでもないですね。まあ、全員抱えてますね。
(会場笑)
池上:実際、情報通信業の男女比を見てみると、男性が74パーセント、女性が26パーセント。
しかも、これはデザイナーさんなども含んでいるので、実際のエンジニアの数で言うと、もっともっと男性のほうが割合が大きいです。
そして、これによって生じる問題は、男性エンジニアにとっては、「いいところを見せたい」というやる気が出ない。そして、女性エンジニアにとっては、女子トークができない。これは非常に重要な課題だと思います。
ただ、女性エンジニアを1から育成するっていうのは、非常にコストが大きいんですね。
これは正確なデータは取りづらいので、短大や私立の学費、卒業するまでにかかる費用にしたんですが、安くても300万、高いと800万といった、数百万単位でかかってしまいます。これはちょっと現実的じゃないですよね。
ということで、今回この課題に対して提案したいのは、「数の多い男性エンジニアが女性エンジニアになる」ということを提案したいと思います。
(会場笑)
どういうことかといいますと、まず見た目を変身させます。容姿はメイクや服でなんとかなりますよね。最近は技術がすごいですからね。これは同期の女性にヒアリングした結果なんですけど、数万円程度で見た目が女性になれるということで、非常に育成コストに比べて安いと。
これは現実的ですね。
せっかく見た目がかわいくなったんですが、やっぱりそっから野太い声が出てくると悲しいと。そこで機械学習の出番ですね。機械学習によって、声質変換をすることによって、男性の声を女性の声にしようと。
声質変換というのは、元話者が話した内容を、あたかも対象話者が話したかのように変換する技術となっています。イメージとしましては、元話者が「(男性の音声を再生)」というように話したものを、「(女性の音声を再生)」と別人の声に変えるという感じですね。
相対する音声ネットワークでより自然な音声を生成する
その仕組みです。今回ここでアルゴリズムを詳しく解説することはしないんですが、最近画像分野でよく用いられている「GAN」という技術を用いて、入力した音声から音響モデルを通して、音響特徴量、声の高さであったり、音色であったり、そういったものを取り出します。
さらにそれを生成器を使って自然な合成音声をつくるのが、今回のアルゴリズムとなっています。
先ほどGAN、Generative Adversarial Networksですね、敵対的生成ネットワークという言葉が少し出ました。これはどういうものかといいますと、これにはDiscriminatorとGeneratorという2つの登場人物がいまして、Discriminatorは合成音声か自然な音声かを見極める役割を持っています。
Generatorは自然な音声をつくる役割を持っていて、Discriminatorを騙すように合成音声をつくってやろうっていうのがまず1つ目。それと同時にGeneratorを見破るようにDiscriminatorを訓練することによって、より自然な音声ができあがるというのがアルゴリズムとなっています。
今回データセットとしましては、日本語の音素をバランスよく含んだATR503文というのを用いました。
具体的には、(男性の音声を再生して)「あらゆる現実をすべて自分のほうへねじ曲げたのだ」、これが僕の声で、(女性の音声を再生して)「あらゆる現実をすべて自分のほうへねじ曲げたのだ」、これはヤフーの人事のしおみさんという方に録っていただいたんですけど、まあ、503文付き合っていただきました。
(会場笑)
ありふれた会社のワンシーンが機械学習によって変わる
池上:これによってどうなるかといいますと、ありふれた会社のワンシーンが、みなさん上司の気分になっていただきたいんですけど、(男性の音声を再生して)「おはようございます」と部下から言われると、(上司の音声を再生して)「ああ、おはよう……」、ちょっとテンションが下がってしまいますよね。
これが声質変換を使うと、(女性の音声を再生して)「おはようございます」、はい、しおみさんの声になっていますね。それによって上司は、(上司の音声を再生して)「おはよう!」、すごくさわやかな朝が迎えられました。
(会場笑)
池上:やる気が増すと。
さらに、女子トークができないという問題もあったと思います。女性視点に立っていただいて、(同期女性の音声を再生して)「最近、オシャレなカフェできたよね」という会話をすると、男性エンジニアが(男性の音声を再生して)「Caffe? ああ、良いディープラーニングのフレームワークだよね」。
(会場笑)
池上:空気の読めない回答をしてしまい、(同期女性の音声を再生して)「うーん……」、女性エンジニアはテンションが下がってしまいます。
これが声質変換を使うと、まあ、ちょっとここは飛ばしまして、(女性の音声を再生して)「へー、そうなんだ! 気になる!」、ちょっと声域が危ないんですけど(笑)。
(会場笑)
池上:まあ、女性エンジニアの声になったと。これによって、(同期女性の音声を再生して)「え、本当!? 今度一緒に行こう!」、はい、女子トークができることによってテンションが上がっています。
ちょっとクオリティは置いておいていただきたいんですけど、これによってエンジニアが抱えるもっとも重要な課題が解決できました。
みなさん「機械学習っておもしろいんじゃないか」と思っていただけたと思います。
真面目な話をしますと、人工知能、ロボット、自動運転、車がどのように公道と建物を見分けているか、検索エンジンでよく用いられる自然言語処理、Google Home、Alexa、音声信号処理もすごく盛んになってきているので、どんどんこういった新しい技術をキャッチアップしていただいて、ご自身の事業に活用していただければなと思います。
では、発表のほうは終了いたします。ありがとうございました。
(会場拍手)
収録環境と時間で声質変化のクオリティも上がる
司会者:はい、発表ありがとうございました(笑)。かなり途中、笑ってる方もいらっしゃったと思うんですけど。ここで質問コーナーに入りたいと思います。質問がある方は挙手をお願いいたします。
(会場挙手)
質問者1:おもしろい発表ありがとうございました。今の声質変換のやつって、けっこうリアルタイムでやれたりしたら、かなりやっていけるんじゃないかなと思ったんですけど、そういう、どれぐらい処理かかりそうかとかそのへん、現実的なんですか? リアルタイムで。
池上:そうですね。訓練自体は数時間かかってしまうんですけど、いったん訓練さえしてしまえば、リアルタイム処理も可能だと思います。今の自分のやつですと、まあ、だいたい4、5秒ぐらいのラグはあるんですけど、それぐらいの変化はできると思います。
質問者1:ありがとうございます。
司会者:他に質問は……。
(会場挙手)
質問者2:最初の英語の変換のほうがめちゃくちゃきれいだったんですけど、それにたどり着くまでにどういう課題があるんですかね?
池上:こちらに関しては、他の方が変換された結果なんですね、オープンに公開されているデータなんですけど。ここまできれいにしようとすると、収録自体ちゃんと何十時間とかしないといけなくて、自分がやったのが2、3時間程度なんですよね。(登壇者注:「他の方が変換された結果」と応えてしまいましたが、発表に使用した音声は、男性と女性が別々に収録したテスト音声でした。失礼しました)。
あと、社内の環境でやったので、普通に会議の声が入ったりとかなっちゃってて(笑)。クオリティがどうしても、ノイズが入ったりで良くないんです。もっともっとちゃんとした収録環境でちゃんとした時間でデータを集めれば、もっときれいになると思います。
質問者2:ありがとうございます。
司会者:最後、ラストクエスチョン、どうでしょう?
(会場挙手なし)
司会者:じゃあ、私からいいですか?(笑)。
池上:はい(笑)。
司会者:テンションが上がるために声を変えていこうってことだったんですけど、それ、学習結果が成功だったとかって、どう判定しているんですか? そういうテンションの上がり下がりで(笑)、この学習はOKだったのか。
池上:ええと、声のクオリティ自体という意味ではなく、自然に聞こえるかどうか。
司会者:あ、なるほど。自然さが。
池上:そうですね。
司会者:なるほど。そこを評価して学習させていった。
池上:あ、そうですね。
司会者:わかりました。ありがとうございます。お時間になってしまったので、こちらで質問を締め切らせていただきたいと思います。では池上さん、改めましてありがとうございました。
(会場拍手)