LINEの機械学習エンジニアが語る、推薦システムのパーソナライズを最適化するための取り組み

EVENT

LINE DEVELOPER DAY 2019

2019年11月20日〜2019年11月21日に開催

2019年11月20、21日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。1日目は「Engineering」をテーマに、LINEの技術の深堀りを、2日目は「Production」をテーマに、Web開発技術やUI/UX、プロジェクトマネジメントなど、より実践的な内容についてたくさんのプレゼンテーションが行われました。「Building a smart recommender system across LINE services」に登壇したのはLINE フェロー ML基盤開発担当の並川淳氏。LINEサービス全体を横断して、ユーザーに最適なコンテンツを届ける推薦システム構築について語りました。講演資料はこちら

提供：LINE株式会社

スピーカー

並川淳

LINE フェロー ML基盤開発担当

ダッシュボードでステータスを確認

インプレッションやScoreやCTRのような統計量は、ダッシュボードに表示されていて、プロジェクト関係者は日々この数値を見ています。このダッシュボードでは、どういうタイプのコンテンツがどれくらい表示されてるのか、それぞれのScoreやCTRはどうなのか、前の週より良くなってるのか悪くなってるのか、などが一覧で表示されます。

さらに、いろいろなサービスのコンテンツの情報を表示するので、あるコンテンツで異常が起こったみたいなことはダッシュボードを見ているだけではなかなか気がつきにくいんですね。なので、異常検知をするシステムも作って、異変を見落としてしまう可能性に対処しています。

スライドの例ですが、Slackに実際に通知して、異常があれば我々は分析をして対応しています。

新しいモデルを実装したり、新しい特徴量を作った場合に、A／Bテストでユーザーに表示して評価する前に、事前にテストするためのオフラインテストの環境があります。A／Bテストをやるためには実際にシステムを開発しなければならないので、そのコストを払わずにできるオフラインテストは、非常に低コストでたくさんの実験ができるメリットがあります。

我々はログをDataLakeと呼ばれるHadoopクラスタにためて、オフラインテストのコードはJupyterなどで簡単に書けるようにしておいて、簡単に新しい特徴量や新しいモデルを評価できるようにしています。評価用のシステム自体は本番と同じシステムのクローンを使うことができます。

最後にA／Bテストなんですけど、弊社では「Libra」というA／Bテスト用のシステムが存在します。画面の左側がLibraを利用しているサービスのリストなんですけど、いろいろなサービスがこのLibraを使ってA／Bテストをやっています。Smart ChannelでもこのA／Bテストのシステムを使って最適化のアルゴリズムやUIを改善しています。

画像の追加でCTRが劇的に変わる

ここまでアーキテクチャとデータ分析とA／Bテストの環境について話をしたので、最後にA／Bテストを実際にやってみた事例をいくつか紹介していきたいと思います。

Smart Channelについては、レコメンデーションの改善に関わる部分だけでも多くのA／Bテストをやってきました。ここではその中で改善の幅が大きかったものについて3つほどご紹介したいと思います。

1つ目はモデルを切り替えた件ですね。MLアーキテクチャのところでモデルの説明をしたと思うんですけど、そのときはBayesian Factorization Machineを使っていると言いました。ただ、実は初期は別のモデルを使っていました。それはLinUCBというモデルで、これもContextual Banditの一種なんですけど、線型のモデルという特徴を持っています。

線型性についてここですごく重要だったのは、並列計算がめちゃくちゃ楽ということでした。線型なので差分を全部足し合わせれば完全に同じものになるので、途中で紹介したような並列計算アルゴリズムなどは一切抜きで実装できます。なので、すごく実装が楽だったので、最初はこれを使ってました。

ですが、Factorization Machineのようなものを使ったほうが精度がいいだろうと思ったのでA／Bテストをしてみたところ、CTRは上がって、バツボタンのCTRは下がりました。つまりポジティブな反応が増えてネガティブな反応が減り、結果Scoreが上がりました。

これは並列計算のモデルとかアルゴリズムの研究が必要だったりでコストはかかったのですが、やった価値はあったという事例の1つです。

2つ目なんですけど、今回ご紹介するのは推薦の数値が良くなった順に紹介していて、実は2番目に良かったのは、機械学習はぜんぜん関係なく、ただUIを変えたという話になっています。

これは何かというと、Smart Channelで昔ニュースは画像が表示されてなかったんですね。ただ文字だけでニュースの説明をしてた。それを画像を表示するようにしたときにどうなるかというA／Bテストをやりました。

これはそもそも画像が小さいので「効果あるのか？」みたいな話は事前に議論にもなりましたし、あとは、あそこの枠にたまたまきれいに表示させる画像もなくて、うまくクロッピングするようなシステムの追加開発が必要だったので、コストはかかったんですけど。

実際にこんな小さい画像でも効果あるのか、A／Bテストで試してみたところ、これがすごかったんですね。CTRが一気に56パーセントも上がっちゃって、モデルを変えるよりもぜんぜんいいという感じ……。

（会場笑）

本当に「モデルとかどうでもよいんじゃね？」という感じなんですけど、一方でこのバツボタンのCTRもすごく上がっちゃったんですね。だから、画像を表示したことによって、ポジティブにもネガティブにもすごく反応を得ることができるようになりました。

ただ、結果的にそのポジティブ度とネガティブ度の比率でどうだったのかというと、Score自体もすごく上がったので、画像を見ることによってユーザーは好みのものを選べるようになったという意味で、全体的にもポジティブな事例でした。

3つ目は、モデルのところで説明があった、Embeddingを追加した件です。実はこのEmbedding部分についても最初は実装がありませんでした。ただし、これがないとパーソナライズしたレコメンデーションはできないので本当はあったほうがいいんです。

ただ、最初に説明したように、各サービスのレコメンデーションシステムがすでに個人化されているので、ここがなくても一応個人化されたものが推薦されるので、必須かと言われるとそうでもない。こういう状態において、こういう特徴量を追加したときにどうなるのかをA／Bテストしました。

結果はこのようになっていて、数値の動き自体は先ほどの画像の例よりも小さめなんですけど、CTRは上がって、バツボタンのCTRがすごく下がって、結果的にScore自体は画像を追加するよりもかなり大きい改善結果が得られました。なので、一応UI改善よりもいい結果も時々はあるみたいなかたちで、機械学習やっててよかったねというかたちです。これはネガティブな数字の変動がなくて、すごくうまくいった結果になっています。

将来的には各サービスの推薦システム自体を統一させる

このように僕らは日々A／Bテストを繰り返してモデルやUIを改善しているんですけど、最後に、今後僕らがどういうふうな世界を目指していて、どういうふうに改善していこうと思っているかを紹介したいと思います。

これも最初のほうに出た絵なんですけど、現状は、実は各サービスからレコメンドの結果を受け取って、それをさらに選んでユーザーに届けるみたいな、一方通行のシステムになっています。

ですが、本当に最適化を極限まで突き詰めていこうと思うと、この中央のシステムと各サービスの推薦システムがカップリングしてうまく最適化したほうが当然精度は上がるので、一方通行になっているのを双方向に変えて精度を上げていきたいと我々は考えています。

ただ、そのためには各サービスの推薦システムやデータ基盤が違っていると当然コストがかかりすぎるので、我々は、各サービスの推薦システム自体も統一させる方向で今動いています。

データ基盤のクラスタを1つに統一したり、マシンラーニングを計算するGPUクラスタをKubernetes上に構築して、みんなが同じような環境でマシンラーニングを実行できるようにしたり、そういうシステムを作ることで各サービスの推薦システムをうまく統一して、全体のサービス横断のシステムと連携できるようにすることを我々は考えています。

以上で発表を終わります。ご清聴ありがとうございました。

（会場拍手）

Occurred on 2019-11-20, Published at 2019-12-18 11:00