LINEのデータプラットフォームの課題

三枝慶寛氏(以下、三枝):みなさん、こんにちは。私はインフラ部門でエンジニアリングマネージャーをしている三枝といいます。私のほうからは、データプラットフォーム、そしてインフラについて、取り組み事例をみなさんにお伝えしていきたいと思います。

まず最初にデータプラットフォームです。LINEでは効率的にデータを活用するために、セルフサービスでできるデータプラットフォームを目指しています。

データの活用方法はさまざまで、例えばプロダクトマネージャーであればA/Bテストの結果がすぐほしいでしょうし、マーケターは効果測定の結果をすぐ知りたい。インフラエンジニアは大量のメトリクスの中から障害につながるようなデータを見つけたり、いろいろなニーズがあります。それぞれのやりたいことが今すぐ始められる。そんなデータを自ら取得できる。これをSelf-Service Data Platformと呼んでいます。

LINEのデータプラットフォームについて、まずは1日あたりの数字でご紹介していきたいと思います。生成されるレコードの数は1兆件を超えています。1日で1兆です。それをデータ量に直すと390TBになります。実行される分析ジョブの数は10万件を超える。そういう状況になっています。

このようにして日々蓄積される膨大なデータは、ユーザーのみなさんがLINEというサービスを通して有意義な情報を得たり、優れたユーザー体験をしていただくために活かされています。

このような価値をみなさんにお届けするために、解決が必要な課題が3つありました。

1つ目はAccessibilityです。これはイビンさんからもお話があったように、データサイロが一番大きな課題でした。LINEではサービスに合わせて複数のデータプラットフォームが運用されていてデータが点在していますので、サービスを横断して分析をするときに非常に時間がかかってしまう課題がありました。

この課題の解決のためにはプラットフォームの統合が必要です。ただ、そうすることによって、また別の新たな課題が生まれてしまいます。1つの環境でさまざまな分析ニーズをどう満たすのかということです。これは端的に言えば、マルチテナシーをどう実現するのかという課題になります。

最後に、これは一般的に言われていることなんですが、データサイエンティストの業務のうち、その80パーセントはデータの整理するために使われているそうです。ほとんどのデータサイエンティストはそういう業務はあんまり好きじゃない。みなさんも本業以外に時間を使うというと、やっぱりつらいですよね。

LINEでも似たような状況があって、どうやったらデータサイエンスのチームにユーザーの価値につながるように集中してもらえるかが課題でした。

より良いユーザー体験のために取り組んだこと

三枝:これらの課題を解決するためには、さまざまなチャレンジがあります。

データプラットフォームを統合するために、システムを止めてデータをマイグレーションできれば一番簡単ですけれども、LINEではすでに止めることができない重要なプラットフォームがいくつも動いています。そこで我々はシステムを止めずにオンラインでプラットフォームを統合することにチャレンジしました。このお話の詳細については、今日16時20分にセッションがありますので、ぜひ興味のある方は聞いてみてください。

マルチテナンシーの課題については、マルチテナンシーが必ずしも考慮されていない分析ツールに対して、どのようにして独立した環境で、しかもそれをオンデマンドで提供するのか? そして社内の2,000名を超える人たちの分析ニーズに対して応えるためにどうスケールさせるのか? それがチャレンジのポイントになります。

最後のデータの品質に関しては、データサイエンティストの時間をあまり使わないようにするため、データのバリデーションとその結果をメタデータに保存をする、この一連の流れを自動化するというアプローチを取りました。

これが難しいのは、データの量そのものがそもそも膨大であることはもちろんなのですが、データの種類も非常にたくさんあるんですね。ですので、この自動化ということも一筋縄ではいかないチャレンジングなポイントになっています。

このような考慮をして開発を進めているのがLINEのSelf-Service Data Platformになります。このようなデータプラットフォームを作ることによって、データサイエンスのチームは、より効率的にデータを収集して、サービスを横断的に分析ができるようになりました。

プラットフォームの統合によってデータガバナンスも強化できますので、その取り組みは、LINE社内の開発者だけではなくて、ユーザーのみなさんがより安全でより良いユーザー体験をしていただけるようになります。

大規模サービス全体を支えるインフラ構成

三枝:続いて、そんなデータプラットフォームを含めた、LINEのサービス全体を支えるインフラについてお話ししていきたいと思います。

インフラについては、この「Fast Lifecycle Infrastructure」。いかにインフラのサイクルをスピーディにするかという取り組みを目標に掲げています。

まず最初にLINEのインフラの特徴の紹介になります。なんといっても規模の大きさが挙げられます。1日最大50億件のメッセージのやりとりを支えるそんなインフラになっていて、それをネットワークのトラフィックで表すと1Tbpsを超えるトラフィックが日々流れています。

海外でもたくさん利用されているサービスになりますので、日本国内だけではなくて、アジア、そして北米、ヨーロッパ、主要な箇所にインフラの拠点があります。それぞれの拠点を結ぶグローバルな地球規模のネットワークで構成されています。そんな複数の拠点にあるサーバをすべて合わせると、4万台を超えるサーバがあります。

なかなか数字だけですとこの規模感が伝わりづらいのかなと思って、わかりやすい例を考えてみました。このLINEが持っている4万台というサーバを1台1台積み上げていくと、みなさん、その高さがどれぐらいになると思いますか?

日本で一番高い建物はスカイツリーの634メートルです。LINEのサーバの高さはなんとスカイツリー3.5本分になります。だいたい2,200メートルぐらいですね。ですので、この「LINEのインフラ=スカイツリー3.5本分」ということだけでもぜひ今日覚えて帰ってください。来年は4本を目指してがんばりたいと思います。

これぐらいの規模になると、もう土台、人の手で運用することは無理なんですね。なので、特徴の2つ目、プライベートクラウドです。

LINEは自前でクラウドを構築していて運用の自動化を実現しています。このプライベートクラウドは「Verda」というプロダクト名で、社内にいる2,500名を超える開発者向けに提供されています。プライベートクラウド自体は、60名ほどのインフラエンジニアによって、今でも追加開発が進められています。

LINEのプライベートクラウド「Verda」導入の背景

三枝:では、なぜこのご時勢に、パブリッククラウドという選択肢もあるなかで、こんな多大な開発コストを支払ってまでプライベートクラウドをやっているのか? やはりみなさんそこが気になりますよね。

その一番大きな理由は、課題解決に対するイニシアティブになります。我々はプラットフォーマーでもありますので、課題一つひとつに対する責任を非常に大きく捉えています。

プロダクトチームと一緒にプロダクトを作っていく。開発者が抱える技術課題を一緒に解決する。そういった取り組みにおいて、決して他人任せにしない仕組みづくりを重視しています。そこで、課題解決におけるイニシアチブをより多く持てるモデルとしてプライベートクラウドを選択しています。

この考え方は、技術選定においてもオープンな技術を選択するという方針に現れています。このプライベートクラウドの「Verda」はオープンソースであるOpenStackをフルに活用して作られています。

運用の自動化という観点からプライベートクラウドの取り組みに非常に力を入れているんですけれども、ただ、これだけではまだ不十分なんですね。インフラの長年の課題であったのは、インフラのライフサイクルと開発ライフサイクル、そのギャップでした。

インフラのライフサイクルは数ヶ月から数年という非常に長いサイクルで回っています。それに対して、開発ライフサイクルは、もう最近だと数週間や数日というのはぜんぜん珍しくなくて、どんどん早くなってきています。このギャップの解消が必要でした。

それで我々インフラチームが取った試みとしては、インフラの機能そのものをソフトウェアで実装していくということになります。これが最初に紹介した「Fast Lifecycle Infrastructure」につながる取り組みです。

インフラのハードウェア的な要素であるサーバ間のネットワークは、とにかく高いパフォーマンス、高い拡張性、そして高い保守性を実現させることに集中をして、サービスが必要とするインフラの機能はソフトウェアで実装していく戦略です。

こうすることによって、開発者側と同じくソフトウェアを基盤にできますので、開発サイドから上がってくるフィードバックに対して同じようなスピード、同じようなサイクルで対応すると。そういう試みを始めています。

ロードバランサーの不具合で得た発見

三枝:その事例としてわかりやすいエピソードがありますので、1つご紹介したいと思います。

LINEでは、すでにソフトウェアとして実装されているロードバランサーがプロダクション環境で動いています。そのロードバランサーに対して、開発チームからある機能のリクエストがあったんですね。それを開発して、今年の9月にその機能をロールアウトしました。

ところが実際に使ってもらったところ、不具合が見つかってしまったんですね。これは、もしハードウェアベースのロードバランサーであった場合には、自分たちの手でその不具合に対するroot causeを見つけることが極めて難しいです。ですので、保守をしてもらっているベンダーに頼んで、まずは問題の解析依頼を投げると。そこから始まります。

ただ、我々はソフトウェアベースでロードバランサーをすでに実装しています。ですので、不具合に対して、自らの手ですぐに何が原因かを見つけることができるようになりました。

それだけではなくて、ハードウェアに比べてCI/CDといった仕組みが格段に回しやすいですので、このときは開発サイドからフィードバックを行って、実際に不具合を見つけて修正して、そしてテストをしてプロダクションに環境にデプロイするまで、たったの数時間でできました。

このような事例からも、いかにソフトウェアというアプローチを取ればそのサイクルを速くできるのかがおわかりいただけるかなと思います。

このように、我々インフラチームはプロダクトの価値をいち早くみなさんにお届けするというそういう活動において、インフラのレイヤーでそのサイクルが途切れることがないように、開発チームと一緒になって、短いサイクルでスピーディに対応しています。

私のパートは以上になりますけれども、今日、このあともデータプラットフォームとして、インフラについてのセッションをたくさん用意していますので、興味を持っていただいた方はぜひ聞いていっていただければと思います。

それでは続いて、LINEのセキュリティの取り組みについて、市原さんよりご紹介していただきます。では、市原さん、よろしくお願いします。

(会場拍手)

「Privacy First」を達成するために

市原尚久氏(以下、市原):みなさん、こんにちは。サイバーセキュリティ室の市原です。よろしくお願いします。私からはLINEのセキュリティとプライバシーについてのお話をさせていただきます。

さて、私たちLINEはユーザーのみなさんを一番大事にしています。突然こんなことを言って、引かないでくださいね(笑)。これは言い換えると、同じように、ユーザーのみなさんのプライバシーも同じように一番大事です。また、そうあるべきだと考えます。これを私たちは「Privacy First」と呼んでいます。

そして、今日はこの「Privacy First」やサイバーセキュリティに関わる、Data Governance、Technology、Transparency、この3つのお話をしたいと思います。

まず最初はData Governance。これは、LINEが現在のようにデータを使ってより良いサービスを将来にわたって提供していくため、それからユーザーのみなさんから信頼され安心して使っていただけるサービス環境を提供していくため、必ず必要だと考えています。そして、プラットフォーム企業としての大きな責任であると考えています。

LINEは積極的なデータ活用を進める一方で、法令遵守、それからプライバシーへの配慮。このData Governanceのために私たちは、データアナリスト、エンジニアといった技術サイドの人間だけじゃなく、プライバシー、また法律の専門家を加えた強力なガバナンス体制を構築しています。このようにしてデータ活用全体を統制、コントロールをしています。

少しだけ具体的な話をしたいと思います。このようなData Governanceの下で、LINEではデータ活用するサービスは、必ず企画段階もしくは設計を組んだ段階で、先ほど申し上げた専門家チームによる審査またコンサルティングが必ず行われます。これはLINEの中では絶対に欠かせない基本的なプロセスになっています。いわゆるPrivacy-By-Designと呼ばれるものです。

例えば今回のイベントの顔認証ゲートシステムですが、ご利用されている方は事前に自分の顔の情報を、正確には顔の特徴データをサーバに登録してもらっています。こういったサービスの場合においても同じように、例えばデータの取得方法とか、同意内容、利用用法、画面設計、データの保管場所、いつ削除するのか。そういった事柄が、利用規約、プラバシーポリシー、法制度、いろいろな側面から適切なのかどうか。こういった側面のチェックが必ず行われます。

そして、これはすべてエンジニアが判断するのは非常に難しいチェックになります。そこで先ほど述べたような専門家チーム、具体的にはプライバシーや法律専門のメンバーも加えたチームによって厳密なチェック、審査、コンサルティングが行われています。

ちなみに、今回登録されたみなさんの顔情報ですが、国内のサーバに安全に保管されていますし、イベント終了後に必ず削除されます。ご安心ください。

このようなPrivacy-By-DesignによってLINEはユーザーのデータのプライバシーを厳密に保護しています。

続いて、セキュリティを守る具体的なテクノロジーの話についてです。最初の話題です。LINEアカウント乗っ取り。たぶん聞いたことがあるキーワードだと思います。

ちょっと会場のみなさんにもおうかがいしたいと思います。自分の周りで、友達や自分を含めて、LINEのアカウントが乗っ取られたことや、もしくは友達からコンビニで2,000円のギフトカードを買ってきてくれと頼まれた方はどれぐらいいますか? ちょっと手を挙げてください。

(会場挙手)

いますね。けっこうやっぱりいますね。今日いま手を挙げられなかった方はけっこう運が強い方だと思います。けっこうな割合で乗っ取りがあります。友達が乗っ取られるケースがあります。僕も運が弱いほうなので2回経験があります。

実はLINEはこのアカウント乗っ取りに対して、早くから2段階認証を導入してきました。細かな仕様改善を進めてきました。ですが、やはり騙す側も非常に巧妙です。ユーザーのみなさんとても心やさしいので、友達から頼まれるとつい「認証番号教えてあげるよ」と答えてしまうんですね。それで乗っ取られてしまいます。やさしい人は乗っ取られてしまう。僕は冷たい心を持つのであんまり乗っ取られたことないんですけれども。

これはいったい誰が悪いのか? 一番悪いのはやっぱり乗っ取り犯ですよね。心やさしいユーザーのみなさんは騙されただけですから。

ビジネスはこういう状況をずっと続けていくわけには、私たちはできません。見逃しておくわけにはいかなかったんですね。そこで、この乗っ取りの問題、この撲滅に向けて本格的な戦いを開始しました。

アカウント乗っ取り犯、怪しいと思われるユーザーの行動をマシンラーニングで分析。さまざまな検知やペナルティルールを導入してきました。

そして、彼らはやはり何度も私たちのルールをバイパスして、新しい手口で対策を乗り越えて、また騙してアカウントを乗っ取ってきました。これが何度も何度も続きました。こんな戦いが約2年続きました。

そして、実は2018年にこの乗っ取りの被害件数を0件にすることができました。

(会場拍手)

ありがとうございます。ここで拍手が来なかったらどうしようかと思ったんですけど(笑)。もちろんまた新しい手口で攻撃してくると思いますし、油断はできないと思います。こういった戦いはこれからも続くと考えています。

こういったマシンラーニングを使ったセキュリティ問題解決の事例をもう少しご紹介します。

LINEのメッセンジャーのタイムラインの中では、スパムメールならぬLINEスパムというのが実はたくさん発生しています。このLINEスパムの対策に対しても、マシンラーニングを導入してきています。基本的には通知されたデータ、通知された情報だけをベースに検知します。最初はうまく検知できたんですけれども、すぐに問題が見つかりました。

スパムを送ってくる相手、スパマーはやはり人間ですので、対策をいくら打っても次々に手口をどんどん変えてきます。自分たちがブロックされていることを彼らもわかっているわけですね。そのたびにこちら側は人力でフィルタリングルールを作り直す必要があったんです。非常に手間とコストがかかります。

私たちは何をしたかというと、その時期のスパマーの傾向に合わせて、そのスパマーの傾向をうまく活用して、フィルタリングルール自体を自動的に更新するという独自のアルゴリズムを開発しました。つまり、時間が経過しても普遍的なある特徴的なパラメータの傾向を割り出すことができました。これによって手動更新のコストを大幅に削減することができました。

現在もこのシステムは運用されています。自動と手動のハイブリッドで運用して、実際に精度もかなり向上しています。また、LINEの中のスパムもかなり今は減少傾向にあります。これはまさにマシンラーニングの貢献が非常に高いと考えています。

もう1つマシンラーニングの事例を紹介します。LINE PayやLINEポイントなどの広告をご覧になった方も多いと思います。ポイント還元、ポイントチャージ、チャージバックなどのキャンペーンをうまく使った不正行為がやはり発生します。サイバー攻撃やサイバー犯罪はやはりお金目当てが主流ですので、格好のターゲットにされてしまいます。

私たちが何をしたかというと、利用者の残高やポイントの利用状況といった取引データなどをさまざまな角度からマシンラーニングとグラフ分析を行いました。全体の取引の中から特徴的な怪しいパターンを割り出していきます。

そうすると、例えば偽アカウントを大量に作って、大量のキャンペーンポイントを入手して、それを1箇所に集めて現金で引き出す動きがわかりました。

それから、複数のユーザーがそれに対して関与して、1箇所のボスに集めて、それを現金として引き出す組織犯罪のケース。マネーロンダリングのような、金融犯罪と疑われるのような動きを見つけることもできています。

マシンラーニングを駆使してフェイクニュース防止

市原:もう1つマシンラーニングの事例を紹介します。最近、みなさんご存じだと思いますが、フェイスニュースが非常に流行っています。深刻な問題になっていると思います。国の政治や選挙まで影響を与えるといわれています。

実は台湾では昨年、あるフェイクニュースがきっかけで事故が起こってしまい、非常に大きな社会問題が起きました。この問題に対応してLINEは、台湾のLINEユーザー向けに、ネット上で見つけた情報の本当かウソかを判定するDigital Accountability Programを開始しました。

このサービスは、実際に台湾の政府、それから台湾のファクトチェックサービスの企業4社と提携して実現しています。このファクトチェックの部分にLINEが開発したマシンラーニングが提供されています。具体的には、過去のニュース、また真贋の情報を教師データとしたクラスタリング分析によって、本当かウソかの判定の部分をサポートしています。

このようにしてLINEはマシンラーニングを積極的に取り入れて、さまざまなセキュリティの課題、社会の課題に対して取り組んでいます。

続いてパスワードの話です。パスワードの問題、非常にたくさんあると思います。パスワードを忘れてしまったり、スマホの画面が打ちにくい、サイトごとに「パスワードを変えましょう」と言われたり。パスワードって面倒です。実際に問題だらけなんですよね。

今のスマホ、顔認証や指紋認証が非常によく使われていると思います。これはやはり便利なものです。この生体認証の技術が使えて、安全な認証プロトコルを実現する「FIDO」という技術があります。

そしてLINEは、このFIDOを使って、今年の秋にiOS版のLINE Payアプリに「FIDO2」のプロトコルを導入・リリースしました。これは、モバイルペイメントアプリとしてFIDO2を導入したのは世界初の事例になっております。

これは、安全性が高いだけじゃなくて、生体認証を組み合わせることによってセキュリティとユーザーエクスペリエンスのバランスを取ることができるようになります。こういったパスワードレスの世界、もっともっと広げていきたいと思っています。

3つ目の話、Transparencyです。つまり透明性の話ですが、簡単に言うと「隠しごとをしない」ということだと思います。自分たちの実態を外の目にさらして、時には叩かれて、また改善していく。これができる企業が最終的にユーザーの信頼を獲得できて、強い企業になると考えています。

「Privacy First」守る取り組み

市原:具体的な取り組みです。LINEは年に2回、「TRANSPARENCY REPORT」というレポートを発行しています。これは、捜査機関からの要請に基づいて提供したデータの実態、それからLINEの中における暗号化の状況を公開しています。

私たちは、ユーザーのみなさんのデータをお預かりしている立場として、このような実態を報告して透明性を高くしていくことを大事に考えています。これはまさにTransparency、そしてPrivacy Firstの活動の1つと言うことができます。

もう1つ、LINEは年に2回サミットを開催しています。春にセキュリティ、秋にプライバシーをテーマにしています。

ここではさまざまなテーマを取り扱っています。例えば、デジタルアイデンティティ、生体認証のプライバシー、AIスコアリングの人権の問題、デジタルフェイク技術。こういったテーマを、日本だけではなく世界の有識者の方を集めて、広く深くディスカッションしています。

このサミットの中でもLINEのセキュリティやプライバシーの活動の実態についても、ここのサミットの中で発表したり、また非常に深い議論をさせていただいています。これもTransparencyの活動の1つというふうに思います。

続いて、LINEはBug Bounty Programを2016年から運用しています。脆弱性の報告に対して報奨金を支払うというプログラムです。

今月の15日に「HackerOne」というグローバルプラットフォームに移行を完了しました。これによって、今までよりもより世界のトップハッカーの目にさらされ、LINEの脆弱性を見つけてもらう立場になっています。また、その脆弱性のレポートを基本的には公開していくスタンスで運用しています。これもまさにTransparencyの取り組みの1つと言えます。

ここまで、LINEのセキュリティ、それからプライバシーについて紹介をしてきました。いかがだったでしょうか? 私たちLINEは「Privacy First」というコンセプトの下、これからもより安全で明るい未来のサービスをみなさまと一緒に作り上げていきたいと思っています。

私の出番はここまでです。ありがとうございました。ではイビンさん、よろしくお願いします。

(会場拍手)

朴イビン氏:現在のITサービスは、国やプラットフォームの境界がなくなっています。シリコンバレーのテックジャイアントたちはグローバルプラットフォームをリードしながら、その差はどんどん大きくなっています。

それでも負けずに、LINEはアジアから出発したAIテックカンパニーとして、これからももっともっと進化し続けていきたいです。また、その技術や経験をすばらしいみなさんにも共有しながら、ともにおもしろい世界をつくっていきたいです。

そのため、今年、2日間でたくさんのセッションを準備しましたので、みなさん、楽しいお時間をお過ごしください。ありがとうございました。

(会場拍手)