“研究のための研究”ではなく、事業の延長線上にある課題を解決する　セキュリティ×機械学習の成果を事業に届けるMLプライバシーチーム

リンクをコピー

記事をブックマークブックマーク解除

画像・スライド一覧

LINEで働くエンジニアが、各職種別に日々の業務内容や開発体制、働く環境、今後の展望などについて話す「LINE 新卒採用技術職コース別説明会」。ここでMachine Learning Solution室の髙橋氏が登壇。ML Privacyチームについて話します。

髙橋氏の自己紹介

髙橋翼氏：プライバシーの職種は、先ほど説明のあったML Privacyチームというところのリサーチサイエンティストとリサーチエンジニアのポジションになります。

現状だと、Machine Learning Solution室という、菊地（菊地悠氏）がマネージしている室の中に1つのチームとして存在しています。他のMLの方々とは専門性とかロールが違うので選考の入り口も分かれているので、お気をつけください。

あともう1個注意点としては、プライバシーという職種ですが、あくまでデータサイエンスを前提とするプライバシーの話が主眼です。いわゆる暗号とかの専門をやりたい人にはちょっと合わないかもしれません。暗号や秘密計算を道具として使って、時にはデータサイエンスしたいみたいなモチベーションの人には、すごく合っているんじゃないのかなと思います。

まず自己紹介です。もうすぐ4年ですかね。4年くらい前にLINEに入って、リサーチサイエンティストをしています。また、プライバシーテックに関するR&Dチームのマネージャーをしています。これもテックパースにありますが、AIに対するストレステストみたいなのを開発しています。

前職はNECで、NECにいる間に社会人ドクターや海外留学を経験しました。これまでの代表的な研究成果として、プライバシー保護に関しては、VLDBやSIGMODに採択された論文、その他一般のデータマイニングに関してはWWW（現The Web Conference）に採択された論文があります。

リサーチサイエンティストとリサーチエンジニアの違い

ML Privacyチームでは、リサーチサイエンティスト、リサーチエンジニアという職がありますが、リサーチサイエンティストの人も、研究のための研究をするというよりは、事業の延長線上にある課題を先んじて解決することに興味を持ってもらえる方が合ってるのかなと思っています。基礎的な研究にも取り組みますが、あくまで最終的に事業につながるようなテーマであることが前提です。

リサーチエンジニアは、リサーチサイエンティストとマシンラーニングエンジニアなどの間をつなぐようなポジションです。この後の座談会で我々のチームからは長谷川（長谷川聡氏）が登壇しますけれども、長谷川はリサーチエンジニアのポジションとして活躍しています。

リサーチエンジニアの人は研究もある程度わかった上で、最先端の研究成果を世の中に届けるための開発に従事したい方に向いてるポジションなのかなと思います。

MLプライバシーチームが研究開発しているトピック

我々のチームが今研究開発しているトピックとしては、プライバシーテックのうち、Differential Privacyに注力しています。Federated Learningについても他のMLのチームと一緒に開発に携わっています。

最近はTEEや秘密計算などの技術を使ったセキュアなデータサイエンスの実現にも興味を持っています。現在取り組んでいるDifferential PrivacyやFederated Learningとこれらの組み合わせによってより安全でよりプライバシーに配慮したデータサイエンス、機械学習をLINEのプラットフォーム上で実現することを目指しています。

先ほど菊地の発表の中にもあったFederated Learningに関して、Federated Learningの基盤の中で、クライアントからモデルの更新情報を送信する時にDifferential Privacyを適用することにより、より厳密により強固にプライバシーを保護するための開発や設計を担当しています。

さらにもっとよくしていくために、独自のDifferential Privacyに関連する研究成果があります。それによると、より小さいノイズを入れることでプライバシー保護を達成する技術があります。より小さいノイズで強いプライバシーを達成できる。そういったことを実現し得ます。

Differential Privacyに関する研究では、より小さいノイズでプライバシー保護を達成する技術の実現を目指しています。関連する論文を国際会議やarXivで公開しています。実際に開発の現場で発見した課題に対して研究に取り組み、論文を出すこともあります。

研究の成果

研究の成果を一部紹介していきたいと思います。データ合成という技術に興味を持っていて、いくつか論文を発表しています。データ合成に関する成果は、ICDEやICLRという難関国際会議に論文が採択されています。

GANやVAEのようなデータ合成の技術が昨今流行っていると思いますが、Differential Privacyを前提とすると、うまく学習できない問題がありました。

この問題に対して、我々の提案手法ではこれまでの手法と比べてうまく学習できるようになりました。これができるとどういう良いことがあるかと言うと、セキュアにデータを分析したい、共有したい時に、プライバシー保護されたモデルを共有することで、プライバシーに配慮したかたちでデータサイエンスを気軽に実現できることが1つのメリットなのかなと思っています。

（スライドを示して）これまでのPublication Recordを挙げていますが、この青字で書いてあるところはトップカンファレンスに相当するもので、あまり大きいチームではありませんが、機械学習の分野であったり、データベースの分野で顕著な成果を上げることができていると感じています。これに関してはプレスリリースなども出しています。