4人のLINE AIイノベーターたち

栄藤稔氏(以下、栄藤):「LINEのAIが実現するイノベーション」というパネルディスカッションを今から行いたいと思います。私はモデレータを務める栄藤と申します。まず簡単にこの4人の自己紹介をしたいと思います。

まず私です。栄藤と申します。本業は大阪大学の教員をやっています。東京に住んでいて、時々大阪で講義をやったりしています。もともとは画像認識が専門で、最近は自然言語処理の産業応用、機械翻訳とかをやっていました。私は本当に、今研究と事業の境目がどんどんなくなってきているこの業界を、非常にワクワクして眺めています。今日のパネルディスカッションをぜひ楽しんでいただければと思います。では、次のパネリストにいきますね。戸上さんお願いします。

戸上真人氏(以下、戸上):みなさんこんにちは、戸上と申します。LINEのAI開発室の責任者、AI開発の責任者をしています。よろしくお願いいたします。私はメーカーの研究所で、音声認識や、音源分離といういろいろな人の声を混ざった声をそれぞれの人の声に分けて音声認識率を向上させるとか、そういったような研究開発をしてきまして、シリコンバレーに1、2年いたあと、2018年からLINEに入っています。

今はAI開発室という組織で、AIの研究開発から始まってソリューション開発、サービス開発まで一気通貫で行う部署、AI開発室の室長もしています。先ほどの音源分離という観点では最近、『Pythonで学ぶ音源分離』という本をインプレス社から出しました。

音声、画像、言語の研究開発をスピーディーに事業に結び付けていきたいなと思って、日々活動をしています。よろしくお願いいたします。

栄藤:次に、LINEのAIカンパニーのセキュリティのスペシャリストを紹介したいと思います。髙橋さん、お願いいたします。

髙橋翼氏(以下、髙橋):みなさんこんにちは。LINEの髙橋と申します。私は2年半前にLINEにジョインして、これまで主にDifferential Privacyや、Federated Learningといったマシンラーニング、データサイエンスにおけるプライバシーの研究を担当してきました。

先月の6月1日にAI開発室の中でTrustworthy AIチームというのが立ち上がり、そのマネージャーを担当することになりました。今日は、そのAIの信頼性に関してみなさんにお話ししていきたいと思います。よろしくお願いします。

栄藤:最後は佐藤さんですね。佐藤さんは先ほどKeynoteで紹介された、HyperCLOVAの日本側の開発責任者です。よろしくお願いします。

佐藤敏紀氏(以下、佐藤):よろしくお願いします。こんにちは佐藤敏紀です。LINEには佐藤さんが150人いるので、社内ではoverlastと呼ばれています。LINEで自然言語処理関連の技術に関わっています。HyperCLOVAのように、さまざまな産業から自然言語処理がすごく求められている時代なので、しっかりと産業応用に貢献していきたいと思います。よろしくお願いします。

長期的に重要になる「Dark Data」と「Trustworthy AI」

栄藤:では最初のトピックとして、LINEのAIがどういった技術でやっているかを、このスライドを見ながら紹介したいと思います。

2020年の11月に、LINE/NAVERによる2020年の7年間予測ということで、今後5年間どういう研究開発をすべきかというビジョンを策定しました。

ここにいる戸上さんと一緒に作ったわけですが、ここにある「Generative Intelligence」、生成するAI。「Digital Me」、個人のデジタル化。それから「Dark Data」と呼ばれているもの。それから「Trustworthy AI」、正しいAIですね、信用できるAI。こういった4つの分野を決めています。

今回の主なトピックは、このDark DataとTrustworthy AIの間に位置するもの。超巨大言語モデルで何が起きるかといったことを、実際にエンジニアの目線でお伝えしたいと思います。戸上さん、ここで何かコメントありますか?

戸上:今栄藤さんからあったように、この4つはこれからの研究開発で非常に重要な方向性なんじゃないかということで、2020年にいろいろ議論をして、この4つの方向性を考えました。その中でも特に今日紹介したいのがDark DataとTrustworthy AI。これはかなり長期的に重要になるトピックなんじゃないかなと考えています。

取られたままのデータを使ってモデルを学習できる「Dark Data」

それぞれ簡単にご説明したいと思いますが、まずはDark Dataです。ビッグデータという言葉が2010年頃に出てから、もうすでに10年以上経っているわけですが、まだまだすべてのデータを私たちは活用できていないと言われています。おおよそ10パーセントぐらいかなと思っていますが、では何ですべてのデータが使えないのかと考えてみると、それはいわゆるラベル付けにコストが非常にかかるところがあります。

例えば私がやっている音声認識で言うと、音声が入力されて、何かしらテキストが出力されるシステムの場合、こういった音声認識を学習しようと思うと、音声と対になるテキスト。その音声が何を話しているかの正解データを用意しなくではいけません。この正解データを用意するのに非常にコストがかかるので、データが取れても、すべてに対してデータを付けることは非常に難しくなります。データが増えてくれば増えてくるほど、このデータにラベルを付けるコストが非常に高くなります。

この流れが変わってきているのが、昨今だと私は思っていまして、それがここに書いてあるDark Dataです。つまりそういったラベルを付けることなく、取られたままのデータを使ってモデルを学習できる、といったことが見えつつあります。「教師なし学習」「自己教師あり学習」という技術用語として言われますが、こういった技術が今は非常に進化しています。これによって、ビッグデータを真に活かすようなことができる時代が来ていると思っています。

こういうふうにデータが増えると、私たちはモデルもどんどん大きいものを作れるようになっていきます。どんどんいろいろなことができる汎用的なモデルや、超大規模なモデルを開発することにつながり、それによってこれまでできなかった新しいことができるようになってくると思っています。

データの信頼性を担保する「Trustworthy AI」

こういったDark Dataに加えて、もう1つ重要な軸がTrustworthy AIだと思っています。こういった大規模モデルで作ったものの出力結果が、本当に公平な結果なのか、信頼できる結果なのか、そしてなんでこういう結果が出たのかという説明可能性ですね。こういったところをいかに担保するかということも、重要になると思っています。

私たちはDark DataのR&Dと、Trustworthy AIのR&Dの両方とも大事だと思っていまして、ここにかなり注力して研究をしていきたいと思っています。

栄藤:ということで、今日の話はDark DataとTrustworthy AIの話になります。これは「研究していますよ」や「開発していますよ」という話が、今日のメッセージじゃないんです。もうそこまで実用化が来ているのでぜひ考えてください、というのがこのパネルディスカッションのメッセージになります。

その文脈で戸上さんから、AI巨大言語モデルで起きるイノベーションの1つ目をまずお願いします。

「汎用的なAI」が真に実現できる時代が来る

戸上:AI、人工知能という言葉が出てきてから、おそらくみなさまが期待するのは、いろいろなことができるようなAIかなと思います。

ただやはり今までのAIは、どちらかというと「こういうタスクだったらできる」というかなり限定された人工知能が多かったと思います。それが超巨大モデル、大規模モデルが出てきてから変わることは、これまでどちらかというと空想だった「汎用的なAI」が、真に実現できる時代が来るということ。それが一番の変化なんじゃないのかなと思っています。

例えば質問応答や、業務報告書、診断書、契約書を作る。こういったことが非常に簡単な指示で、1つのモデルだけを使って実現できるような時代が来ると思っています。

栄藤:それでは佐藤さん。実際にどこまでできているのか、デモをお願いできますでしょうか?

HyperCLOVAを使って営業日報を生成

佐藤:これからお見せするデモは、HyperCLOVAを使った営業日報の生成デモです。その営業日報を生成する際に、HyperCLOVAの生の出力をお見せしますが、実際にお客さまに提供する際には、そのHyperCLOVAの出力をユーザーインターフェイスにはめることで、洗練されたアプリケーションが実現できます。

では実際に動画を見たほうが早いので、再生しましょう。こちらに表示されているのは一般的な営業日報、ペライチのPDFです。これを印刷して、紙に書くことで営業日報を付けた場合、内容や時間、訪問先の結果みたいなものをたくさん書くことになるわけです。

これをHyperCLOVAに使う時には、事前に自分の情報、名前や上司の名前、自分の役割みたいなものを書いたテキストを用意しておいて、それを貼る。そして次にスマートフォンなどで書いたメモの内容に対して、この内容の場合にはこのような日報を生成してほしいという“組み”を作ります。これを自分で作ったり、先輩のものをコピーしてきたりして、用意するわけです。

最後に出先に行ったあとに作ったメモをHyperCLOVAに貼って、生成ボタンを押すと、HyperCLOVAは数秒でそれに基づく営業日報を作ります。今回は1個目は失注してしまったよというメモなので、それがどんな感じに失注したのかが生成されていますが、内容を見て大丈夫だったらそれを採用する。ダメだったら直す。

受注した内容を貼って、またHyperCLOVAに対して、生成の命令を出します。そうするとHyperCLOVAは、それに基づく日報を生成します。この内容で大丈夫であれば採用すればいいし、ダメな部分は部分的に再生成することによって、すごく素早く自分がほしい日報に近付けていくことができ、それがポイントになります。

栄藤:少しツッコミを入れると、これは佐藤さんに私のほうから「こういうデモとしてLINEのAIを使うのなら、業務用の日報がいいんじゃない?」と実は先週言って、どうするんだとやっていったら、こんなふうにできちゃった、というのが本音です。

これは一本道でデモを作っているわけではなくて、私もいっぱい営業日報を見てきましたが、けっこうこれはいけそうだなと思っています。戸上さん、これはどれくらい効率が上がるでしょうかね。

営業日報の自動化でどれくらい効率が上がるのか

戸上:本当にテキストで事例を与えれば、それに沿って似たような日報を作ってくれるので、プログラミングもせずに、非常に簡単にできるようになります。こういった文章を乱雑にいろいろ書いたものであっても、それを整ったフォーマットに出力したいというニーズは、営業日報ももちろんそうですが、産業用途ではいろいろあると思っています。

例えばお客さんと会話した、コールセンターの会話の内容をある程度まとめたかたちで整理したいなど、そういったニーズに対して、かなり広く応えられるソリューションになると考えています。

栄藤:私はこれを見ていて、営業のレポートってけっこうマチマチで、営業所ごとに書き方も違うし、人によっては、うまくいった場合はびっしりと書いてくれるが失注した時はぜんぜん量を書いてくれないというのがけっこうあって。

こういったどんな文章やキーワードを入れても模範解答をとりあえず示してくれる。間違っているところはそこは直せばいいというインターフェイスを通じた産業文章の自動生成は、どんどん行けそうな気がします。佐藤さん、ご意見ありますか? 

佐藤:このような産業文章の応用に使ってもらうポイントは、まずその業界に入られたばかりの方は、このような文章を書く際に、上司が満足するような報告書を上げる際にとても苦労されると思うんです。

それが、先輩が書かれた文章にたどり着くためのスニペット、すごい短い文章みたいなものを自分で書くことができる。その組み合わせを作ることができるということさえできれば、入った初日、2日目、3日目ぐらいで、先輩と同等の報告書を上げることが普通にできるようになると思います。

これはたぶん、マネージャーのみなさんはすごく革命的な出来事なのだと思ってもらえると思うんです。また、配属されたばかりの方も仕事を早く覚えることができるので、これも業務の効率化につながると私たちは思っています。

栄藤:ですから、今みなさんがご覧になっているのは超巨大言語によって初めて出てきた、これは「プロンプティング」ですね。「プロンプティング」とは、コンピューターにどのような指示を与えるかをその各業務でちゃんと提携化できれば、その業務にあった文書が自動生成される、と。もちろんそれは人が介在していく創作物になるかと思います。おもしろいですね。

もう少しこの広がりを聞いてみたいのですが、戸上さんありますか? むちゃぶりしていますが(笑)。

小説を書くなどの創作活動にも応用可能

戸上:そうですね(笑)。今のこういう営業日報などの産業用途はもちろんありますし、あとは創作活動ですかね。文章で、例えば小説を書くなど、いろいろクリエイティブな活動にも、このHyperCLOVAの超巨大モデルが役に立つかなと思っています。

いろいろな文章を書いて、それそのものを使わなかったとしても、ヒントになるような文書を生成してくれるんじゃないかなと期待しています。

栄藤:これまで超巨大言語モデルというと、何でも受け答えするようなAIができるという期待もありますが、私たちがここで目にしているのは、人がうまく操る言葉の自動生成機というか、面倒くさいことはコンピューターがやってくれる、でもキーワードなど肝心な情報は人が指示するという、1つのパラダイムが出てきたと感じていて、すごくワクワクしています。

ではこの4人がなぜ集まっているかと言うと、このAIの良いところばかりじゃなくて、こういうふうに文章を自動生成するAIが、今後うまく制御できるのか、どういった技術が同時に必要だろうかということを話してみたいからです。ということで、パネルディスカッションのほうが進んでいきます。

戸上さん、なぜこういうAIの倫理性やセーフティなどって、最近言われるようになったんでしょうか。

いろいろなことができるからこそ、制御が利かない局面が出ないように

戸上:私たちも超巨大モデルということで、汎用的に、先ほど見せたような産業用文章の生成や対話など、いろいろなことができるようになり、いろいろなテキストを出せるようになってきています。

いろいろなことができるからこそ、制御が利かない局面が出ないように、きちんと対処することは、こういった巨大モデルを行う上では重要な要素になると思っています。

意図しないかたちで何かキーワードを入れて、意図しない悪い文章が出てきちゃう。そういったことをいかに防ぐかが重要になってくると思っています。そういった文脈で、こういったAIの倫理観というか信頼性をどう高めるか、安全性をどう高めるかが重要視されてきていると思っています。

栄藤:このあと髙橋さんにつなげたいんですが、その前に、佐藤さんから実際にHyperCLOVAで、GPT-3相当以上のものを作った時の感触はどうですか? どういったものが必要かなどがわかれば。

佐藤:そうですね。どのようなものが必要なのかということなのですが、このHyperCLOVAをみなさまが使うには、手元に自社のデータをきちんと揃えてもらう必要があります。

HyperCLOVA自体を作るために、たくさんのデータをLINEが取り扱って集めてはいますが、やはりそれをチューニングするために必要なのは先ほどお見せしたみたいな自社のデータ。営業日報だったり契約書だったり、そのような自社でどういうデータをどのように整頓していたかがとても大切になると思います。

栄藤:なるほど。さて先ほどのAIのセキュリティの話にもう1回戻ります。ここで満を持して髙橋さん、ぜひ持論をお聞きしたいのですが。お願いします。

まだ未知な部分が多いからこそ、“矛”と“盾”を用意する

髙橋:今日する話は、セキュリティと言うといろいろあるかと思いますが、AI特有のセキュリティの話。セーフティや信頼性の話をしたいと思っています。そういった話は、今までそこまで注目されては来なかったと思いますが、逆に言うとそれを考えなければいけないほど、AIが進化してきた。信頼して使いたいという必要性があるので、考える必要がある。ですので、近年そういうものが話題になってきている、そう私は捉えています。

特に超巨大言語モデルのようなものであると、まさしく新しい情報インフラの1つと捉えることもできますし、そういったものを私たちは多くのユーザーが使っていくことを考えて、日常使いに耐え得るような信頼性もAIが備える必要が出てくるのかなと思っています。

このスライドには3つ、プライバシー、セーフティ、倫理観というものを挙げていますが、そこに挙げている以外にも、公平性だったり、いろいろな観点があるかと思います。

そういった、一つひとついろいろな問題があるのですが、それぞれAIがどの問題に対してどのようなリスクを持っていて、それがどのように解決していくべきなのか。そういったことがまだまだ議論が足りていないと思うので、どんどんしていく必要はあるのかなと思っていますし、そういった事態を防ぐためにも矛と盾ではないですが、その検知のためにどういう事象があるかわからないので、たくさん攻撃をしていく。その攻撃を受けて盾を強くしていく。それによって防御が強くなる。

今度は強くなった盾に対してまたたくさんの攻撃、というかリスク評価、テストをして、AIを強くしていく。そういった新しいかたちの敵対的な環境におけるAIの開発やパラダイムも、今後考えていくべきだと思いますし、テストを十分にしていくということを考えていく。重要なことは、AIを見守っていく必要があって、改善を続けていく必要があるのかなと思います。

人間と違って、放っておいてもやっちゃいけないことを学んでいくわけではないので、AIに対しては、プロアクティブに攻撃をしていく。テストをしていく、ハードニングをしていく、そういったことを通して、信頼できるような挙動ができるようにAIを鍛えていく。そういったことをしていく必要があるのかなと思っています。

栄藤:なんとおもしろいことに、超巨大言語モデルでいろいろな文章を生成する、と。それを安心・安全にセーフティに出していくためにどうするかということで、戸上さんの下でいろいろみんな悩んで決めた結論が、社内に攻撃チームと防御チームを作って、お互いに競わせるということをやるということなんですね。

髙橋さんがいわゆる攻撃チームの赤チームで、佐藤さんが防御チームの青チームということになっています。こういったかたちで、セキュリティを担保していくということをやっているということですね。戸上さん、何か誇らしげに一言何かないですか?

戸上:そうですね(笑)。今あったように矛と盾。この2つが重要だと私たちは思っています。特に、時代が変わるに連れてやはりどういうものが社会的に受け入れられるのかも変わってくると思っています。なので、こういった矛と盾をある特定のタイミングで鍛えるだけじゃなく、時代の変化とともに変わってくるところに、うまく追従することは非常に重要だなと思っています。

ということで、私たちは矛と盾のたゆまぬ鍛錬をしていくことが必要だと思っていまして、継続的に、この2つのチームを運営していきたいと思っています。

AIの民主化

栄藤:セキュリティの次の話は、この超巨大言語モデルをLINEだけで開発するのはやはり難しい。つまり、汎用的なAIを手に入れたからこそ、逆にドメインの各社と組まないとやっていけない時代に来たと思います。そこでぜひ、戸上さんにご意見をおうかがいしたいと思っています。

戸上:先ほどデモでご覧いただいたとおり、営業日報を作るところもかなり簡単に作れるようになってきたのは、1つのちょっと革命かなと思っています。

通常だと、例えばああいう営業日報を出すようなシステムを作ろうと思ったら、今まではかなりの専門家がチューニング、コーディングをしてプログラムを作り上げていく必要があったのですが、巨大言語モデルを使うと、どういう入力があったらどういう出力が出てほしいかの事例を人間の言葉で書けば、AIがそれを理解してタスクを実行してくれるようになりました。

まず、アプリケーションの開発スキームが格段に簡単になる、変化すると思っています。こうなると、私たちと組んでいるパートナーから、いろいろ事例やアイデアをもとに一緒に作って、また持っているデータも参照しながら、先ほどのプロンプトを設計して、それだけで簡単に実証検証まで持っていけると考えています。

私たちは、こういったことを「AIの民主化」と呼んでいて、アイデアの時代が来たんじゃないかなと思っています。いろいろなアイデアをいろいろなパートナーと議論をして作り、それを簡単に実証検証をして広げていく世界が到来するんじゃないかなと、期待しています。

栄藤:おもしろいですよね。汎用AIモデルがLINEで提供できる、と。しかしそれを実際の産業に応用するには、そのAIの民主化というキーワードを通して、みなさんの参加が重要になってくるわけです。

これまでのAIのように「なんでも答えてくれる」「Q&Aは任せておきなさい」というより、今日みなさんが目の前にしたのは、超巨大言語モデルというのがうまく乗りこなせれば、私たちの言葉では「プロンプティング」や「プロンプトエンジニアリング」という言葉になりますが、その言葉のもとでうまく乗りこなせれば、うまく産業応用ができていくということを示せたと思っています。

「AIの共創」が「これからの当たり前」

では最後に、みんなで「これからの当たり前」というのを議論したいのですが、今の議論を通して佐藤さん、どう思われましたか?

佐藤:これからの当たり前ということなのですが、このような巨大な汎用言語モデルがすぐに作れる・使える時代が来てしまった、ということが今まさに起きています。みなさまの元に、人間がしゃべっているのか機械がしゃべっているのか、よくわからないようなテキストが直接届く時代が来ています。こうなってくるとすごく重要なのは、その内容をどうするかです。

実は今までお話した内容は、AIの民主化によってAIを誰でも使えるようになった際の話だったのですが、誰でもアイデアを考えられることが民主化で、その内容をいじくるためには、それを本当にお客さまに届けるためには、実は専門家の力が必要になる時代が来ています。なので、これから先の当たり前は、専門家の力をしっかり借りなきゃいけない時代が当たり前だと私は思っています。

栄藤:ちょっと惚れ直しましたね。なかなか良い感じですね。それしか言いようがないんですけど(笑)。専門家がかえって必要になると。いわゆる民主化というのはいろいろなアイデアがそのままかたちになることだと。胸に染み入りました。それでは髙橋さんどうですか?

髙橋:高い信頼性を求められるものに、自動車があると思いますが、自動車を開発する時には安全性のテストだったり、そういった、いろいろなテストを経て、自動車がリリースされています。AIも同じように、私たちの日常に入っていくためには、たくさんのいろいろな観点でのテストを経て、リリースされるべきなのかなと思っています。

これまでだと、やはりどうしても性能テスト、特にどれだけ正解に近い振る舞いができるのかなど、そういうことばかりをテストしていたと思いますが、多様な観点でみなさまといろいろな考えを出し合いながら、AIの十分なテストとは何なのか、そういうことを議論していくこと、さらにそれを実現していくこと、当たり前にすることが、重要と思っています。

栄藤:セキュリティはやはり矛と盾が2ついるということでしたが、ついにAIも矛と盾を同時にやらないとダメになったというのを実感していて、髙橋さん、そこはいかがですか?

髙橋:まさにそうかなと思います。やはり実社会は何が起きるかわからないところも、ある意味敵対的な環境なのかなと。子どもにいじられるかもしれないし、変なことを入力されるかもしれないし。そういったことに頑健になるということも、先ほど自動車の例を出しましたが、同じように求められていくのかなと思います。

栄藤:常にAIのセキュリティと倫理を追い続けることをたぶんコミットしたんだと思って、聞いていました。戸上さんお願いします。

戸上:今日、超巨大言語モデルを中心にお伝えしましたが、言語だけじゃなく、音声や画像など、こういったモデルを広げていきたいと思っています。それぞれのモダリティだけじゃなく、その音声と画像を組み合わせたり。画像とテキストを組み合わせたモデル。こういったものも発展していくと思っています。

私たちのHyperCLOVAという言葉は、単にモデルを指すだけじゃなく、そういった超巨大モデルを生み出すために必要なデータやスーパーコンピューティングインフラ、そしてAIの専門家、このモデルを作ったりソリューションを作ったりする専門家、こういったところが、非常に重要になってくると思っています。

こういったHyperCLOVAの環境を通して、お客さまとともに共創をして、新たなソリューション、サービスを生み出していきたいなと思っています。そういった環境が、これから当たり前になってくると思っています。

栄藤:最後に、きれいな言葉でまとめると、やはりAIの産業応用を考えた時に、受け取る果実が多ければ多いほど良いということで、超巨大産業、IT産業が超巨大モデルを使って、1社だけで解決しようとしてサービスを行うのが今まででした。しかし今は、その汎用モデルといろいろな産業ドメインの他の会社が参加して、その応用を考えていくところに来たんだと思っています。

汎用モデルは、そうやってエコシステムを変えていくんじゃないかと思っています。私の言葉としては、これからの当たり前は「AIの共創」、英語で言うと「Co-Creation of AI」なのではないか、ということで締めたいと思います。ありがとうございました。