AIは単なるプログラム、恐るるに足らずーービジネスパーソンでも理解できる機械学習・ディープラーニング基礎の基礎

製造業の集まる日本橋で作る、イノベーションのエコシステム

本荘修二氏（以下、本荘）：私はこの3年ほど、厚労省の医療系ベンチャー推進会議の座長をやっています。その前身が、当時の塩崎大臣の私的懇談会で、厚労省は本格的なベンチャー策をやっていなかった。日本はどのようにするのか、それを今やっているところで、その一つにジャパンヘルスケアベンチャーサミットがあります。

これは毎年10月に横浜で行われているもので、昨年はAI×ライフサイエンスをテーマにやって、非常に成功した。そのときに山田さんに登壇してもらい、いろいろとお話を伺いました。

そこで、「これを年1回のイベントで終わらせるのはもったいない、シリーズ化してしまおう」と曽山さんにおっしゃっていただきました。このイベントはLINK-Jを母体に開催しており、今回が3回目になります。

曽山明彦氏（以下、曽山）：LINK-Jは今から3年ほど前にできた一般社団法人です。日本橋にはこの建物を含めて8箇所の拠点があり、ライフサイエンス系のイベントが450回ほど行われています。

日本橋は昔から製薬会社がたくさん集まっている町ということもあり、ライフサイエンスにおけるイノベーションを起こす舞台やエコシステムを、幅広く作っていこうとしています。

L×T bridgeは、ライフサイエンスとテクノロジーの掛け算です。お互いに知っているところ、強いところを持っている人たちが結びついて交流するのが大事ですね。9月の第4回目は、医療機器やバイオデザインで有名なスタンフォード大学の池野文昭先生と行く「秋葉原ディープテックツアー」を企画していますので、よろしければホームページを見ていただければと思います。

ライフ系ビジネスパーソンでも理解できるAI・ディープラーニング

山田泰永氏（以下、山田）：NVIDIAから来ました山田です。今日は研究者や開発者ではないビジネスパーソン、マネジメントの方に向けたお話をします。AIやディープラーニングの大体のところを理解して、かつライフの領域でどう使えそうか、というイメージをなんとなく持っていただければ嬉しいです。

この中で「AIを自分で開発している」というレベルの方がいらっしゃったら、挙手をしていただけますか。

（会場挙手）

一部いらっしゃるようなので、その方にとっては「簡単すぎる」「違う」ということもあるかもしれません。基本的には、AIの開発者ではない方にAIを使った戦略や、AIってこんなふうに使えるんじゃないかというイメージを持っていただけるようなお話にしたいと思っています。

よく「我が社も流行りのAIを使って何かかっこいいことはできないのか」といったことを言う経営者の方のお話を聞きますが、今日はそのレベルからもう少し踏み込んでお話しします。

「我が社がやっているこの事業のこの部分に関しては、こういうAIの手法が使える」、さらに「なぜならこういう部分はAIが非常に得意で、例えば画像の分類やこういうタスクに落とし込めますよね」と。それに加えて「類似性があるこういった分野で、こんなAI技術を使ってうまくいっている事例があります」、ならば「我が社もこれでいけるんじゃないでしょうか」と言えるようになるまでいきたいと思います。

さらに言うと、「具体的にこういう技術手法で、それなら自分でできそうなので開発しちゃいます」というところまでいけるとすごいと思いますが、それは次のステップだと思います。

NVIDIAという会社はGPUという、たくさんのデータに対して大量の計算をするためのコンピューターを作っている会社です。AI業界では、ほぼ業界標準のようなかたちで使っていただいています。

実はライフサイエンス領域もAI研究のバックグラウンドもなかった

山田：私にはライフサイエンスのバックグラウンドはありません。それどころか、AIの研究や開発をしていたバックグラウンドもありません。そういう意味ではみなさんとまったく同じです。逆に、そういう人がどうやってライフサイエンス分野を理解していったのか、といったところが少しは参考になるかなと思っています。

また、ヘルスケアの分野の事業推進やAIのスタートアップ企業を支援して連携していくこともやっています。

社内では、社内にも社外にも情報が大量にある時に、キュレーションをして情報を結び付けたり、人と人とを結び付けたりするようなことをしています。自分自身が「Learning Machine」である、と標榜をしております。どんどん新しいことを学習していきましょうということをモットーにしています。

私がライフの分野でどんなことをしているかというと、医療機器のメーカーさんや、医療画像のアカデミアの先生方の学会などとお付き合いをしていたり、ゲノム関係……これも大量に計算が必要なので、こういったところとお話をしていたり。あとはライフサイエンス系の計測機器メーカーさんや製薬会社さんとも、何かしらのお仕事をさせていただいています。

それから、もう少し軽いデジタルライフやデジタルヘルス、ケアといった領域にもちょっと関わっていたりします。本当に幅広く、浅くいろいろな方々とお付き合いをさせていただいています。

ヘルスエア分野のAIでまず騒がれている分野は、医療画像領域での診断だと思います。ですが重要なのは診断だけではなく、診断後の治療も重要です。ロボットはわかりやすい例ですが、ロボットに限らず治療の大切なモダリティーは医薬品で、創薬の部分を少しでも効率化できないかということも当然あるでしょうし、ケアの部分もあります。

そもそも病気にならないための未病、先制医療、介入といったところも、AI解析が今後必要になってくる大事な分野です。さらに、どんな病気になりそうか、病気になった後はどんな治療がいいか、どんなケアをしたらいいかまですべて関わるのはゲノムです。

AIのスタートアップ企業とはたくさん付き合っており、ミートアップのイベントなどもやっています。ヘルスケア、ライフ以外の分野でもいろいろな業種のいろいろなところにAI、特にディープラーニングを適用するということで、こんな話を日々しております。

AI、恐るるに足らず

山田：そもそもAIって何でしょうか。人によって、先生方によっても定義がさまざまです。ディープラーニングで今一番有名な東京大学の松尾豊先生は「人工的に作られた、人間のような知能ないしはそれを作る技術」と言われています。知能に対する考え方やイメージはさまざまですが、私が個人的に取っている立場は「知的な判断などのふるまいを模倣したプログラム」だけです。

ということで、“AI恐れるに足らず”です。「知的な判断などのふるまいを模倣したプログラム」なら、何でもAIだと言えなくはないと言えます。

必ずしもディープラーニングのような高度なAIが必要かというと、必要のない分野も多い。コンサルティング的なことをすると、「それはAIの前の問題で、業務のプロセスを改善する方が先じゃないですか」とか、「簡単なルールベースのプログラムを作れば、とりあえずは効率が良くなりますよ」といった話もよくあるので。何から何まで高度なAIがいいかというと、そんなことはないと思っています。

AIは知的な判断のふるまいを模倣したプログラム。単なるプログラムです。ちょっと気の利いた、今までの通り一辺倒のことしかできなかったものに比べて、ある程度入ってくるデータに合わせて動きが変えられたり、アウトプットが変えられたり、その程度のプログラムということで、恐れるに足らずということですね。

当分はその程度のことしかできないでしょう。5年、10年、もしかしたら30年後には変わるかもしれませんが、今はこの程度のことしかできない。ただ、うまくはまれば有効なので、それをうまく産業にはめて使っていくという立場を取っています。

ディープラーニングは機械学習の一つの手法

山田：機械学習というものがAIの中の一つの手法としてあります。さらにその中の一手法にすぎないのがディープラーニングという手法です。

では、そもそも機械学習って何なのか。機械学習というのは、一定量のデータの固まりを入力として解析を行います。一定量のデータの中を解析することによって、その中に共通する特徴や共通するパターン、分類するに当たって注目すべき特徴といったものを抽出します。

その抽出できたルールなりアルゴリズムなりを使って、今度は新たに入ってきたデータに対して知的な決定を行うのが機械学習というプログラムです。つまり、事前にたくさんのデータを使ってそこからパターンをあぶり出します。そのあぶり出されたパターンを使って、新しく入ってきたものを判断して有効に使うということですね。

ディープラーニングは機械学習の中の一つの手法ですが、非常に応用分野が広く、汎用的ということで、いろいろなところに応用が広がっています。ディープラーニングの特徴や本質として、自動で最適な特徴や表現抽出が可能だとよくいわれています。

言い換えると、これまで事前に抽出することが不可能だったデータの中に潜む、本質といったものを発見できる、その可能性があると言い換えられると思います。

ディープラーニングには必ず学習→推論のステップがある

山田：繰り返しになりますが、「事前にルールを決めて分類しなさい」、「こういうものを抽出しなさい」、「ここに注目しなさい」という決め打ちの処理ではないです。

「何があるかわからないけれど、たくさんデータを解析したら分類できるかもね」とか、「何ができるかわからないけれど、たくさんデータを解析したら有用な特徴が出てくるかもしれない」というようなデータドリブン、データ駆動型……かつ、後ろ向きに修正していくからバックプロパゲーション型（誤差逆伝播法）のプログラミングモデルやエンジニアモデルと私は呼んでいますが、こういったところにどんどんパラダイムが変わってくるということを言っております。

よくある、ネコかネコ以外かを判断をする画像の場合、ディープラーニングが出てくる前から、画像を認識して分類する手法は20年、30年前からありました。そのときは、決め打ちの特徴抽出をしていました。

あらかじめ特徴を抽出するために「ここに注目してください」と決め打ちでやって分類していたのに対して、ディープラーニングは「事前にこういうところを抽出しなさい」ではなくて、データをたくさん解析することによって後天的に「こういうところに注目すればいいんだ」、「こういう部分に注目して分類すればいいんだ」ということを導き出すのが大きな違いです。

そこで使うのはニューラルネットワークです。「ニューロンみたいなものが多くある」という表現はミスリーディングな気がして、私はあまり好きではないので今日のところはあまり考えなくていいです。

ただし、大事なのは、さきほど「機械学習って何か」というところで言っていたように、まず一定量のデータの固まりを解析した結果、有効な特徴なりルールなりを抽出すると言っていた部分が、学習やトレーニングと言われているものです。ここで、分類するにあたっての有用な特徴を抽出します。そこで習得された、編み出された特徴を特徴抽出の重みといっていますが、それを使って新たに入ってきた新規のデータを分類します。

機械学習、特にディープラーニングには必ず、この学習あるいはトレーニングと言われているフェーズと、そこで導き出されたものを使って新たに実際に新規のデータを分類する……これは推論と言われていますが、その2つのステップがあることを認識していただくといいと思います。

機械学習の仕組みを解説

山田：では、実際にどうやって学習するのか。たくさんのデータを学習していきますが、まずはどういう重みをつけ、実際にどんなフィルターをかけていくかという「フィルターの重み」が、ランダム値で学習をスタートします。つまり、ランダムなものでフィルターをかけていく。

人間的な感覚でいうと、当てずっぽうですよね。最初は当てずっぽうで適当な値で処理していきます。最初は盛大に間違えます。エラー率が非常に高いです。そのエラーした分を徐々に修正して、良くなっていく方向に当たりを変え、重みを変えていくということをどんどん繰り返していくのがディープラーニングの学習です。

具体的にやっているのは、単純な最適化です。エラー率を設定できれば、微分可能になります。微分は接線の傾きです。関数の接線の傾きがわかれば、どちらの向きに重みを動かすとより最適値に近づくかがわかるわけです。ただ、ここでわかるのは向きだけです。どれくらい動かしたらいいのかはわからないのですが、どの向きが最適に近くなるかだけはわかります。

例えば、数を増やす方向、右方向に行った方が最適値に近くなるということで、少しずつこれをずらしていきます。これだったら数を減らした方が最適値に近づくだろうということがわかるので、これを減らしていきます。徐々にずらしていって最適値に近づけていくのが、ディープラーニングの学習の数学的意味合いになっています。

ちなみに、どれくらいの量動かせばいいかは事前には誰にもわからないので、難しいです。詳しい方だったらご存じかもしれませんが、学習率といわれているところです。どれくらいの勢いで動かしていくか。ダイナミックに動かすと序盤の方は一気に最適値に近づく可能性がありますが、一方で動かし過ぎて最適値を大きく行き過ぎたりすることがあるので、学習率はすごく大事だったりします。

CNNとRNNの違いとは

山田：大きく分けてCNN……畳み込みニューラルネットワークといわれている系統と、RNN……リカレント・ニューラル・ネットワークの系統があります。CNNは基本的に画像に適応するので非常に有名です。画像ではいろいろなブレークスルーが起きています。RNNというのは、画像ではない時系列や系列のデータです。

例えば自然言語処理をするもの、言語あるいはゲノムの配列、シーケンスの配列やアミノ酸といったものです。画像ではない系列データに適応するのがRNNになります。

ディープラーニングの画像分類に関してはCNNで、畳み込みニューラルネットワークと言われています。画像の1画素1画素に対してフィルター計算していって、特徴マップを出し、それを元に分類することをやっています。ただ、従来はこのフィルターの値は決め打ちだったんです。すべて画素に対してどういう計算をするかという重みづけは決め打ちでした。

一方、ディープラーニングで畳み込みニューラルネットワークは何をやっているのか。「畳み込み」というと難しそうに見えますが、実際にやっていることはフィルターです。1画素に対してフィルターをかけているだけです。畳み込みニューラルネットワークとは言わず、フィルター・ニューラルネットワークでいいと思っているくらいです。

フィルターなので1画素1画素に対して、周辺の画素とどれくらいの重みで掛け算するかといったことをやっています。これをスライドしながら、1画素1画素に当てて計算していきます。フィルターの計算をやっていくとフィルターを通した後の画像ができるということで、それを特徴マップといっています。

よくある練習問題で、手書きのアルファベットや数字をちゃんと分類できるかというものがあります。さきほど出てきたように、1画素1画素にフィルターを当てて計算をしていきます。それを今度はプーリングという処理をやりますが、これは要するに圧縮ですね。周辺の画素を、一番代表的な値や平均値に圧縮する。画像を小さく縮小します。つまりフィルターをかけて画像を縮小するということしか、実はやっていません。

ある程度縮小されて分類しやすくなったところで、0か1か2か3か4か、ABCのどれかという分類機にかけているだけなんですね。だから、まさに恐れるに足らず。フィルターをかけて圧縮しかしていない。ただし、そのフィルターというものが、たくさんのデータを学習させて、それを分類するのに最適なものに後天的に決まっていく、集約され収斂されていくというのがポイントです。つまりこれは、決め打ちじゃないというのがポイントです。

例えばアルファベットのABCを分類するには、ネコかイヌかウマかを分類するときと、医療画像で「がんである」か「がんでない」かを分類するときと同じように、決め打ちでいいかというと、当然同じ決め打ちでやると相当成績が悪くなります。

そのときに分類する画像をたくさん学習させると、ABCを分類するにはそのときに適したフィルターの値が習得されますし、ウマかイヌかネコかだったら動物を分類するのに最適なものに集約されますし、医療画像でやれば最適なものに収斂されていく。これが非常に大きなポイントです。

自分の手元でも再現できるディープラーニング

山田：このCNNの系統として、よくある3種類についてだけお話ししたいと思います。

一番スタンダードなのは「画像分類」です。これは画像の中に写っている物体が何なのかを分類します。つまり、ちゃんと物が写っていることが前提になります。一つだけものが写っているのが基本的には前提になる。

さきほど出てきたような手描きの数字やイヌ、ネコというのは、よく練習問題であります。ただ、これだと練習問題にしかならないので、実際に産業応用をする場合にどんなものがあるかというと、例えば良品・不良品の分類ですよね。こういうものがうまくできると、製品の製造ラインの外観検査に適用できたりします。これはいろいろな会社でPoCをやっていたりします。

一方でヘルスの分野、医療画像であれば、例えば臓器の画像に関して腫瘍ありと腫瘍なしの分類だけでなく、もう少し踏み込んで、細胞なりの形態によって分類してみることもいろいろやられています。

例えば血球……特に白血球を分類すれば血液検査系に応用できますし、細胞の培養も再生医療に向けて非常に大事になってきます。細胞の培養にも使えますし、例えば製薬会社さんでのハイコンテントスクリーニングのような、実際に生きている細胞を使って薬剤への感受性なり何なりを見ようというとき、細胞の変形具合といったところにも当然使えるでしょう。ここはたくさんの人手がかかっている部分だと思います。もしかすると、細胞の形状やリキッドバイオプシー（血液や尿などを利用して主にがん診断に役立つ技術）系などもあり得ます。

画像分類ですが、ImageNetというものが世界の業界標準のデータセットになっています。これは数百万枚から1,000万枚を超えるぐらいのものすごい大量の画像が、動物だったり車だったり何だったりに分類されて、ちゃんとタグが付いているようなデータセットです。これを使って、まずは練習問題をされるケースが多いです。

有名なネットワークの形……これはモデルと言っていますが、画像を分類する既存の業界スタンダードなものとして、例えばVGG（ImageNetコンペティションで優勝したオックスフォード大学のVisual Geometry Groupが開発したネットワーク）やInception、ResNet、MobileNetがあります。こういった業界で標準になって今まで積み重ねられてきているものが、ディープラーニングの世界では当たり前にオープンソースとしてみなさんに公開されています。これをきちんとした環境に落としてきさえすれば、「このデータセットで95パーセントや96パーセントの性能を出した」という論文になっているようなものが、誰でも自分の手元に再現できるというのがディープラーニングの世界です。

さらに「転移学習」という言葉を聞いたことがある方がいるかもしれません。医療に特化したものではない自然画像のデータで学習したものであっても、それを使って数百枚だけ医療画像を学習させたりすると、けっこう良い結果や成績が出せるものがあります。

自動運転の基礎となる技術

山田：次に物体検出で、これも同じ画像系です。先ほどは画像の中に物体があるのが前提で、それが何かということだけでしたが、これは画像の中に物体があるかないかもわからない条件で。ただ、ある場合には物体を検出して、その物体が何なのかを分類しようというものです。つまり2段階になります。

画像の中の物体らしきものの候補を検出するのが第1段階。さらにそこで検出した物体らしきものが本当に物体なのか、本当に物体だとしたら何に当たるのかというあたりを決定していく、2段構えになっています。ということで、これはものすごく幅広い応用分野があります。

一番わかりやすいのは、写っているものから車や歩行者、障害物、標識などを認識することで、自動運転の基礎中の基礎になります。あるいは自立移動するとき、ロボットも障害物や人をちゃんとよけないといけないので、これも基礎中の基礎になりますね。

一方で不審者や病害虫など、監視カメラや警備の方向にも使えます。これも医療の分野ですと、例えばX線画像から結節や腫瘍を検出するところも当然使っている例がたくさんあります。内視鏡で使うとリアルタイムで検査をしながら、ポリープや腫瘍を発見したら、アラームやアラートを出すことができます。

これも業界標準になっている手法は何年か積み重ねられてきたものがありますので、すべて公開されています。こういったものを使って自分たちの会社や業界で使うような画像のデータに適用するということで、けっこうできてしまうこともあるんじゃないかと思います。

物体検出、例えば家の中で物体検出すると人、椅子やテレビなども検出できます。まったく同じようなアルゴリズムで学習するデータを変えてこういうことをやると、車、二輪車、歩行者、標識といったものが出せるようになります。改めてこれは自動運転の基本中の基本です。

さきほど申し上げたように、内視鏡でリアルタイムに（診断支援する）ということは、もうベンチャーで研究されています。スタートアップですね。私がパートナーシップを持たせていただいているAIメディカルサービスという会社です。これは胃の内視鏡の検査中のリアルタイムの画像から、「ポリープの可能性が高いですよ」、「胃がんの可能性が高いですよ」といったことを検出してドクターをサポートしていきます。

物体の領域を分けるセグメンテーション手法

山田：次にセグメンテーションという手法です。これも画像の手法ですが、これは画像の中で物の境界線を認識して、物体の領域を分けることを基本的にやっています。これも当然幅広いですが、よくあるのは前処理としてこれを使う。

というのは、画像の中には自分が今注目している部分も、いらない部分も入っていたりします。この切り分けができると、自分が今使いたいところだけ切り出せるので、そこがいろいろな分野で大事です。

例えば、医療だと医療画像系の中から自分が注目している臓器や器官だけを切り出して、そのサイズや体積を推定することによって、病態や病状の推定に使うことはよくあると思います。また、例えば病理であれば細胞が密集しているところから、変化していて腫瘍の可能性が高そうな領域を、切り分けることにも使われたりします。

細胞培養や細胞の観察であれば、たくさんある細胞の中から細胞を一個一個、個体に切り分けることもあります。顕微鏡やいろいろな測定データで領域を切り分けるのも当然あります。脈々と積み重ねられてきたスタンダードがありますので、こんなところをうまく使えればけっこう簡単にできちゃうことはあります。

セグメンテーションの例として、NVIDIAがやっているのはCTやMRの画像で、前立腺などの特定の臓器部分だけを切り出している例ですね。それから細胞一個一個を個別に区分けしてセグメンテーションしている例です。

ここからは事例をたくさん出していきます。例えば、さきほど言ったような白血球の形状の分類がちゃんとできると、白血病の早期の変質だったり、白血病のタイプだったり、そんなところまで研究レベルでは使われ始めています。血液検査装置に入っていったりすると、普通の血液検査をしているだけで、稀にある早期の血液疾患を早めにスクリーニングすることができるようになる、そんなことがもしかしたら訪れるかもしれません。

細胞培養について、さきほどのセグメンテーションを使っていますが、iPS細胞を自動培養する装置でも活用されています。培養していく中で不純物が入ったり、分化した細胞が出てきしまったり、そういった領域をディープラーニングで認識して、そこにピンポイントでレーザーを当てていらない部分を処理することをやっている中にも使われています。

次に日本のJST（国立研究開発法人科学技術振興機構）のプロジェクトでやられているものです。これも細胞一個一個の画像をディープラーニングで判断して分類をして、有用な細胞だけをマイクロ流路の中で分取していくことにも使われています。例えば再生医療で目的とする細胞だけをより分けて移植することにも使えるでしょうし、リキッドバイオプシーで血液の中を循環しているがん細胞だけをつかまえてがんを診断するものにも応用できるかもしれません。

スポーツやエンタメ系にも技術は応用可能

山田：次に、医療画像と細胞画像ではなくて、もう少し軽いヘルスケアに使えそうなところです。今、骨格姿勢推定というものが技術として流行ってきています。これもディープラーニングの画像系を使って、姿勢、骨格の動きを推定するものです。

スポーツやエンタメやいろいろなところに可能性があると思いますが、当然ヘルスケアの領域にも活用が始まっています。おもしろいのが、Acculus（アキュラス）という私がお付き合いしているAIスタートアップの会社で、この骨格姿勢推定を使ってプロの理学療法士さんと連携して、子どもの姿勢を矯正する、小さいうちからいい姿勢を学ばせるというゲームを作られています。

子どもが楽しみながらきれいな姿勢を学べるようにしているということで、これは非常に面白い。別に子どもだけじゃないので、高齢者の方の腰の曲がり具合や身体症状の進行具合の推定にも使えるかもしれませんし、姿勢を見ていくと重要な病気が早い段階から隠れていたということが、もしかしたら今後出てくるかもしれない。

骨格姿勢推定を使って、KDDIさんがパーソナルAIトレーナーをされています。この骨格姿勢推定を使ってフィットネスのコーチをすると、体や関節の曲がり具合がわかるので、もう少し深く曲げようとか、1回、2回カウントするなど、そんなものができてしまう。

今後5Gが出てきますので、それも使って、家にいながら高度なことをやろうというようなことでいろいろ出てくると思います。

白黒写真をカラーに変える仕掛けは、バーチャル染色という技術へ

山田：画像の分類や検出を紹介してきましたが、実はディープラーニングが得意なのはそれだけじゃなく、画像から画像への変換も、ものすごく得意です。よくあるものとしては、白黒画像からカラー画像に変換するというのが話題になったりしています。

これは何をやっているかというと、もともとカラーの画像をたくさん持ってきて、それをグレースケールに変換している。そこから元のカラーを復元する場合、さきほど言っていったような最適化でエラーが少なくなるところに合わせてやっていくと、結局きれいにカラー化できる仕掛けです。

同じようなものを使って、顕微鏡画像で蛍光していない、染色してないものと染色した後の組み合わせがたくさんあれば、それを学習していくことで、今度は今見ている画像に対して、「この状態から染色したらこうなる」というバーチャル染色も理論上は可能になります。

この画像変換は非常に得意分野なので、ここら辺もモダリティー間変換、画像間変換など、いろいろな使い手があるんじゃないかと思います。

また、キヤノンメディカルさんではCTの三次元再構成に適用されています。これは計算に非常に時間がかかりますし、線量を上げればノイズが減りますがその分当然被曝量が増えます。ここでは事前に低線量のノイズの多い画像と高線量できれいな画像のセットをディープラーニングで学習しておき、それを汚い状態からきれいな状態を推定グする形で適用します。

同様に例えば画像変換できると、事前に高いセンサーで採ったデータと安いセンサーで採ったデータをたくさんセットに学習しておけば、安いセンサーでも高いセンサーと近似できる、というような使い方があると思います。別に高いセンサーを安いセンサーで近似するだけではなくて、より侵襲性が高くて採りにくいセンシングを、より侵襲性が低くて採りやすいセンシングで代替することにも使えるんじゃないかと思います。

我々NVIDIAでは、画像からノイズを削減すNoise-to-noiseという新しい手法を出しています。これがおもしろくて、例えば電子顕微鏡に使うと、今までノイズだらけで見えていなかったものから何となく何かが見えてくる、そんなことに使えます。

例えば画像の世界は常にノイズとの戦いなので、シャッタースピードがとれない、光の量がとれない、電子顕微鏡であれば電子の量が十分とれないというときに、ノイズがたくさんのところからきれいなものを補正することは当然あるでしょう。

それから、フレーム補間もあります。普通のものからスローモーションを創り出そうといったことです。これもお遊びにしか使えないということではなくて、例えばX線テレビのように胃のX線検査をやる場合、X線がずっと照射されっ放しなので、かなりの被爆をします。

それをもっとパルスにして回数を少なくして、間をフレーム補間で埋めるとずいぶん被曝量が減らせられるんじゃないかと思います。同じように何かしらの制限でたくさんの回数、画像が取得できないような場合でもフレーム補間をして質の良い動画データが作れる可能性があります。

電子カルテデータから階層別の予後予測も可能に

山田：今までは画像でしたが、実は画像だけでなく、RNNという画像データ以外のデータ、時系列や系列データにも使えると思います。ありがちなのが機械翻訳の場合です。何をしているかというと、言葉の順番の繋がり方のパターンをたくさん学習しているだけなんです。要するに、RNNは繋がり方のパターンを学習すると覚えていただくといいかと思います。

時系列データのRNNでは、繋がり方のパターンとして、大量でさまざまなパターン、潜んでいるパターンを学習します。それができると翻訳もできます。例えば、これは電子カルテに適用して、予後の予測などをしている例は研究としてはたくさんあります。

あとはリアルタイム系のバイタルデータにも適用している例があります。これは2年ぐらい前の話ですが、たくさんのリアルタイムのデータから急変してしまった例をたくさん取り出しました。

容態が急変する何時間か前に特徴的なサインか何かが出ていなかったのか。今までの単純なルールベースではつかまえられなかったけれど、ディープラーニングで解析すればもしかしたら事前に何らかのパターンをつかまえられたんじゃないかという研究ですね。あるいは創薬に関わってきます。

これはiPS由来の心筋細胞を使った心毒性の評価です。心筋のパルスをディープラーニングを使って、問題のないパルス順序か問題があるパルス順序かを分類するということもやっています。あとは機器の中の信号処理にもディープラーニングは普通に使われています。

ということで、画像だけじゃなくて系列データもいろいろなものがあります。代表的なものはDNA、RNA（リボ核酸）、アミノ酸配列、あるいは化合物表現。いろいろなところに適用可能で、自動的に最適な特徴表現というような本質が発見できる可能性があり、データドリブンで後から正しい形に持っていくところに可能性があるというのを、何となく理解いただけたかなという感じです。

ディープラーニングはデータ量がものを言う世界

山田：ディープラーニングを活用するにはやはりデータがたくさんないといけないので、すでにデータがあればいいんですが、ないのであればそもそもデータを取得していく、あるいは作っていくという、そのデータ設計も大事になります。

それから活用戦略。冒頭に言ったように、具体的に「こことここだったら、こういう手法を使えば地に足のついたことができそうだ」、あるいは「次のステップはこういうことをやろう」、「こういうこともできそうだ」という具体的なAIの活用戦略を立てるのが必要ですし、当然投資判断も必要です。

ヘルスケア以外でもいろいろと幅広い産業分野に関わっているので、ご興味のある方がいらっしゃいましたらスタートアップ企業とおつなぎすることもできますので、お声がけいただければと思います。

参考情報として、もっと学びたいと、もっと情報を知りたいというときに、手前みそですが、NVIDIAで「Deep Learning Institute」というオンライン講座をやっています。入門編は無料のものも何個かありますので、見ていただけると嬉しいです。ただ、これはけっこうエンジニア向けなので、ビジネスパーソン向けとは若干違うかなという感じです。

一方でビジネスパーソンに向けては、一般のウェブサイトで私もよく参考にしていますが、「AI Now」や「Ledge AI」、もう少し学術寄りだと「AI Scalar」。こんなサイトに追いきれないほどの情報が載っていますので、気になったところをつまみ読みしていくだけでも何となくAIってこんなことに使えるのかな、こんな事例があるなというのは理解いただけると思います。

もっと体系的に学びたければ講座もたくさんありますし、我々NVIDIAも会員で、私もこの検定を持っていますが、日本ディープラーニング協会もあります。ここの検定や検定向けの講座もけっこう体系的に学ぶにはいいと思います。

「何をやるのか」に活きるパースペクティブとマーケットマッピング

本荘：みなさんの中には、AIで何をやるのかという「What」について関心や問題意識を持っていらっしゃる方もいて、何をやるのかは決めているけど、どうやってやるかという「How」について聞きたいのではないかと思います。

Whatの問題意識の方が多かったのですが、今日は製薬会社の方もいらっしゃれば、あるいはノンヘルスケアの企業でヘルスケアをやりたいという担当者の方もいらっしゃるんですが、「何をやるのか」についてどう探っていけばいいですか？

山田：何をやるのかは大事なところで、私がお伝えできるというか、私の使命というと言い過ぎですが、「いろんな可能性があるよ」「こんなことがあるよ」「こんな事例もあるよ」ということをなるべくたくさんお伝えして、その中から「じゃあ、これウチにも使えそうだよね」とか、「これは可能性がありそうだからもう少し調べてみよう」といった、とっかかかりになるというのが私の立場だと思っているのが、まず一点です。

それから、Whatの方もけっこういらっしゃったので。まさにWhatを考えていただくにあたって、今日申し上げたところを何となく認識いただいた上で、自社の製品なのかサービスなのか、業務なのかプロセスなのかといろいろあると思いますが、そこで何かに使えないかということを、ぜひ頭を絞って考えていただくというのが一つ、大きなポイントなのかなと思います。

本荘：私は新事業の専門家なんですけど、そこで頭を絞るのは当然必要なんですが、頭だけ絞っていると知恵が出ないことがよくあって。よく新事業でWhatをアイデンティファイするときにおすすめしているのが、パースペクティブ（視点）とマーケットマッピング（市場マップ）と言っていて、要するに全方位でフォーカスエリアもないのに「どこがいいかな」と言っていても、たぶんクネクネした道に迷い込んで終わってしまうので。

「あ、このへんで俺たちはやりたいよね」とか「このへんが強みだよね」って、さきほどおっしゃったように画像データいっぱい持っていることが強みになるような、何らかの方針があると。そこに関するマーケットマップを描きましょうとなれば、「世界ではAIを使ってこういうふうにやっている」というものができますよね。そこから自社に照らし合わせて、マーケットオポチュニティやポテンシャルに照らし合わせればいい気がするんですけど。

山田：おっしゃる通りだと思います。大企業さんと同じという中で、どうしても事業が多岐に渡り、「あれもできるんじゃないか、これもできるんじゃないか、あれもやりたい、これもやりたい」というケースが非常に多くて。どこに絞るかやマーケットマッピング、実現されたときの経済的インパクトの大きさに、コスト削減も新規事業もそうですが、そういったあたりや社会的意義やあるべき姿など、いろんな評価軸があると思います。

本荘：それに、すごく時間がかかりそうなところがありますよね。要するに企業さんによっては、時間軸が短いところだったら「ここ5年でリアライズ（実現）する」「いや、うちは待てるから、10年以上経ってもビッグオポチュニティが欲しい」といった部分もあるかもしれない。

価値を持つのはモデルではなくデータ

本荘：Howについては、先ほどいみじくも、当然AIでこれをやるときにはAI×ライフサイエンスなので、1社だけではできにくいと。いろんな人材も欲しいという話なんですが、そうするとIP（知的財産権）やライツはどうするんだとか、どうやってパートナーシップを結ぶのかという、かなり難しいお話も出てくるかと思うんですが。

Howの部分でよくありがちなハードルや、こうするといいという共通点はあるんでしょうか。

山田：先ほどのご質問のIPやライツ的なところについて、直接的なところで言いますと、私の話の中でも何度も出てきましたが、AIのモデルと言われている部分の、AIの「こういうネットワークを使ってやります」というものがどんどん公開されていて、あまりそこに価値がないということはよく言われていることですね。

もう公開されていて、オープンになっているものを持ってきたら誰でもできてしまう、という感じになっているので。いかにユニークなデータなのか、他の人が持っていないデータ、他の人が持っていないクオリティのデータなのかといった、データの価値の方が大きいと思います。

一方で、成果物のIPは当然個別の契約で、共同研究なのか共同開発なのか、外部研究なのかわかりませんけれど、そこはディープラーニング協会でもAI開発の契約のあるべき姿、雛型を出していたりしているので、そういったところもご参考にしていただければと思います。

自分ごとにしやすいライフサイエンス分野への注目

本荘：もう一つありがちな話で、ライフサイエンスのプロはAIのプロと言語が通じないとか、逆にITのプロはライフサイエンスの人たちとなかなかコラボレーションやパートナーシップを結びにくいといった声が現場で聞かれます。この辺りはいかがでしょうか。

山田：それはまさによく聞いていたことです。こういったことをやり始めて3年ほどですが、当初はそういうことが非常に多かったと思います。徐々にいい兆しが出てきて、いい方向に向かっているのかなと。

というのは、ライフの方々もAIに関して全般的な理解を少しずつできてきていますし、AI側の人たちも課題探しというとおかしいんですが……言葉は悪いんですが、先ほど出てきたデータセットの競争で、「0.1パーセントの認識率上がったからといって何がいいの？　世の中に意味があるんですか」と言われると、確かに「うっ」というところなんですね。

一方で、ライフサイエンスやヘルスの領域は社会や自分の命に関わる可能性があるということで、そういったところに意義を見出している方がけっこう増えてきている感触はあります。

また違う認識をお持ちの方もいると思いますが、いい方向に向かいつつあることと、今日申し上げたようなところも含めて、ライフの方はAIに対して漠然とでもいいので、「だいたいこういうことやるんでしょう」とか「こういう手法があるんでしょう」とか「こういうふうに使われているんでしょう」と思っていただくと、AIやIT側ももう少し具体的な噛み合った話がしやすくなると思っております。まさにそこは私がやりたいポイントだと思っています。

Occurred on 2019-08-26, Published at 2019-10-28 07:00

AIは単なるプログラム、恐るるに足らずーービジネスパーソンでも理解できる機械学習・ディープラーニング基礎の基礎

NVIDIA合同会社山田泰永氏によるAIサマーナイトスクール

スピーカー