ソフトウェアの問題を解決するマシン・ラーニング
伊藤穰一氏(以下、伊藤):今日は、うちの研究をいくつか紹介をしたいと思います。控え室でも話してたんですが、文系の業界、例えばジャーナリズムなんかは数学が嫌いだから入ったっていう人が結構多い。
けど、コンピューター化が進むことによって、ITやコンピューター、数学や統計学と全く関係ない業界というのはなくなってきてしまったと思いますので、今日は統計と、英語ではマシン・ラーニングと言っている人工知能の一部の話をメインにしたいと思います。
まず言葉の定義と設定を話したいと思います。みなさんはプログラムとかアルゴリズムをよく知ってると思うんですけれども、これはルールを考えて、そのルールをコンピューターに打ち込んで、そのルールやステップをきちっと守って動くのがソフトウェアのコーディングだと思うんです。
問題はそれがどんどん複雑になってくると、どの会社とは言わないけれども、コンピューターのOSがだんだん不安定になって、つくった本人も何が壊れてるかわからないぐらい複雑になってきている。
今、世の中のソフトウェアの量とデータの量が、普通のプログラミングではなかなか収拾がつかない状況になっているわけです。
この複雑性と戦うために何を考えているかというと、みなさんよくビックデータという言葉を聞いてると思うんですけれども。巨大なデータをセンサーでいろいろ集めるようになってきているんです。
このデータをうまく解析すると、ステップを人間がいちいち入れなくても(よくなる)。人工知能のマシン・ラーニングもいくつか分野があって、人間の脳みたいなものをつくろうとか、いろんなのがあるんですけれども。
最近一番流行っているのが人工的に学ぶ機械のことで、これは何をするかというと、たくさんのデータを集める統計学の一種なんです。
インターネットの噂の信憑性を人工知能で解析
このデータがたくさんあると、どういうことができるかというと、「これが起きたときは大体これが起きる」「こういうことが起きたらこうだ」「こういう形のものは人間だ」と(予測ができる)。例えばニワトリの赤ちゃんを見ると、プロはどれが雄でどれが雌かわかるんです。でも、それを言葉では説明できない。プログラムは書けない。だけど雄と雌を人工知能に見せていくと、人工知能も途中からどれが雄でどれが雌かわかる。
人工知能のプログラムを読んでも、何も情報はありません。人工知能はパターン認識で、こういう形のものは大体男で、こういう形のものは大体女だと。9割の確率で当たるというのが人工知能なんです。
だから今日は、データを基に統計学的に解析して、その解析によっていろんな判断をする人工知能のことを話したいと思います。それをベースにちょっといくつか例を出したいと思います。
僕もインターネットから来てる人としてよく聞かれるんですけれども、「インターネットって噂だらけで、何が本当かわからない」と。その中で、新聞社がいるから一生懸命彼らに事実関係を追求してもらわないといけない。
「インターネットで読んだことは信用できない」「特にソーシャルメディアは嘘ばっかり」ってよく聞かれるので、これを人工知能、統計学的に解析できないかと考えた学生がいました。
噂の真偽を分析する3つの方法
みなさんもご存知のように、2013年のボストンマラソンで爆弾テロ事件が起きたんですけれども。その爆弾テロ事件が起きた後に、Twitterで爆弾についての情報が世界中に飛び回ったわけです。そのときにうちの学生が、「何が本当かわからないようなデータがずいぶん出ていたので、(そのデータが)噂かかどうかをわかるようにできるかどうか」と(考えた)。
いくつかの例として、これは警察が黒人の方を撃ってしまったときの事件なんですけれども、そのときに警察が目を怪我したという噂が2014年8月19日にTwitterで出るわけです。
そうすると、それについてのいろんな噂がTwitterで世界中に流れるわけなんですけれども。
その後、CNNはこれが嘘だったとわかってレポーティングするわけです。それでマスコミが、全部これは噂だったということがわかるんですけど、これには数日かかるわけです。
噂かどうかを分析するためには、何を見ればいいか。まず、ここからプログラミングする人が考えなければいけないんですけれども。
3つあるんじゃないかな、と。文章を書いている人のスタイル、文章をリツイートしたり書いている人たちのアイデンティティ、それとネットワークでどのように広がっているか。これを統計的に分析できないかと。
信憑性のウエイトをはかる基準
1つは、オピニオンです。例えば文章を読めば、「I agree」とかそういう言葉を使っているのは、自分の意見を述べているということがコンピューターとしてわかるわけです。
例えば「NOT」。それではないと否定するというのも、比較的に議論に参加しているという証拠になるわけです。
あとはどのぐらい文章がしっかりしているか。なんとなく文章になってない人と、きちんと文章になってる人でちょっと(信憑性の)ウエイトを変えるとか。
あとTwitterだとAuthenticatedマークがあるところは、ちゃんと本人確認されているとか。
あとオリジナリティというのは結構おもしろくて、リツイートばかりしている人とちゃんと自分の文章を書いている人もウエイトを変えている。
そしてこれはちょっとわかりづらいんですけれども、書いていることがどれだけ世論と違うかをはかる分析方法もあるわけです。
それにプラスして、ネットワーク・プロパゲーションというんですけど、誰かが何かをツイートしたときに、リツイートした人たちがそのツイートした人よりもフォロワーが多い人なのかどうかとか。
そのリツイートされる数がいくつかによって、ネットワークで上がっていってるほうにいってるのか、下がっていってるほうにいってるのかを分析することができるわけです。あとスピードもわかるんです。
これらを全部合わせて、ツイートを分析するとどういうことが起きるかというと……この1.8というのは、このRumor(噂)の始まりからCNNが嘘だと発表したまでなんです。この期間、我々は何が何だかわからない1.8日があるわけなんですけれども。
我々のデータ、文章アイデンティティー、プロパゲーションを全部合わせて、オーバーオールの嘘かどうかということを見ると、大体もう半分ぐらいのところで我々は理解できてるわけです。
だから、CNNが言うまでには、大体これはRumor(噂)だってわかっているので、これを統計的に見せることができるわけです。
噂が本当だった場合のデータ実例
次は逆の例で、エボラウイルスに感染した疑いのあるナイジェリアの看護師さんがquarantine(検疫)をスキップしたという噂が出たわけです。
これもまたいろいろツイートされて、そしてこの後に(新聞の)3つの記事で(噂は)本当だっていうふうに今度は逆にマスコミが確認するわけです。
そうすると、この3つの新聞が9時間後に出てきたんですけど、これを見ると、これは今度は上がっていってるんです。
そうすると、これはきっと本当だっていうインディケーターが出てきて、さっきも倍ぐらいだったと思うんですけど、我々のデータを見るとマスコミが(噂が本当だと)わかる倍ぐらいの(早さの)スピードで噂かどうかがわかると。
ちょっと古いデータなんですけど、200ぐらいの噂を分析してみて、大体75パーセントぐらいの確率で噂かどうかがわかるようになって、これを限りなく100パーセントに近づけるようにどんどんデータを集めているんですけれども。
こういう人工知能的なツールを使って、ネットワークのノイズをなくして噂かどうかっていうのを出す。これは、もちろん個人に対してこの情報を出すっていうこともありますし、
これを新聞記者のニュースルームとかに全部持ってもらって、本当かどうかわからないようなときに、こういうチャートも使えるんじゃないかなという1つのプロジェクトです。
Laboratory for Social Machinesによるデータ分析
そして、うちのLaboratory for Social Machinesというグループなんですけれども、彼らTwitterの過去のデータを全て持っているんです。メタデータも全て持っているので、こういう(インターネットの噂の分析の)ような実験がとってもしやすいんですけれども。
これはまだ立ち上げたばっかりのプロジェクトで、初めて世の中で公開するんですけれども。僕が理事をやっているナイト財団がこれのお金を出しています。
ちょうどアメリカで選挙が始まってるのみなさんご存知ですか? 日本人にはあんまり興味ないことかもしれないですけれども。
アメリカではもうずっと選挙はスポーツみたいなものになっていて、テレビの報道を見てるとわかると思うんですけど、本当に浅いんです。
誰がこんなの興味持ってるかっていうような、競馬とスポーツの間みたいなふうになっていて、もう少し国民が気にしてることをちゃんと報道できないかということに関して、こういうシステムを使えないかという課題だったんです。
例えばこの1つの記事、『ニューヨーク・タイムズ』の記事なんですけれども。これを機械で分析すると何ができるかというと、まず書いた人がわかります。
もう1つわかるのは、キーワードが全部ピックアップできるので、これは全部エンティティなので人だとかニュースチャンネルです。
そしてもう1つわかるのは、これを分析するとこの記事のメインのテーマはこのカーリー・フィオリーナで、内容を分析すると大体このキャンペーン・ファイナンスのことだということがわかるわけです。
これを見ると、今度この全てのTwitterのアカウントがわかるので、それも分析できる。このデータを集めていくと何がわかるかっていうと、まずこの2人は『ニューヨーク・タイムズ』の記者だということがわかるんです。
我々は、全てのマスコミの記者のTwitter IDを全部トラッキングして、彼らが何を書いているかも全部分析しているんです。
マスコミが発信する1日2000件の記事を分析
これもまたおもしろいデータで、今度何をするかというと、このマスコミを全部我々束ねていて、大体1日2000件ぐらいの記事を分析しているんです。
そうするとジャーナリストとパブリックのインフルエンサーって言うんですけど、影響力のある公の人たちと、あとこれはその政治家本人たち。
そしてTwitterから今、1日5億ツイートが出ているんです。これも全部リアルタイムで分析して、この全員がお互いに対して何を言っているかというのを統計的に集めるんです。
今度はTwitter読んでると、個人がこの人たちについて何を言ってるかっていうのも全部わかるわけです。
この関係性がわかると、すごくおもしろいのは、政治家は何を言っていて、ジャーナリストは何を言っていて、影響力のある人は何を言っていて、国民たちは何を言ってるかというのがわかるわけです。
僕らは何がやりたいかというと、この人たちがみんな何を考えているのかということをいろいろ分析しようと。
例えば、この2人のキャンディデイト(大統領候補)とメキシコに壁をつくろうという議論が今リパブリカン(共和党)のほうから出てきてたり、アボーション(人工妊娠中絶)がOKかどうかという話と。
あとジャーナリストとか普通のパブリックの人なんですけど、この人たちがいろんな記事を書いたりいろんなことを発言した記事があるわけです。そうすると、それの関係性を今の記事の分析みたいなのでわかるわけです。
例えば、(ドナルド・)トランプが「このメキシコの壁を絶対につくるべきだ」とか、この人がこれについてどう思ってるかとかというのを分析していくと何がわかるかというと、いろんなトピックスとか人間の関係性、どのぐらい誰が何について話してるかということがわかる。
そうすると、まずインフルエンサーの分析ができるんですけれども、この2つのトピックスがお互いどういう関係性を持っているかもわかるんです。
そうすると、例えばこのアフィニティー(類似性)って呼んでいるんですけれども、これ(メキシコの壁)に興味があってこれ(人工妊娠中絶)に興味がある人たちがどのぐらいいるかということもわかるわけです。
国民の興味の所在がわかる
そうすると何ができるかというと、例えば軍事問題とかテロリズムとかゲイマリッジとか、こういうトピックスがあります。
それと、例えばゲイマリッジとイミグレーション、移民の関係に両方に興味ある人がたくさんいるということがわかるんです。
この黒い点というのは、いろんなトピックスのこういう重なっている人たちがどういう人たちがいるか、これは政治家にとってはすごく重要なデータなわけです。どういうトピックスを誰に対して話せばいいかというのがわかるわけです。
もう1つわかるのが、政治家がどのトピックスについてしゃべっているかもわかるわけです。例えば、ヒラリーだったら女性問題やキャンペーン・ファイナンスの話をたくさんするけれども、メキシコの話は全くしてないということがわかるわけです。
何をしようとしてるかっていうと、今みたいなデータをこのシステムを通じて新聞記者にどんどん出していこうと。「あなたたちこんなこと書いてるんだけれども、誰も興味がないよ」とか。
例えば、「この政治家はこれをずっと話してるけれども、この政治家が話してる相手はこっちに興味があるんだからこっちの話聞いたらどうか」とかそういうことがわかるので、政治家にとっても役に立つはずで、国民にとっても役に立つはずです。
僕らはこれを新聞記者がどんどん使って、政治家にインタビューするときとか記事を書くときに、国民が興味を持っている中身を重視してつくれるんじゃないかなと思って、一生懸命これを組み立てているところです。
自動運転車に対するGoogleの見解
最後の研究なんですけれども、これが一番人工知能的な話で。みなさん自動運転の車の話はもう随分聞いていると思うんですけど、どっちかというと日本のメーカーは、人間の運転を人工知能でサポートするという方向にいきつつあるんですけれども。
アメリカではGoogleもものすごい自動運転の車の実験をして、彼らはかなり人間はいらないっていうふうに信じきってるんで、完全自動運転にいこうという人たちも随分出てきているわけです。
完全自動運転になると、どういう議論になるかという話が出てくると思うんです。自動運転のことも、何となくみんなイメージがあると思うんですけれども。
今のGoogleの自動運転の車というのは、例えばスクールバスが止まっててウインカー出してたらパスしちゃいけないとか、人間が見えないような自転車が来てるとちゃんと避けるとか、おまわりさんが手を振ってたら何をすればいいかとか、めちゃくちゃ情報を持っているわけです。
全部がネットワークされているので、前に事故があったらちゃんとわかるとか、赤いパイロンがあったらどうすればいいかとか、ものすごいデータを集めているので、人間よりは全然安全運転。
人間が見えないものも見えるので、飛び出しもすごく安全に避けているというので、アメリカ、特にシリコンバレーのエンジニアたちは絶対こっちのほうがいいと言っています。
自動運転車のルールは誰が決めるべきか
ただ、どうなってくるか。この自動運転の車が倫理的に、どういうルールで物事を決めていくかというのを誰が決めるべきかと。車の会社なのか、プログラマーか、法律をつくっている人たち、政治家、政府それか国民か、という話。
もうちょっと詳しく、どういうことかというと、今だと我々が車を運転してる時に、車会社のせいで事故があった場合は製造物責任法で車の会社が責任取らなきゃいけない。僕らが交通法を破ったら、それは法律でやられるんだけど、ただ倫理的なところもあるんです。
例えば、子どもが怪我してちょっとスピード出して病院に向かってたら、きっとおまわりさんが見たら「わかった。頑張って行きなさい」とか。いろんな法律の外で僕らもいろんな判断をしているわけです。
それが、何が起きたかというと、車会社の話は自動運転になってしまうと、全て車会社のせいにしようと。
車会社には、この交通法をちゃんと守るということをメインに議論しているんですけど、この倫理の部分、これはどうなんだろうっていうところがすごく議論されていて。
さっきの話に戻るんですけれども、ひたすらデータを吸い上げてそのデータを基に、車がこの場合はどうするっていうふうに判断していくわけなんで。
人種差別的なイメージがあるので申し訳ないんですけれども、あるイギリスのアーティストが、「インドでつくられた自動運転の車をアメリカに輸入したら、1ヵ月ぐらい文化教育しないと道走っちゃいけないようになるだろう」とか。多分、道というのってすごく文化があるんだろうなと。
例えば、うちの奥さんが最近ボストンに引っ越したんですけど、ボストンの運転ってひどくてみんな割り込む。日本は変な人もいるけれども、基本的に渋滞にならないように譲り合う、すごくポライトな運転だと思うんです。割り込んだらハザード出して。
ボストンは全然そうじゃない。下手すると埋められてしまうから、ウインカー出さないでレーンチェンジしたほうがいいとか。そういうデータで学んじゃった車は多分きっとすぐ乱暴な運転になってしまう。そういう問題もあるんですけれども。
ただ、車がひとつひとつルールがあったら、重要なのはフェアにするためにはなるべくみんな同じルールで走る。それと、一般の人たちがまず怒らない。あと、車が売れるっていうことが重要です。
誰を助けて、誰を殺すか--人間の倫理観の実験
実はすごいおもしろい古い哲学の分野からくる問題で、こういう電車があります。線路に5人縛られてる。まっすぐ行くと5人死んでしまう。あなたがこれを引くと、こっちに移動して1人しか死なない。
ほとんどの人間は、この1人を殺してもいいと、5人は救われるというとっても合理的な倫理の判断をするわけです。
これよく質問されてるんですけど、いろんな問題をみんないじって遊ぶんですけれども。例えば、この1人は1歳だと、この残りの全員は90歳だとどうするかとか。
こういうような質問をして、今まで哲学者って遊んできてたんです。これはどういう役に立つんだっていうふうに随分ケチ付けられてたんですけど、実は役に立つんです。
これが、The “Fat Man” variantと言って、これもちょっと変な質問なんですけど。5人います。1人が自分なんですけど、太ってる人を橋から落としちゃうとぶつかって他の人たちは救われる。これどうするかって、これは案外やらないんです。
おもしろいのは、これとこれって結果は案外変わらないんです。1人殺して5人救う。ただ、橋から突き落とすことは嫌だと。
だからそういう意味で言うと、人間の倫理というのはとっても合理的な要素もありながら、とても感情的な要素があるというのがわかるわけです。
誰を犠牲にするのが正しいのか
これが自動運転とどう関係するかという話になるんですけれども。似たような設定ができるわけです。
自動運転の車があります。そこにあなたが乗ってます。この人たちに向かってると、これをスワーブって言うんですけど、スワーブして第3者を殺してしまう。
1人殺すことによって多数の人を救う。もしくは1人しかいない、スワーブすると、でも今度は壁なんで自分が死ぬんです。もしくは、たくさんの人がスワーブして自分が死ぬとか。
これも今日初めて公開したデータなんですけど。こういうような質問を、心理学者と一緒に統計をしたんです。結構おもしろい結果が出て。
1つは、グレーは普通の車でブルーは自動運転の車で、サクリファイスが倫理的に正しいかという質問で。10人を救うために他の人を殺してもいいか。
スワーブして他人を1人殺して他人を10人救う。だいたいみんなOKと言ってるんだけれども、おもしろいのが自動運転の車のほうがみんなやるべきだと言ってるんです。
もうちょっと微妙なのが、自分が乗ってる場合。やっぱりちょっと減るわけです。自分が乗ってる場合は救われる、サクリファイスするべきかというので、自動運転の車も結構高いんです。
ここがおもしろいんですけど、法的に義務付けるべきかというところで、自分が運転してる車にはあんまり義務付けるべきではないと。
これは理屈で言うと、自分が自分を殺さなきゃいけないというのを法律的に義務付けるのは倫理的におかしいと。
自動運転してる車に自分が乗ってたら、法的に自分をサクリファイスすることは倫理的にやや大丈夫になっているわけです。
もう1つおもしろいのが、人間にはさせないけれども、ロボットにはさせてもいいというふうに統計が出ているわけです。
だから、ここがおもしろいのは、法的に車に合理的な判断をさせるということはみんなアプルーブしている。
人工知能に必要なのはプログラムではない?
これが結果なんですけど、4分の3の人は自動運転の車は自殺してまで10人を救うべきだと。ただ3分の2の人はそういうふうにプログラムされないだろうと。
自分たちが倫理的に合理的に思ってることは、きっと市場ではそういうふうにならないだろうと思っているので、自動運転の車は合理的にできないだろうとみんな思っている。
これはさっきと同じ質問だけど、もう少し違う聞き方。そのまま、まっすぐ行って殺してしまうのと、ランダムというのは勝手にチャンスで決めさせるというのと、あとスワーブすると。
これもさっきと同じで、人間を10人救うためにはスワーブして第3者を殺してもいいっていう統計なんです。
これがおもしろいのは、自分が死ぬ場合は、合意する人が少し減ると書いてあって、自分をサクリファイスする車は倫理的に正しいって、ほとんどみんな言ってるわりには自分は買わないって言うんです。
ここでおもしろくなってくるのは、自分が個人の場合は自分の命が惜しいから守ろうとする。ただ、社会全体的にどういうルールであるべきかというと、結構合理的になってくるわけです。
そうすると、自動運転の車は個人が持つべきなのか、それか例えばGoogleが持つべきなのか、Uberが持つべきなのか。
それとも国が管理するべきなのかって、誰が決めるかというのがすごく重要なのと、あと街とか国によって微妙に違うと思うんです。
みんなが思ってる気持ちを、どう車の人工知能に反映させていくかというのがとても重要で、結局問題はさっきみたいに単純な一か八かはあるんだけど、こういったら死ぬ確率がいくつで、こういったらこうなるって、ものすごい複雑な問題がたくさん出てくるんで、そんなにルールにはできないと思うんです。
それをどうやって教えていくかということが、今すごく議論されていて。我々は、来年の4月に仏教のお坊さんと人工知能の人たちと哲学者と心理学者とか集めて大きなイベントをやるんです。
だんだんわかってきたのは、どういうデータを与えるかによって人工知能って育つわけです。これって、実は子どもを育てるのにすごく似ているんです。子どもにどういう情報を与えるかによってバイアスがかかるわけなんです。
そうすると、どうやって倫理的な人間を育てるかお坊さんに聞いて、それを機械に当てはめたらどういうことなのかって議論をし始めていて。だからプログラムじゃなくて教育なんじゃないかなというふうに議論されているんです。