コンピュータが見せる将棋の高み

松原仁氏(以下、松原):もう1つは、さっきBonanzaが10年前に機械学習で強くなるという方法を見つけた、ボナンザメソッドと言いましたが、去年、情報処理学会で宣言いたしましたが、コンピュータのほうが強くなっている。

そうすると、誠に失礼ながら、コンピュータにとって、もはやプロ棋士の棋譜が参考にならない。自分たちのほうが強い。弟子のほうが師匠より強くなった。弟子としてはどうするかというと、弟子同士で対局するわけです。

だから、さっき言ったfloodgateです。コンピュータ同士で延々対局して、棋譜をたくさん集めます。それこそビッグデータです。人間の棋譜よりははるかに早く集まります。24時間戦っていますし、コンピュータをたくさん使えば、同じ対戦相手で平気で10局とかできます。

それをたくさんやって、強化学習という、もともと機械学習でよくいわれているコンピュータ同士で強くする方法を使って学習しています。

そうするとなにが起きるかというと、プロ棋士の棋譜から学習すると、プロ棋士っぽい手を指すようになります。それは当然ですね。

プロ棋士がある局面で指した手を指すように学習しているので、例えば序盤だと人間の定石に沿った手、人間の感覚に近い手を指していたんですが、ここ数年、理解できない手を序盤から指しています。コンピュータ同士で違う世界に行ったような。

だから、先ほど山崎八段という人がコテンパンに負けたと申し上げたんですけれども、私はずっとネットで見ていたんですけど、もちろん山崎さんのほうが私よりずっと強いんですけど、2日制の1日目でもう勝負にならない。序盤にコンピュータponanzaが、たぶん山崎さんに理解できない手を何手も指して、山崎さんが大長考しているんですね。真面目に。

相手が弱いとわかっていれば、プロ棋士は、相手がわからない手を指したら、「こんなの悪手だ」という上から目線でボンボン指して勝つわけですけど(笑)。相手が強いと思っている人がわからない手を指すと、もう疑心暗鬼になって「なんなんだ、これの裏は?」って。申し訳ないけど考えてもわからない。

それで形成は不利になるわ、持ち時間は残り少ないわというので、ボコボコになるわけですね。人間そうなると間違えちゃうということです。

だから、今、そういう時期に来ています。将棋ファンから見ると、コンピュータが今までのプロ棋士にない将棋の新たな高みを見せてくれる、すごく高度な将棋を見せてくれるという可能性がある反面、理解できないんじゃないかという。

「空中戦をやっていて、ぜんぜん意味わからない。でも、勝っちゃった。強いね」という。そうすると、趣味としてというか、人間の鑑賞の対象にのらなくなる危険というのはあります。

将棋でコンピュータに負けると人間の尊厳が損なわれる?

だから、シンギュラリティ。「シンギュラリティが来るか来ないか、いつ来るか?」というのはあるのですけれども。シンギュラリティというのは知能全般についての議論なので、これはすべての本当の意味でのシンギュラリティではないですが、将棋では要するにコンピュータの能力が人間の能力をちょっと超えたと。だから、今後これから将棋界というのはどうなっていくかという……。

最近のニュースでは、とうとうプロ将棋の連盟も、電子製品を対局場に持ち込むことを公式に禁止するそうです。今まで10年間は禁止していなかった。チェスは禁止していたんです。だから、チェスの対局に行く前に、飛行機に乗るときみたいに金属感知器に行って「ブー!」となると「出しなさい」と。

実際、トイレでカンニングして除名になったプロ棋士が、チェスではいます。「こいつ、終盤でよくトイレ行くな」と思ったら、トイレでコンピュータに次の手を聞いていたという、もうわかりやすいカンニングをした人がいたんです。まあ、バレちゃったんですけど。

将棋のプロは、そんななか、「負けを認めるようなルールは作りたくない」ってずっと言っていたんですけれど、とうとうルールを作るみたいです。それは金属探知機になるのか、紳士協定で対局が始まる前にスマホとかタブレット端末を提出するかになるかわかりませんが、そうなる。

だから、これからいろんなニュースが出てくると思いますけど、注意していきたいと思います。

正直、こういう、ルールが決まっているゲームは、いつかは負ける。今のプロ棋士はちょっと運が悪いというか。

人工知能の研究者も別にプロ棋士に勝って勝ち誇りたいのでやっているのではなくて、我々の研究水準というか技術水準のレベルを確認したいと思ってやっているのですけれども、どうもそう思ってもらえないというのはあります。

だから、人間ではなくもうコンピュータになっているんです。チェスがもう20年ぐらい前にそうなったので、チェス業界が今どうなっているのかというのは、それこそ参考になるんですが。チェスの業界は、プロの業界、組織、今でもちゃんとあって、トップクラスはすごいギャラをもらっています。尊敬を集めています。

だから、将棋と囲碁もそうなるといいと思うのですけど。ちょっと不安なのは、チェスはスポーツなんです。マインドスポーツ。

日本人は「オリンピックに野球を、ソフトボールを」と言って、今度の東京オリンピックに戻ってきて喜んでいますが、世界的には「オリンピックにチェスを」という運動のほうがよっぽど大きい。東京オリンピックも一次予選というか最初の候補に入っていたんですけど、ほとんどニュースにもならずにチェスは一次審査で落ちていましたが、毎回入っています。

なんですけど、「将棋は日本人にとってスポーツか?  囲碁は?」となるとちょっと微妙なので、スポーツでないのが負けたりすると、ちょっと日本人の感覚としては違うのかもしれない。

これ、よく言われる比喩ですけれども、ボルトがオリンピックで3連勝しましたが、100メートル競争でボルトがF1の車に負けて、ボルトも悔しくないだろうし、我々も悔しくない。「なんだ、この茶番は?」という感じだと思いますが、将棋は悔しかったんですね。

最初にプロ棋士がニコニコ動画で負けたときは、そのプロ棋士がやっているブログで、本人は「自分が力不足で申しわけありません」って謝ったのに、多くのニコニコ動画を見ていた人は許してあげずに……。もうすごいです。「お前なんか切腹して詫びろ」とか、一番軽いので「プロ棋士引退しろ」とか。ひどい。だから、ブログはすぐ閉じられましたが。

それというのは、負けたのは他人ですけれども、やはり人間の尊厳というのを侵されたように、損なわれたように思っているんだと思います。

その理由というのは、本当のところはよくわかりませんけれども、考えられるところは、体力で負けるというのは、先ほどの車とか機械が出てくる前だって、クマとか、海にいけばサメとか。人間より体力がある動物というのは、人間として昔から知っていて、それに負けないようにというので、たぶん進化的に我々はこういう高度な知能を身につけたのだと思いますが。

知能でほかの、生物だけではなくて非生物でもいいんですけれども、ほかの存在に知性・知能で脅かされるという経験が人間にはないので、それが、追いつき追い越すというのが非常に不安だし不快であるということなのだと思います。

AlaphaGoの誕生

それで、囲碁です。1年ぐらいまでは、私は講演すると、ここまではだいたい将棋は同じ話をして、「でも、囲碁は、まだコンピュータは弱いです。あと10年ぐらい我々は、我々はというのは人工知能、とくにゲームの研究者は食っていけます」。アルゴリズムを強くしたっていう研究をして、グラフ書いて論文書くというので食っていけると思っていたら……。

(スライドの)青で書いたところがそうだったんです。将棋もここまで来ていたんですね。ここで将棋の場合はBonanzaというのが来たんですけれども、結果的にはAlphaGoというのが来ました。今年(2016年)の1月に『Nature』。情報系の論文ってなかなか載らないのですが、『Nature』に載りました。

『Nature』って、載る数日前に「コンピュータ囲碁関係でNatureに論文が載って、これはすごく画期的な論文になる」ってマスコミに流すらしくて。

私のところに電話があって、「先生、Googleが囲碁で画期的な論文を出すそうです。コメントを」って。「なんだ、それだけでコメントなんか出せるか」とか言ったら、「こっそりアブストラクトを送ります」とかわけのわからないことを言っていましたが。出てから見たら、あの論文、38ページの英語の論文です。今流行りのディープラーニングを使っているというのがメインです。

モンテカルロ法というのは統計法で、評価関数とかを作らずに、もうほとんど統計的に、ある局面でそれから黒白空いているところをバーってめちゃくちゃに、勝負がつくまで10万局とか打って、どこに打ったときに一番勝率が高いかという、もう囲碁の知識もへったくれもないような手法が、アマ高段者レベルになったんですね。それは統計手法です。

それに比べて、深層学習というのを使って、それも過去のプロ棋士の棋譜から学ぶ。それで強くなった。いったんある程度強くなると、将棋もそうでしたが、コンピュータ同士を対局させて強化学習をします。

AlaphaGoはこの3つ(深層学習+モンテカルロ法+強化学習)なんですけど、我々から見たら王道というか、まさに、「まあ、こうするだろうね」というところです。

でもこのとき、『Nature』の論文は、ヨーロッパチャンピオンの2段に勝ったという。プロ棋士って1段、初段から9段ぐらいまでいるんですけど、2段というのは下から2番目ですから、そんなに強くない。

これ、棋譜も公開されて、研究所、知り合いにプロ棋士も多いんですけれども、プロ棋士に聞いたら、「これまでの囲碁ソフトよりはずいぶん強くなったけど、これでプロに勝ったと言われてもね。あの人、弱いからね」と言って、「まだ、井山裕太なんかに勝つのは、ずっと先だよ」とか言っていたら、イ・セドルという、井山より強い人に勝った。

イ・セドルというのは、一時期、本当に世界チャンピオン。今、世界ランキングというのが、今年(2016年)の夏、これ終わってから実は発表されて、たしかこの人4位ですね。ちなみに日本の井山は7位です。井山、日本では圧倒的に強いですけど、イ・セドルより弱い。

この人と対戦するという発表があったときには、最初みんなプロ棋士も、コンピュータ囲碁、私たちのようなゲーム研究者も「なに考えてんだ、Google」と思って、5戦するというので「イ・セドルの5連勝はかたい」とか、最初は言っていたんですが負けてしまった。

AlaphGoを作ったGoogleの資金力

それで論文の話をすると、20人著者がいるんですが、DeepMindというGoogleが買収したイギリスのAIのベンチャーですけれども、D.SilverとAja Huangというのがファーストオーサーとセカンドオーサーなんですが。この2人はコンピュータ囲碁業界で有名な、ゲームの囲碁の違うソフトを作っていた人。

それ以外の人はきっとディープラーニングの専門家で囲碁知らなかったと思うので、この2人をスカウトした。この2人がGoogleに入ったというのは聞いていました。それでさっきの弱いプロに勝ったんですね。

それで深層学習というのは、場合によっては非常に性能が高い。それが今のブームですけど、すごい学習数が必要なんです。だから、データが必要なんです。3,000万局面とか書いてある。いくら囲碁ファン、忍耐強くても、3,000万局面も並べる人がいるかという感じで。

細かいことは除きますけど、value networkとか、それが囲碁の評価関数に相当するんですけれども、そういうのをうまく作ったということになります。

こっちが研究者としてなかなかつらい。さっきの手法は、深層学習、モンテカルロ法、強化学習という素直なもので、深層学習って新しいと思えば新しいんですけど、追試できるといえば追試できます。

ちなみに、今まで一番強かったソフトは日本の「Zen」というソフトなんですね。囲碁で世界チャンピオンだった。だから、Zenが一気にAlphaGoに負けて圧倒されちゃったんですが、打倒AlphaGoプロジェクト(「DeepZenGo」)というのを今やっていて(笑)。

どこかの企業がGPUを提供して、深層学習をがんがんやって、今、Zenを強くして、AlphaGoとの対戦を望んでいるようですから。来年ぐらいになるかもしれないですけど、ほかのプロ棋士と対戦すると同時に、改良したZenと対戦するというのがあるかもしれません。

それで、ご存じのとおり、深層学習というのはすごく計算機をがんがん使います。GPUが有効だというので、すごく高性能なGPUをみんな作っている。今、GPUを作る会社というのはすごく景気がよくて、新しいのを作るともう世界中でみんな買い求めて、すぐ売り切れという。高いのにみんな買うかって感じですけど。

176個とか50個とか、日本円にして、AlaphGoにGoogleは数百億円かけたと言われています。これは、多くはGPUです。対局料は1億円と言われていて、ちょっとGoogleケチったんじゃないかって。もう少し出してやれよって説はありますけれども。感想は「Googleの資金力、すごい」。

『Nature』の論文を読んだ我々の仲間、私も含めて外国の研究者もみんな、「アルゴリズムは追試できるが、計算機環境が追試できない」って(笑)。貧乏はつらいということですね。一生懸命、だから今それを追いかけようとして、GPUをたくさん使うと。

論文20人。Zenが今まで一番強かったんだけど、作者2人です。人数が10倍になったら10倍強くなるわけではありませんけれども、やはりソフトの完成度とかそういうのはすごく上がるはずなので。

でも、この論文を読んだときには、私も思いましたし、みんな「イ・セドルに勝てないぞ」と。でも、弱いプロに勝ったのは去年の秋なので、それから4、5ヶ月経っているんですよ。だから、その間も機械学習をしているはずで、「それはもしかすると、もしかするかもしれない」と言ったり。

あと、2月、3月にAIの国際会議があって、このAlphaGoのリーダーかなんかが招待講演で、「みなさん期待していてください」とかいう思わせぶりなセリフを言うわけですよ。強気な(笑)。僕、直接聞いてないんですけど。

行った人、もう僕にその会場から僕にメールが来ました。「松原さん、こんなこと言っていますよ」と言っていて。「研究者というのは、根拠もなく強気にならないから」と思ったら、やっぱりで。

みなさん、結果はご存じでしょうけど、4勝1敗ですね。コンピュータが完勝です。

もう囲碁でも“神様”の域に

イ・セドルが終盤で時間がなくてミスって逆転したとかじゃないんです。さっきの将棋と同じです。イ・セドルがわからない手をAlphaGoは序盤に何回も指しました。世界中に中継されていたんですが、イ・セドルは何回も怪訝そうな顔をしました。それは自分にわからない手だったと思います。

それで、イ・セドルはあとで正直に言っていました。「きっと、わからない手だから悪い手だと思った」。イ・セドルはそうやって生きてきた人なんです。だから、世界一ですからね(笑)。自分にわからない手は悪い手だったんです、経験上。それで今までは済んでいたんですけど。

プロ棋士なんか、もっとひどいことを言っていました。「えー、AlphaGoって本当に強いの? これでプロ棋士に勝ったの?」とかいうことを。「ひどいよ。この手。もう楽勝だね、イ・セドル」とか言っていたんですが。

最初に気がついたのは解説者ではなくて、イ・セドル本人で。中盤で、「あら?」という顔をしたんです。

あとで、イ・セドルは正直で、「中盤で自分のほうが絶対に勝っていると思ったら、中盤で数え始めたら自分が必敗で……」。陣地取りなので、「『あれ? なにか悪い手を打ったか?』と思ったら、打った記憶はないんだけど、遡ってみたら、あの序盤でわからなかった手がいい手で、自分はそこで対応を間違えた。でも、そう思ったときには負けていた」ということですね。それが何局も続きます。

解説者は、イ・セドルより弱いのでしょうがないんですけど、もっと終盤になってからようやく気づいて、「あれ!? イ・セドルのほうが少ない。あれ、おかしいな。イ・セドル、どこかで大失敗した? あれー?」とか言って、最後の最後には、「すいません。今日の解説は最初から間違っておりました」という。

(会場笑)

だから、いきなり将棋と同じような状況に。だから、理解できない手を指しているという意味では、さっきの将棋と囲碁は同じです。

それで、柯潔という18歳で今世界ランキング1位の……ちなみに、最近の世界ランキングはAlphaGoが2位です。囲碁業界は心が広いなという。コンピュータもランキングに入れているということですね。

(会場笑)

まあ、この柯潔が1位なので、柯潔が対局するということを囲碁ファンは願っています。

最近聞いている情報だと、AlaphGoは3月以降も、この半年間まだ機械学習しているそうで、イ・セドルに勝ったときから2子強くなったという噂があって、プロ棋士がみんな「本当か!?」「あれより2子強いって神様じゃないか」と。本当に2子強くなっているとすると、はっきりいって柯潔、アウトです。たぶん人間の知性で及ぶところではなくなっていると思います。

人工知能はあくまでも人間の道具

というような話で、だいたい時間ですけれども、機械学習。やはり人間が優れているのは、囲碁将棋でもそうですけど、データ数が少なくても強くなるので、そこはやはり人間の強みです。そのあたりはこれからさらにまだしばらく残ると思いますが、人間を超えると、こうなる。

高みに連れていってくれるというプラスの面もあるけれども、わからないというふうになる。ディープラーニングの結果が、「答えだけ正しいけど、理由がわからない」ということを言われていますけど、そういうことで。

こういうのをいかに人間にわかるようにするということは、やはりこれから、囲碁・将棋もそうなると思うんですけれども、これがほかの人工知能の分野でも大事になってくると思います。

それで最後、まとめというか、今までのことですけど、こういうことが、囲碁や将棋だけはなく、ほかの領域で起きてくる。

そうなったときに、人工知能研究者としては別に人工知能が人間を超えたからといって、勝ち誇りたいわけではなくて。人工知能ってあくまで人間の道具ですので、道具が便利になったということです。より人間の生活が豊かになるというふうになるわけですが。

やはり不快感みたいなものがあるので、そのときに折り合いをどうつけていくか。人間のほうが広い心を持つという、受け入れる心を持っていくっていうことも必要かもしれませんが、将棋と囲碁の例がいい参考になると思いますので。

これから、ここ数年間というのは囲碁・将棋、おもしろいと思いますので、我々、専門家も注目しますが、みなさんにも注目していただきたいと思っております。話は以上です。どうも、ご清聴ありがとうございました。

(会場拍手)