森川氏の自己紹介

森川幸人氏(以下、森川):時間なのではじめます。非常に具体的で実用的で、かつ先進的で未来を感じる松木さんと下田さんの講演の後に、とても申し訳ない講演になってしまうような気がしますが。この後の三宅さんの講演も座談会もおもしろいものになると思います。4分の1ぐらいちょっと外した話がある「QA Tech Night」が本来は成功ということで、ゆるく休憩というか、トイレタイムにでも使ってもらえればと思います。よろしくお願いします。

森川と申します。「プレイステーション」の立ち上げの時にゲームを作っていて、その時にAIを使ったため、ずっとAIを使ったゲームを作っています。

AIをゲームに使うということで、縁があってAIの本を出しています。

2017年、世の中はちょうどAIの第3次ブームが起こっていて、ゲーム業界の方もAIについてわりと耳を傾けてくれるような環境になってきたので、「じゃあ、ゲームAI開発を専門にした会社を作ろう」ということで立ち上げたのが、モリカトロンという会社です。

今もまさにAIQVE ONEさんのお世話になったり、ほかのゲーム会社さんのゲームにキャラクターAIを導入するなどAIの開発をいろいろしています。

サブタイトルの要約

今日のテーマですが、サブタイトルが「AIと品質保証と作業効率化の超未来はどうなるか?」と、我ながらひどいなと思うのですが、要約すると「人工知能は品質保証や作業効率化に非常に有効であって、人間と違ってビッグデータを解析できるので、人間側の作業のサポートをするだけじゃなく、人間に代わるようなこともやってくれるんじゃないか」というようなことになります。

これ、実は「ChatGPT」が書いたものです。残念ながら私のこれからの発表は、こういう話にはならないんですが、もうあと1年や2年経つと、20分ぐらいの講演なら、お題だけ与えたら全部内容を作ってくれる時代になりそうな感じがします。

この話をするまでは、「これから20分退屈なぐらいの話になりそうだな」とおそらく感じられたかと思いますが、このくらいのことは今すでに「ChatGPT」でできてしまいます。

15問の「どっちがAI?」クイズ

ということで、お二方から内容の濃い話が続いたので、いきなりクイズに入りたいと思います。すごく簡単なクイズです。「どっちがAI?」ということで、これから2枚の絵を出します。どちらかがAIの描いた絵です。もう1つのほうは現実の世界の風景だったり生き物だったり、あるいは人間が描いたもの、作ったものです。それを当ててもらうクイズを15問やります。時間がないのでサッサとやりますね。

(スライドを示して)これは言うまでもないです。こんな象みたいなシマウマはいないですね。こういう感じでどんどん進めていきます。

これは左側がオフィシャルから持ってきた写真で、こっち(右)は作られたものです。

これもわかりますよね。こんなところにロボットがあるわけないです。

さぁ、このあたりからちょっと難しくなります。どちらかは実在しなくて、むしろどちらかが実在する(ということの)ほうがちょっと驚きかもしれないですが、これは中国の図書館です。

イラストもあります。わかりますかね。ちなみに右は自分が描いた絵です。

これも難しいですね。ロシアが関係するようなポスターですが、実はこっち(左)がAIですね。

これは古い方だとわかってしまうかもしれない。古いというか、ファンの方だとすぐばれてしまうかもしれませんが、こちら(左)が『未来忍者』のキャラクターです。

これも難しいですね。アンドリュー・ワイエスにわりと似たような絵が描けるんです。

これも難しいと思います。どっちもあり得ない感じがすると思うんですが、こっち(右)は実際の現代作家の作品で、この人の作品は非常におもしろいです。

これも難しいですかね。写真だけだとよくわからないかもしれませんが、こちら(右)はアイスランドの家です。

これも難しいかもしれませんね。紙細工のような、立体の切り絵みたいな形ですが、これは右がAIです。

これはこっち(右)が実はAI(が作成したもの)になります。

あと2問だけですね。これはわりと有名な写真なのでわかると思いますが、これ(左)が巨大クリスタルの洞窟です。

このあたりも難しいと思います。というか「どっちも使えるじゃん」という質問になっているのですが、こちら(左)がAIになります。

これも「もうどっちがどっちでもいいじゃん」というぐらいのものですが、こっち(右)がAIです。

これは「Midjourney」とか「Stable Diffusion」が描いた絵です。

ちょっと言い忘れていたんですが、5問以上間違えた人にとっては、単純に言えばチューリングテストに合格と言えなくはない。2択になっているので、全部「左が正解」と言っても5割当たってしまうので、正確な意味でのチューリングテストではないんですが、そのくらいわりと難しかったと思います。

絵を描くAI

今日はGenerative AI、要するに文章とか絵を生成するAIについて少しお話ししようかなと思っています。

ちょっと前までは、といっても(流行が)終わったわけじゃないのですが、未だに世の中の主流は(スライドの)左側の認識、識別系AIです。Deep LearningがAIが中心になっていたんですが、最近にわかにSNSなんかをにぎわせているのは生成系のAIです。 これも実は急にポッと出たわけじゃなくて、昔からあるにはあったのですが、ここに来て急速に質が高くなったということです。

絵を描くAIには、前身というかバリバリ現役ですが、GANという2014年にできたAIがあります。

これがおもしろいのは、ものすごくざっくり言うと2つのAIが中に入っていることです。Generatorといって絵を描くAIと、それを見破る(Discriminatorという)AIの2つがセットになったAIがGANですね。

何をやっているかというと単純で、最初のうちは両者とも新人です。だから絵が下手な贋作作家と見破る技術がない識別者2人が、偽の絵を描いて片方が見破るということをする。このサイクルで、見破られてしまったら反省してもっといい絵を描けるようになるし、うまく見破られなかったら、今度は鑑定士(Discriminator)のほうが自分の見破るスキルを高めていくということで.

お互いが切磋琢磨しながらやがては本物そっくりな絵が描ける(ようになる)というちょっと不思議なAIです。この構造を残り15分ぐらい、ちょっと(脳の)短期メモリに置いてもらえればと思います。

文章を生成するAI

文章を生成する(AI)。GANは絵を作るAIの代表格ですが、これに対して文章を作るのもAIが得意な領域です。そもそも(AIは)ここから始まったと言っても差し障りないぐらいです。「ELIZA」というカウンセラーっぽい、サイコセラピストっぽいことをできる会話AIから始まりました。

その後(に出てきたものとして)、日本でも「りんな」のようなサービスがあります。

先ほどの話に出ましたが、GPTというものが出ました。2022年あたりに「GPT-4が出るんじゃないの」と噂されていていましたが、予測されているスペックがちょっとびっくりするぐらいで。これはもう本当に人間の脳の……。、(スライドを示して)これは概算だと思ってほしいんですが、(本当に人間の脳に)匹敵するようなスケールになるんじゃないかと言われていたところに、まさかのChatGPT、対話型のAIが先にリリースされました。詳しい事情は知らないんですが、たぶん遠からずGPT-4も出ると思いますが、先にChatGPTが出ました。

GPTが答えられる質問、答えるのに苦労する質問

先ほど自分のサブタイトルについてChatGPTに答えてもらいましたが、同じようにAIQVE ONEさんについても、今回のこと(QA Tech Night)についてもGPTに答えてもらいました。

(スライドを示して)ゲームテスト(についてGPTに聞くと)、こういうものがつらつらと出ます。薄く、間違いもなくというか。今日会場を貸してくださっているマイクロソフトさんとの社会的な関係性もあるので、あまりディスるようなことは言わないようにしたいと思いますが、学生がこういうレポートを出してきたら及第点をあげざるを得ないというか、そつのない、非常にすばらしい答えかなという気がします。

一方、これは余談ですが、この2つの質問のうち、どっちかの質問はGPTが答えるのに意外と苦労します。

実は下のほうの問題は、今のAIだとなかなかうまく答えられないんです。というのも、GPTはweb上で人間同士がやり取りしている文章を学習データとして使っているため、人間が言わないようなことはなかなか学習対象にならなくて、学習に反映されないんですね。

こういうことをきちんと漏れなくやろうとすると、なかなかしんどい作業になる可能性があるということで、わりと意外なところが盲点です。

テキストtoイメージAIと、イメージtoテキストAI

今まで、画像を生成するAIとGPTに代表されるような言語処理系のAIは独立して両方が進化してきたんですが、ここに来て急に言葉から絵を描く、あるいは画像を言葉で解析して説明するような合流が見られてきて、ここが非常におもしろい動きになっているなと思います。

(スライドを示して)この図ではCLIP-2などがちょっと苦しい位置になっていますが。CLIP-2の説明をしていると話が長くなるので、だいたいこんな感じですね。何も(意味のあることを)言っていないに等しい絵なんですが、一番左のLAION-5Bと書いてあるのは画像データベースです。Stable Diffusionなどもデータベースとして使っています。

テキスト付きの画像で、だいたい58億ぐらいの画像データが載っています。一説によれば、その中の10億ぐらいのデータを学習データとして使ったんじゃないかと言われていますが、そういう膨大な学習データを使って学習しているがゆえに、高性能な絵が描けるわけです。

しかも、GAFAのような大きな会社じゃなくても作れるようになっています。このあたりは非営利団体のデータベースがわりとリッチになってきていることも1つの要因です。

絵の話、テキストtoイメージの話をします。(スライドを示して)これはimagineというAIで作った絵です。本来ならOpenAIのDALL-E2を使ったデモンストレーションなどをするべきだったのですが、ちょっとうっかりしていました。

こういう絵を描けるようになっています。キーワードを入れるというわけではなくて、自然な文章を入れるだけでもう絵が描けるようになっています。これは2022年ぐらいですね、もうすでに古くて、今は最初のページで出したようにもっと良くなっています。

逆に、画像からその説明文ができるような、イメージtoテキストも当然進んでいます。

(そのAIを)「誰が使うのか」というところはあるのですが、この先、おそらくこのようなことも可能になってきます。

イメージtoイメージというと「何をするんだ」と思うのですが、このようなことも可能といえば可能になってくる。

そうなってくると、絵と文章を書いて画像を生成したものを基に文章を生成して、その文章を基に絵を生成するということで、どんどんカオスなことができるような時代になりつつあります。

商業的な価値があるかどうかはまだクエスチョンマークがつくのですが、こういうことができるようになってきています。

ゲーム内で新しい創造物が生まれるような遊びが出てくる可能性もある

こういうものができるということは、当然ゲームの中でも使えるという話が出てきています。会社名を出すといろいろ差し障りがありそうなので出しませんが、実際にコンセプトアートのところで、Stable Diffusionを使っている会社さんもすでにあります。

イメージボードを描く人は、絵を描く職業のはずなのに、絵の技術を高めるよりも絵がうまく表現されるような日本語、よく“呪文”と言われますが、それを一生懸命勉強しているというような、非常にカオスな状況になっています。

そういうかたちで、コンセプトアートからキャラクターデザイン、はたまたゲーム中のアイテムまで作れるような時代になってきて。この話は昔からあったといえばあったのですが、いよいよ実用レベルのクオリティになってきたというところが大きな違いかなと思います。

(スライドを示して)使い道は、これは本当に一例で、別にここしか使えないというわけではなく、あらゆるところに使えそうな気配があります。

今後おそらくこういうことに興味を持っているプランナーがゲームデザインをした時は、ゲーム中にキャラクターが歌を作るとか物語を作るとか、それに合わせてまた別のキャラクターが絵を描くというようなことで、ゲーム内で新しい創造物が生まれるような遊びも出てくる可能性はあります。

そうなると、ユーザーごとに違う絵ができてしまうことになります。

ではGenerative AIの品質は誰が保証するのか?

残り5分なので、急いでやります。ここからちょっとだけ問題提起をして、問題を投げっぱなしで話を終わろうと思います。「誰が保証する(のか)」というシリアスな問題が将来出てきそうだなと考えています。(スライドを示して)象徴する絵がこれですね。

これはAIが描いた絵ですが、もっと具体的にいうと、著作権とか意匠権、あとは公序良俗に反する絵が出てきてしまったり、「AIQVE ONEは質疑応答の技術の開発に特化した会社です」というような、嘘とは言わないけれど不正確なことがゲーム中に発生してしまう可能性があります。

今までは、ゲーム中でキャラクターが自由に話すことはあったにしろ、あらかじめゲーム制作期間中に用意されたデータベースの中でやりくりしていたので、データベースを法務なりどこかがきちんとチェックをすれば間違ったことをゲーム中に表現されてしまうことは、わりと防げたといえば防げました。

しかし今後、ゲームプレーの中でGenerative AIによって画像やテキストが生成されると、あらかじめ制作者が用意したデータベースの中からこぼれてしまうというか、巨大な第3者が収集したデータベースを使うことになるので、「その時にちょっとした不具合が起こらないと誰が言えるだろう」「いったいこれを誰が管理するんだろう」と。

「『いやいや、そもそも管理する必要はなくて、そういうものは発生しちゃうけどしょうがないよね』と啓蒙するなら、誰が啓蒙していくんだろうか」とか。そういった問題が顕在化してくるかなと思います。

NFTとかメタバースのように外部にリンクされていくと、問題はさらに広がっていくかなと感じます。

「誰がチェックするのか」が大きな問題になるんじゃないかと思います。

今日言いたかったのは、この薄っぺらいスライドにしているようなところで、今までになかったような問題が発生してきて、例えば先ほどお話ししたように、LAIONは58億枚の絵があるという時に、「58億の中から組み合わせた絵が出てくるので、58億枚の絵をチェックしてください」「なんかヤバそうなものがあったら弾いてください」というようなことじゃなくて、データベースがリッチになればなるほど、事前のチェックが非常に難しくなります。ここが問題として(今後)けっこう顕在化してくるんじゃないかということで。

GANの中の構造と同じように、作るAIと監視するAIが今後必要になるのではないでしょうか。

ということで問題提起をして、「じゃあ、どういう監視するAIを作ればいいの?」というところはまったく見当がつかないまま、講演を終わりにします。

ご清聴ありがとうございました。