AIが音を解析、即席のドラムキットを生成してリズムを奏でる

徳井直生氏:もう1つだけ、音楽のプロジェクトです。シリアスな音楽のプロジェクトというよりは、ちょっとした遊びというか、ゲームのような感覚で作ったものです。

これは何かというと「www.neuralbeatbox.net」というサイトが今も立ち上がっているので、もしよければ試してみてください。これでわかったかなと思うのですが、マイクで拾った音をAIで解析して、この音はキックドラムっぽいなとか、スネアっぽいなとか、ハイハットっぽいなとか識別して、即席のドラムキットを作ります。

さらにAIが生成したリズムで、その録音した音から作ったドラムセットを鳴らしているというものになります。平たく言うとAIがビートボクサーをやっている感じですかね。

Neural Beatbox from Qosmo / コズモ on Vimeo.

このWebサイトは、友だちとオンライン上で音をシェアしてセッションできたらいいねと……コロナ禍で友だちとなかなか会えない中で、音楽的なセッションをAIの助けを得ながら簡単に遊べたらいいねと作ったサイトです。個人的にはチンという音が気に入っています(笑)。

AIのおもしろい間違いや、適度な揺らぎが新しい表現や創造性の拡張を生み出す

ここでやっていることをもう1度説明すると、AIが生成したリズムがあります。このリズムの生成の仕組みは、先ほどのAI DJバージョン2で使っているリズムの生成と同じですが、先ほどは、生成したリズムをそのままシンセサイザーで鳴らしていました。

音の質としては、当然そっちのほうがいいんですよ。もともとドラムの音源として作られているものなので、AIが生成したリズムをそのままドラムマシンで鳴らしてもよかったのですが、それだとやはり人間の模倣にしかなりません。

なぜならば、このリズムの生成のモデルというのは、基本的には人間が過去に作ってきたリズムのパターンを学習して生成しているからです。結果的には人間の模倣に近くなってしまいます。そこで、ある種の揺らぎとして取り込んだのがこの音の識別のモデルです。

これは先ほどあったように、マイクでみなさんの音を取ります。手を叩いたりとか、カップを叩いたりして音を作って、それを識別します。そもそもドラムの音ではないので一般的なリズムからはちょっと質感が変わってしまうし、かつ、音の識別というのは100パーセント正しいわけではないので、たまに間違いが起こります。

でもそれが実はおもしろい。ガルバン然り、蓮沼さんとのプロジェクト然り、これもそうですが、間違いや揺らぎみたいなものをどう許容するか。もちろん全部の間違いがいいわけではないので、そこは取捨選択しないといけないのですが、おもしろい間違いとか、適度な揺らぎとかを許容することが新しい表現の誕生や創造性の拡張につながるのではないかと考えています。

どうしてもAIというと正確性第一みたいになってしまうのですが、あえてうまくAIに間違わせることで単なるランダムでもなく、正解ど真ん中でもないちょっと外角低めギリギリみたいな(笑)。そういうボールを投げてくれるものが作れるのではないかなと思っています。

アート、絵画、音楽に関しては「もっともらしさ」を学習する

ちょっと話を戻して、AIが創造性を持ち得るかという話をします。最初に、2017年にGANを使って生成した絵がクリスティーズで販売されたと話しました。

2017年から4年経ってクオリティがどうなっているかというと、これくらいになってきています。これが最新のアルゴリズムを使って、19世紀以前の絵画を学習して生成した絵です。

これは特別な仕組みを使っているわけではなくて、自分の大学の学生に授業でやらせたのですが、それでもこのレベルの絵がAIを使って生成できます。確かに一番左とかは、ルノワールっぽいなとか思いますし、それっぽいものはできるようになりました。でもこれはやはり過去の作品を真似していることにしかならないのではないか。

例えばいくら19世紀以前の絵画を学習したところで、ピカソのキュビズムみたいなものは絶対出てこないわけですよね。なぜかというと、例えばAlphaGoが人間のチャンピオンを破ったという話をみなさんも覚えていると思うのですが、囲碁等とは違って明確な評価基準がありません。勝ち負けがないというのがすごく大きなところです。

アート、絵画、音楽に関しては、明確な良し悪しを評価する基準がなくて、かつ、基準も時代によって変わっていきます。であるならば、AIは何をもって学習しているかというと、もっともらしさなんですよね。

過去のスタイルや過去の作品にどれくらい近いかを評価基準にして学習しているので、当然学習して生成した結果は近くなります。いくら丁寧に学習したところで、ここから新しいものは直接的には生まれてきません。

意図的にAIを誤用して、新しい表現を生み出す

それに対して、ちょっと見ていただきたいのですが、これです。本を読んだ方はすでに答えをご存じかと思うのですが、これは何に見えますか? もし何に見えるかがわかる方がいたら、チャットに答えてもらえればと思います。

この部屋にもあって、今も動いていますね。みなさん夏になると必ず……必ずではないかな。使いますかね。お、おもしろい! 「亀に見えます」「コウモリに見えます」。コウモリ、確かにそれっぽいですね。「猫」。猫はなかなか想像力が豊かな……あ、でも猫にも見えるのかな。「ヨーダに見えました」。確かに(笑)。ヨーダに見えるかもしれない。

「扇風機」「ファン」「空調」とあります。当たっています。先ほどの画像では隠していたのですが、実はこの下に「This is not an electic fan」という言葉が入っています。これは扇風機、electic fanではないよとある種の皮肉になっています。実際これはファンではないですよね。ランダムに描かれたかのように見える丸と三角と線の集合でしかないんです。

ただ、実はこれをカメラで撮って画像認識にかけると扇風機として認識されます。スクリーンショットを撮ってもらって試すといいかなと思うのですが、扇風機として認識されます。なぜかというと、実はこの抽象画は画像認識のモデルを利用して描かれたものなんです。

トム・ホワイトという僕の友人であるニュージーランド人のアーティストの作品です。彼は何をやったかというと、例えば最初に丸と点、線をランダムにキャンバスの上に描きます。それを画像認識のモデルにかけて、何に見えるかを推定します。

これが何に見えるかと言われるとなかなかむずかしいですが、例えば「これはメガネだ」と推定したとします。ここでアーティストのトム・ホワイトは「俺はelectic fanを作りたいんだ」と最初に指定しています。画像認識のモデルのアウトプットの、electic fanという値が上がるように画像をちょっとずつアップデートしています。

この画像のアップデートを繰り返していくと、最終的にはelectic fanとして認識されるような絵画ができるというわけです。これは本当におもしろくて、それぞれいくつかパターンがあります。例えばこのピンク色のものはミシンだったり、一番左側がフォークリフトだったりするのですが、なんとなく特徴というか、ミシンらしさみたいなものを捉えている感じがします。

ここで大事なのは、ミシンの抽象画を学習して生成した絵ではないということです。絵画としてのもっともらしさ、抽象画としてのもっともらしさを評価する代わりに、AIが得意な指標である画像認識のモデルを利用して、そのものとして認識されるかどうかを測って、それをもとにこの絵を描いているわけですね。

画像認識の本来の使い方からするとちょっと外れた使い方です。でもあえて意図的にAIを誤用することで、模倣ではない新しい表現を生み出したと言えると思います。

3つ目のポイントはAIを意図的に誤用する。言うまでもなく、社会に害があるような誤用はよくありませんが、AIを意図的に誤用するというのが1つマインドセットとして重要なのかなと思います。

今ちょうど質問が来ています。「ある程度、特徴量を抽出していると理解してよいのでしょうか?」。そうですね、特徴量を抽出しています。あらかじめ指定したミシンだったらミシン、electic fanだったらfanとして推定されるように画像をアップデートしていっています。

画家たちに新しい表現を模索させた写真技術の登場

ここまでいくつかのプロジェクトを紹介したので、ちょっと視点を変えたお話をしたいなと思います。本の中でも少し書いているのですが、機械の歴史のお話です。

これは、1843年の新聞にあった風刺画です。真ん中にいるのが当時新しく出てきた職業として注目されていた写真家ですね。右側、ちょっとピエロのようにも見えるのですが、指をくわえている人がいます。これは肖像画家ですね。つまり肖像画を書いていた人たちが写真技術が生まれたことによって職を失って、指をくわえて見ているという感じです。

今は画家というとアーティストのイメージが強いですが、当時はどちらかというと職業画家が多くて、基本的にはパトロン、つまり王様だったり、貴族だったり、お金持ちの商人に雇われて肖像画を描くのがメインの収入源でした。なので写真が出てきたのが非常に驚異だったわけですね。

ナポレオンの絵を歴史の教科書で見たことがある方もいると思います。ドラローシュという画家ですね。この方はたまたま当時の写真技術のお披露目の会に同席する機会があって、そのデモを見た瞬間に「今日限りに絵画は死んだ」と言ったと言われています。

それはそうですよね。今まで時間をかけて描いてきたものが、当時はまだまだ画質としては良くなかったとはいえ、一瞬でその場の風景が写しとられてしまうというのは、非常に脅威だったと思います。

ただ実際どうなったかというと、みなさんご存じのとおり絵画は死んではいないですよね。今も絵を描く人がいて、アートマーケットというのがきちっと動いている。ただ少し絵画表現というものは、当時の写真以前のものと今では変わってきています。

どう変わったかというと、例えばミレーも19世紀の終わりくらいの画家ですが、非常に高精細な絵を描くようになりました。一部、写真の影響があると言われています。つまり写真を撮って、写真をお手本に描くようになったことで非常に絵の写実性が上がったと言われているんですね。

もう1つ、日本でも大人気のドガですね。ドガというとすごく巨匠! というイメージがあるのですが、当時は最先端の技術を使いこなす新進気鋭のアーティストでした。ドガのこの絵のどこに新しさがあるかというと、まずはフレーミングですね。

右側の絵を見ると、このバレリーナの首のところがバッサリ切れています。手前にいる人はコントラバスですかね。コントラバスを弾いている方もちょうど手のところで切れています。

写真以前の絵画では、こういうフレーミングは少なかったはずです。なぜドガが、こういうフレーミングを描くことで非常に迫力のある、臨場感のある絵が描けるようになったかというと、写真の影響があると言われています。

ドガ自身がカメラを持っていて、左にあるようにモデルさんの写真を撮って、それをベースに絵を描いていたそうです。右側のバレリーナの絵も、同じように顔のところで切れていますね。手しか見えていない人もいます。

ほかにもカイユボットという画家がいますが、その人は魚眼レンズのような絵を描いています。それもカメラの影響があると言われています。さらに何度も例に出していますが、ピカソも写真がなかったらもしかしたら生まれていなかったかもしれません。

例えばこれは、ドラマールというピカソの愛人だった人ですね。有名なモデルさんで、左側が同じドラマールを撮ったマン・レイの写真、右側がピカソが描いた絵です。つまり左のように写真技術が上がってきて、キレイに写真が撮れるようになった時に、画家であるピカソが同じような写実的な絵を描く必要がなくなりました。

かつ、1人のモデルに対してさまざまな角度から写真を撮って、それを見比べることができるようになりました。写実的な絵を描く必要がなくなり、いろいろな角度から見られるようになったことが相まって、最終的にピカソや同時代の先進的な画家たちは新しい表現を模索するようになりました。

ゴッホも弟に宛てた手紙の中で、「これからは絵画は描写じゃない、写実性ではない。写真が出てきたからには、僕たちは写実ではない表現を目指さないといけない」ということを書いていたりします。

AIにより人間は新しいアイデアを追求できる

くどくどと、絵画についてお話ししましたが、何が言いたかったかというと、結局、写真技術は今のAIなんですよ。自動化の技術なんですね。21世紀のAIにあたるものが、当時の写真技術だったと言っていいと思います。

写真にそれまで画家がやってきたことを真似させることで何が起きたかというと、確かに一部の、例えば肖像画家は仕事を失ったかもしれません。一方で、絵を描くという行為のアップデートにつながりました。例えばより精密に絵を描く、あるいは新しいフレーミングを試す人が出てくるということがありました。

さらにピカソのような人たちは、今までの写実的な表現から外れて新しい表現を追求する方向に向かいました。そういった動機付けを与えられたんですね。あるいはそういう新しい方向に向かわざるを得なかったというところもあるのかもしれません。

同じことがたぶんAIに言えるのだろうなと思います。結局、それまで人がやってきた知的な行為を真似するのがAIです。AIに真似させることで確かに機械にできることしかやっていない人は駆逐されるでしょう。これは如何ともしがたい現実だと思います。

ただ、人がこれまでやってきた行為をアップデートしていくと、今まで思いつかなかったようなアイデアや、やり方が見つかっていくでしょう。さらにはもっと自由に、今までの常識とか思い込みとかから離れて新しいアイデアを追求できるし、追求すべきだと。なぜならすでにやり方がわかっていること、あるいは定式化されているものは、きっとAIがより効率的にやってくれるからです。

ここまで主に音楽やアートについてお話ししてきましたが、確実に音楽やアートの表現の世界だけではなく、ビジネスの世界や、もっと幅広い領域で同じようなことが言えるのだろうなと信じています。

(次回へつづく)