AIベースのDJシステムと人間が共演する「AI DJ Project」
徳井直生氏:じゃあどんなことをやっているのかを、主にQosmoでの取り組みを中心にお話ししたいなと思います。最初にいくつか音楽関係のプロジェクトを紹介します。まず紹介するのが、「AI DJ Project」というものです。2016年くらいからやっているので、もう5年くらいやっている長いプロジェクトです。
これは何かというと、名前のとおりAIでDJをするプロジェクトです。AIに完全に自動化させるのではなくて、AIベースのDJシステムと僕自身の共演というかたちでパフォーマンスを構成しています。
当初は交互に選曲する仕組みを取っていました。Back to Backという枠組みで、僕が1曲かけるとAIが次の曲をかける。それを受けて僕がまたその次の曲をかけるというかたちで、ジャズの掛け合いのようなものを実現していました。
このあとでまた紹介しますが、最近はAIを用いた即興演奏みたいなところに仕組みが変わってきています。僕は、AIを使うことでDJというプロセスを簡単にしたいと思っているわけではなくて、むしろ難しくしたいと思っています。
AIという異物というか、ここでは外乱という言葉を使っていますが、異質なものを取り込むことで想像していなかったハプニングを起こす。長年DJをやってくるとついてくる手癖をそれを使ってどうやって打ち破れるかと考えたりしています。
AI DJ Projectを始めた当時は、先輩のDJに「AIにやらせるとは何事だ!」とすごく怒られたりもしましたが、(笑)なんだかんだで4年くらいしぶとく続けています。
実際に軽く見てもらうと思います。この時は、僕ではなくてDJ Licaxxxさんとtofubeatsの2人のDJにやってもらいました。今、Licaxxxが選曲をしていて、AIがそれを解析して次の曲を選んでいるところです。
AI DJ Project - A dialog between human and AI through music from Qosmo / コズモ on Vimeo.
DJの一番ベーシックな役割は、今かかっている曲の雰囲気をうまく引き継ぎながらお客さんを気持ちよく踊らせることなので、AIがやっていることはこのあとに詳しく説明しますが、今かかっている曲に雰囲気が近い曲を選ぶかたちになっています。
このプロジェクトでは、あえてレコードを使ってDJをしているので、専用のターンテーブル、レコードプレーヤーを使ってAIがテンポを合わせるということもやっています。ほかにも、お客さんの動きを見て、どれくらい踊っているかを選曲に反映させるということもやっています。
幸いなことに、2019年には「Google I/O」というGoogleが年1回開催している開発者向けのイベントに呼んでもらって、Google CEOのピチャイさんのキーノートスピーチの前の時間をいただいて、1万5,000人くらいの前でこのAI DJをやりました。
CNNを音楽データに当てはめたモデルで選曲
このプロジェクトのコアになっているのは選曲です。先ほどの先輩DJの言葉にもあったように、AIにやらせるというのは結局人間の猿真似をさせていて、その結果自動化するということなんじゃないかと思われる方が多いと思います。
実際に最初は僕も、過去のDJがどういうふうに選曲していたかを学習させることを試みました。ただ、そうすると非常に平均的な結果になってしまう。この曲のあとにこの曲をかけたら、それは確かに間違いないよねという最大公約数的な結果になりがちでした。
それを象徴しているのがこのグラフです。これは学習したデータを可視化したものなのですが、いろいろなアーティストがかけている曲を可視化しています。やはりジャンルによってかける曲が違うので、かけるアーティストに偏りがあって塊ができます。
一番真ん中にズームすると、マイケル・ジャクソンの名前が出てきました。要するにどんなジャンルのDJでもマイケル・ジャクソンはみんなかけるということです(笑)。
当たり前と言えば当たり前なのかもしれませんが、個人的にはすごくおもしろいと思いました。データを集めて、それを解析して真似しようとすると、みんながかけるような平均的な答えにたどり着きがちだということに気づかせてくれた可視化でした。
平均的な結果になってしまっては、僕のもともとの意図からはだいぶ離れてしまう、じゃあどうしようか。次に、1度過去の人間のDJがどうやっているかを忘れて、単純に音だけにフォーカスしてみました。
ここでやっているのが、畳み込みニューラルネットワークです。Convolutional Neural Networkという、AIのことをかじった方であればご存じだと思いますが、例えばライオンの画像があった時に、これは虎ではなくてライオンですよと識別する画像認識でよく使われているモデルです。
このモデルを今回は音楽データに当てはめました。ここにあるようなスペクトログラムと言われる音の時間軸と周波数を可視化した画像ですね。これをConvolutional Neural Networkにかけて、その曲のジャンルだったり使われている楽器だったりを推定するモデルを作りました。
これによって雰囲気を音だけから推定できます。この曲は爽やかな感じで踊れる曲だとか、これはかなりダークで激しめの曲だとかを推定できるようになりました。それによってAIが、人間のDJがかけている曲の次にかけるものとしてぴったりくる曲を選ぶことができるようになったというわけです。
その結果、この曲に対してこんな曲をかけていいんだというような、けっこう意外性のある選曲が生まれました。例えば、僕がテクノの曲をかけているのにもかかわらず、いきなりジャズの曲を選曲してきて、それを実際かけてみるとすごくミックスがうまくいったという事例がありました。
人間のDJは、あまりジャンルを超えて選曲することをやらないのですが、AIはジャンルではなくて、曲の雰囲気を推定しているので、雰囲気的にこの曲は似ていると推定したんですね。
ジャンルというこだわりを超えた新しい選曲のかたちというか、こんな選曲ありなんだ! というのをAIに教えられたという事例です。
実はこのシステムは、みなさんレストランやカフェに行った時に、もしかしたら使われているかもしれません。これは「AI BGM」という名前なのですが、最近USENさんにこのAIの選曲システムを提供しました。時間帯や季節、あるいは好きなジャンルに合わせてスムーズな選曲をAIがしてくれるというシステムが実際に商用化されています。
なので、もしかするとみなさんがカフェやレストランで聞いている音楽は、AIが選んでいる可能性があるというわけです。
人間の行為の本質に着目することが大事
もう1つ、ここは本当に最近の事例です。2021年11月に公開したばかりのもので、先ほどのAI DJのバージョン1では選曲だったのですが、今は作曲をやらせています。リズム、ベースラインを生成して、メロディーにあたる音を選んでリアルタイムにAIが音楽を生成するということをやっています。ちょっとお見せしますね。
AI DJ Project#2 Ubiquitous Rhythm—A Spontaneous Jam Session with AI (10min digest) from Qosmo / コズモ on Vimeo.
こんな感じで、その場でAIが生成した音を僕がコントロールしながら1つのパフォーマンスとして実現しています。このパフォーマンスはまだオンラインでしかやったことがありませんが、いずれはクラブとかリアルの場でやってみたいなと思っています。
たぶん将棋や囲碁のイメージが強いんだと思うのですが、「AI vs 人」みたいな感じでAIと人の関係性を捉えている人が意外と多いのかなと思います。よく言われていることではありますが、「AI × 人」というイメージを持っておくことがまず大事かなと思います。
その時に、もう1つポイントとしてはAIになにか人がやっていることを任せる時、つまり人がやっていることを模倣するシステムを作る時に、人が過去どうやってきたかとか、どういうデータを作ってきたかとかも大事なんですが、それ以上に、なぜ人がそういうプロセスや、やり方を取ってきたのかという行為の本質に着目することが大事なのかなと思います。
例えばAI DJでも、先ほど言ったようにプレイリストを学習するのではなくて、そもそもAIは何をやっているんだっけ? とAIシステムを作る過程で改めて考えて、その結果、似ている曲を選んでいくことが一番の基本だよということです。
1度、人間が過去にどうやってきたかを無視して、曲の雰囲気を類推する、推定するというモデルを作った、というところにこのプロジェクトがおもしろいものになった理由があるのかなと思います。
フラメンコダンサーとのプロジェクト「Israel & イスラエル」
次のプロジェクトにいきたいと思います。DJから、今度はいきなりフラメンコで驚かれるかもしれません。フラメンコといっても、みなさんが想像されるフラメンコとは違うものです。ちょっと見てみてください。
これは天才フラメンコダンサー、革命児と言われているイスラエル・ガルバンさんというスペイン人のダンサーとのプロジェクト「Israel & イスラエル」です。山口にあるYCAMというメディアアートセンターと共同で実施しました。
サパテアードという、フラメンコで言うところのタップダンスみたいなもの。足のリズムですね。それを学習して、その学習したAIと本人が共演します。先ほどのDJのBack to Backに近いかたちで、フラメンコのダンサーとAIが交互にリズムを通した掛け合いをするというものです。
これも専用の靴を作って、データを取るところからやったのですが、そのへんもかなり苦労しました。彼のデータを取ってAIが学習して、そのあと学習したAIで生成したリズムを本人に聞かせたところ、「これはフラメンコらしくておもしろくない」と怒られたんですね。
彼は実はほかのフラメンコダンサーとあまり踊らないことで有名です。普通フラメンコというと、男女のカップルが情熱的な踊りをするというイメージがあると思うのですが、彼はあまりほかのダンサーと踊らないんですね。それはなぜかというと、ほかのダンサーと踊ると、自分のフラメンコらしさが引っ張られてしまうからというようなことを言っていました。
このへんがかなり難しかったところなのですが、あえて学習したモデルを一部意図的に壊したり、あるいは生成したものに対して確率的に揺らぎ、ランダム性を加えたりすることで、少し伝統的なフラメンコから逸脱するということをやってみました。その結果、新しいダンスのリズムみたいなものが生まれたというプロジェクトです。
Israel & イスラエル from YCAM on Vimeo.
揺らぎや逸脱を加えて新しい表現やアイデアを創造する
同様に、ぜんぜんフラメンコと違うのですが、蓮沼執太さんという作曲家と同じような取り組みをしました。この時も、蓮沼さんの曲を学習したAIを使って生成したメロディーを、蓮沼さん自身はメロディー自体には手を加えずに、リズムやその他の伴奏を少し加えて、ライブで演奏しました。
この時も、蓮沼さんの曲をそのまま使うというよりは、先ほど言ったように少し確率的な揺らぎを与えて、彼の単なる模倣ではなくて、そこから少しだけ逸脱しました。この少しだけというところがけっこうおもしろいところで、キーになるのかなと思います。
実際共演したアーティストから、いくつかコメントをもらっていて、例えばガルバンは「未知の生物と踊っているような気がした」と。「君はエンジニアだと俺は思っていたけど、いや、アーティストだな」と最後に言ってくれて、うれしかったです。
蓮沼さんも、「自分っぽいところがあるんだけど、自分では思いつかなかったコード進行が出てきていて、そこがすごく刺激的だった」とおしゃってくれて、バンドのメンバーの方も、「何十年もギターをやってきたのに、まだ使ってなかった音楽脳を刺激された感覚がある」とおっしゃってくれました。
このへんが、AIを使った単なる模倣ではなくて、新しい表現やアイデアを作るというところで1つヒントになる事例なのかなと思って、この2つを紹介しました。
(次回へつづく)