音で発想するチームから生まれた初音ミク

伊藤博之氏:すごい暑いですね、この部屋(笑)。すでにもう熱気が伝わってきて、すごくうれしいです。改めまして、伊藤博之といいます。

今日は未来授業という、なんか仰々しい、知的な名前の授業に、僕がここに立っていいのかと思いながら、今います。テーマは、「人に寄り添うバーチャルとは」というお題で進めさせていただきます。

こういうかたちで授業をするのは初めてなので(笑)、ちょっとドギマギしながら進めていこうと思っています、どうぞよろしくお願いします。最初に初音ミクさんについて講義をしようかなと。15分ぐらいを目標にして話そうと思っています。

僕はクリプトン・フューチャー・メディアという会社をやっています。この会社が初音ミクを開発している会社で、そのほか、今まさに札幌で開催中の「No Maps」というイベントがあって、お手持ちの資料の中にも今日パンフレットを入れさせていただいたので、あとでぜひご覧になっていただければと思います。

「札幌の街に未来をインストール」ということをキャッチコピーとした、未来志向のイベントです。その実行委員長をやっていたりします。あとはいろんなことをやっていますけども、ちょっと割愛します。

うちの会社は札幌にあるんですね。もう設立して22年経つんですけど、ずっと札幌です。僕の前の職業が北大の職員だったっていうこともあって、大学発ベンチャーとして認定されています。

「『音』で発想するチーム」というキャッチコピーで、音をもっぱらやっている会社です(笑)。どんなことをやってるかというのは後で説明します。今日は冒頭の講義で、この4つをテーマにちょっと順番に説明していきます。

Virtual Instruments(バーチャルインストゥルメンツ)、UGC、ムーブメンツ……ムーブメンツというのは初音ミクのイベントです。あと、CGコンサルト。

「声」を発する仮想楽器

まずVirtual Instruments。Virtualとは「仮想」という意味ですね、で、Instrumentsはここでは「楽器」ということです。直訳すると「仮想楽器」。なんのこっちゃなんですが、コンピュータの中にインストールをして、楽器ではないんだけど楽器の音色を奏でるソフトウェアのことです。

ドラムとか、多くの方は見たことはあっても持ったことはないですよね。なかなかドラムという楽器自体を持つのって大変だと思うんですよ。家に置いて叩いたりすると、たぶんいろんなところから苦情が来ると思いますし。同様にグランドピアノも、なかなか下宿とか、自分のアパートに置けないですよね。でも、Virtual Instrumentsだったら持てるんです。コンピュータの中にインストールするので、質量ゼロですから。

これはドラムのVirtual Instrumentsです。ドラムの音が人間の叩いた音なのか、それともコンピュータのドラムなのかっていうことが、パッと聞いた感じでは判断がつかないぐらい、緻密な音を出すことができます。

これはオーケストラですね。ドラムとかピアノって、がんばれば個人でも持てますよね。でも、さすがにオーケストラを持つのって個人じゃ無理で、こういうVirtual Instrumentsというソフトウェアに頼るしかないんですけど。ちょっと音を聞いてみましょうか。出るかな?

(オーケストラの音が流れる)

これは、このVirtual Instrumentsで演奏させた音楽です。こんな音色を、自分の狭いアパートの中でも作ることができるようになる。いろんな楽器をVirtual Instrumentsとして取り扱ってきました。ピアノもそうですし、ドラムとかパーカッションとか、ありとあらゆる楽器です。じゃあ人間の歌声もやりたいよね、って、当然なるわけです。そこから生まれたのが、初音ミクなんですね。

初音ミクの誕生した経緯

初音ミクはソフトウェアです。歌を奏でるソフトウェアです。このソフトウェアは、いきなり唐突に出てきたわけじゃなくて。実はうちの会社はVirtual Instrumentsを、その前は音を扱っている会社で、その中でピアノとかギターとか、いろんな楽器をVirtual Instrumentsとして扱っていましたと。

その流れで、「ボーカルも欲しい」と。ボーカルってなかなか難しいんですよ。楽器と言っても、ポーンって鳴らして、なんか減衰して終わりではなくて、歌唱だとか、いろいろ複雑なパラメータがあって、合成するのって技術的にけっこう難しいんです。その時、ちょうどヤマハさんが「ボーカロイド」という技術を開発して。「これで何かできませんかね?」みたいなディスカッションをする中で製品化したんです。

ボーカロイドはアニメとかで活躍する声優さんの声を徹底的に録音して、その人の声をコンピュータ上で真似ることで実現します。なので、元の人間が必要なんです。初音ミクの場合は、かわいらしい声が特徴なんですけど、アニメとかで活躍する声優さんを中の人に起用して収録したので、そういう声になっているんですね。

「音声合成技術」という技術分野があります。Text to Speech、略してTTS。TTS技術は昔からあります。みなさんが生まれるはるか昔、昭和の時代からどこの技術系の会社も持っていました。日立、ソニーもそうですし、テクノロジー系の会社はだいたいオリジナルのTTS技術を持っていました。なので、音声合成技術自体は新しいものではありません。

歌う音声を合成する難しさ

コンピュータ・ミュージックという、コンピュータで音楽を奏でるという技術というか、ソフトウェアのカテゴリがありますけれども、コンピュータが新しく出ると、だいたいどのコンピュータも、Macもそうですし、Windowsもそうでしたし、過去にはAtariとかAmigaとか(笑)、ちょっとマニアックなコンピュータのOSが登場していた時期もあるんですけど。新しいコンピュータが出ると、大抵初期の段階で2つのカテゴリのソフトが出ます。

1つはゲーム。もう1つはコンピュータ・ミュージック。要するに、コンピュータが出ると、人はなんかゲームとコンピュータ・ミュージックのソフトウェアを作っちゃうんです。そのぐらいにコンピュータ・ミュージックっていうのはコンピュータと親和性が高く、初期の段階から取り組まれてきたソフトウェアの分野で、昔からあります。新しいものではありません。

TTSは普通のしゃべり声です。歌声も含むかもしれませんけども、もっぱらしゃべる人の声ですね。コンピュータ・ミュージックはピコピコした電子音楽ですけど、そのハイブリッドというか、歌声を合成する技術っていうのは、実はそれほど研究開発がなされてこなかった。

それはなぜかというと、そもそも「どうやってビジネスにするの?」という、ニーズがあんまりないからですね。ましてやキャラクターをくっつけるっていう試みはなかったんです。

合成音声にキャラクターをつけるという発想

厳密に言うと初音ミクの前に、知っている方は知っている「MEIKO」とか「KAITO」という別のうちの作ったキャラクターがいて、MEIKOっていうのがいちばん最初なんですけど、それ以前はキャラクターをつけるという試みはなかった。

技術は歌声を合成するというものなので、本体と比較して、キャラクターっておまけみたいに感じるでしょ? 僕らも最初はそういうふうに思っていたんですけど、実は初音ミクを広めて、文化にまで昇華させるにあたってのキャラクターの位置は、単なるおまけでは済まないものだったわけです。

なぜかと言うと、初音ミクというモチーフをきっかけにして、いろんな創作が生まれている。ある創作が生まれるだけで終わらずに、その創作からまた別の創作が生まれてくるという、創作の連鎖が起こっていくわけですね、インターネット上で。その媒介には声ももちろん重要でしたが、キャラクター設定もものすごく貢献したわけですね。