クオリティが格段に上がった、音声や画像の生成AI

池田朋弘氏(以下、池田):(高桑さんは)全自動でPodcastを作っていて、文章やコンテンツもガンガン作っていると思うんですけど、これはどうですか? 

高桑宗一郎氏(以下、高桑):まさに僕も当てはまっていますね。Podcastの台本が10分尺だとすると相当な文章量ですので、繰り返し使うところでは(生成AIを)使っています。

「成形」というワードがありましたが、文章以外で使うシチュエーションとしては、インプットの時に全体図を把握したい場合や、それぞれの要素の因果関係を体系化して理解したい場合ですね。読書のような、ものすごく自由に寄り道できるバージョンでもよく活用しています。

散歩していて「なんで高速道路の蛍光灯はオレンジなんだろう」と思った時や、そこから発展したことなど、体系的に聞きたい時は全部生成AIに聞いていますね。

池田:すばらしい。使いこなしていますね。では次に行こうと思います。文章以外の生成AIの話ですね。まず2023年は音声がヒットしたかなと思っています。

スマホのアプリが出たのが2023年の5月だったのですが、音声入力でパッと聞けるのはすごく楽なんですね。ちなみに先ほどの高速道路の(蛍光灯の)話は音声ですか、それとも自分で入力するんですか?

高桑:音声ですね。

池田:そうですよね。音声のほうが楽かなと思います。外にいる時や移動中、あとは考えが整理されていなくて文章にするのが面倒くさい時や、疲れていてパソコンで入力したりスマホでフリックしたくない時に音声はすごく楽だなと。

あとは画像です。2023年の1月(時点)ではMidjourney(ミッドジャーニー)という画像生成AIはV4でしたが、今はV6になっています。これは同じプロンプトなんですが、リアリティが格段に違いますし、クオリティもまったく違います。

また「Flat Illustrationで世界地図っぽいのを描いてくれ」と言った場合、V4もけっこうクオリティが高かったんですが、V6はリアリティも洗練されているレベルも違うなと。画像もすごく良くなったなと思います。

AIの進化で、精巧なフェイクニュースが作れる時代に

池田:これは映像ですけど、上が新しい動画生成AIで下が昔のバージョンです。昔のもすごいんですけど、やっぱり新しいバージョンになってくるとリアリティのレベルが違います。下は「生成AIだな」という感じですけど、上は「あれ? 本物?」となっています。このあたりの精度のレベルは、1年間だけでもガーっとクオリティが上がったなと、さまざまなところで思います。

これは「HeyGen(ヘイジェン)」という人間のアバターを自分の映像から作るものです。(スライドは)私のAI映像なんですけど……1分くらいの動画を撮って1回学習させると、このテイストの動画が無限に作れるサービスです。

さまざまな領域で音声入力ができますし、出力もできます。画像も入力できますし、出力のレベルも高いです。動画はまだ(音声)入力ではありませんが、出力のクオリティが高い。1年間で大きく変わったんじゃないかなと思っています。

マルチにいろいろなAIを使ってコンテンツを作っていらっしゃると思うのですが、違いは感じますか?

高桑:感じます。Midjourneyは僕も有料課金していまして。まさにV4くらいから入ったんですけど、あらためてV6を見て、「すごいな」と(思います)。

池田:ぜんぜん違いますよね。

高桑:ぜんぜん違います。V5あたりから、人間を生成した時に指がちゃんと5本になり始めて、けっこう話題になりました。

池田:昔は6本でしたからね(笑)。

高桑:そうなんです(笑)。いろいろなところから指が生えちゃっていて。今はそういう矛盾がほとんどなくなってきています。

マッチングアプリでも、人なのかAIなのかわからないアイコンがたくさん増えてきています。逆に目利きがないと困るくらい、リテラシーのキャッチアップに追われています。そういうリスクというか心配ごとの観点でも、(2023年は)いろいろあったと思いますね。

池田:ありますよね。今「フェイクニュースが作れますね」というコメントが来ましたが、本当に作れちゃうんですよね。

高桑:もうドンピシャですね。

池田:なんなら、すでにけっこう出ていますからね(笑)。海外だとMrBeast (ミスター・ビースト)という有名なYouTuberがいるんですが、その人が投資商品を勧めているという(笑)。

高桑:(笑)。

リアルと見紛うほどのAIの「矛盾」を見抜くコツ

池田:最近Facebookでも、ホリエモンや有名な方が語っているやつがけっこう出てくるんですけど、あの動画版が出回っています。正直日本人が聞いても英語はそれなりに聞こえますし、動画のクオリティも高いので本当に本人に見えるんですよね。

高桑:(見抜くのは)難しいと思います。今のところは、毛穴がないとか背景の幾何学的な矛盾などが(見抜く)コツらしいんですよね。

池田:なるほど。見分け方のコツですね。

高桑:そうです。例えば今、お見せしている画面の後ろに青色のラインの壁があるのですが、向かって右側が数センチメートル上になってしまっています。背景の構造的な矛盾が、今のところAIは苦手らしいです。

池田:なるほど。

高桑:例えば人物だったら人に目が行きがちで、これから毛穴もどんどんリアルになっていくので、意外と背景の矛盾のほうが見つけやすいという話も出てきていますね。

池田:なるほど。これから自分がだまされないために覚えておきたいテクニックですね。(笑)。

高桑:(笑)。僕もそのマインドでキャッチアップしています。

池田:最近は音声を真似されて、オレオレ詐欺的なものに使われるリスクがあるくらいクオリティが上がっているので。マイナス部分を懸念しつつ、プラス部分としてできることをどんどん活かしていくと、楽しくなるんじゃないかと思います。