AI技術がもたらす「破壊」と「創造」

大岩央氏(以下、大岩):みなさま、本日はお忙しい中、PHP総研ブックフォーラムにご参加いただきありがとうございます。政策シンクタンクPHP総研の大岩と申します。

本日は、東京工業大学准教授・計算社会科学者である笹原和俊先生をお招きして、先生の新刊『ディープフェイクの衝撃 AI技術がもたらす破壊と創造』についてお話しいただきます。また、生成系AIとして、現在非常に話題を呼んでいるChatGPTが社会に及ぼす影響についてもお話しいただきます。

前半で、先生からスライドを使った講義をいただきまして、後半は私からの質疑応答と、参加者のみなさまからのご質問にお答えできればと思います。なお、ご質問はQ&Aの箇所よりお願いいたします。それでは笹原先生、よろしくお願いいたします。

笹原和俊氏(以下、笹原):ご紹介ありがとうございます。それから、ご参加していただいてるみなさん、平日の昼であるにもかかわらず、たくさんご参加いただきありがとうございます。

それでは、私からスライドを共有して始めさせていただきたいと思います。全部ではないんですけれども、『ディープフェイクの衝撃』という本の一部をご紹介したいと思います。

まず最初に、簡単に自己紹介をしたいと思います。私は1976年生まれでして、福島県出身です。2005年に学位をとりまして、しばらく名古屋にいました。その間、JST(科学技術振興機構)さきがけの研究者をしたり、2016年には名古屋大学の若手派遣の制度で、アメリカで在外研究する機会に恵まれました。

その時に、フェイクニュースの問題にぶち当たりました。それからずっとフェイクニュースの研究だったり、あるいは情報の信頼性やトラストといった研究をするようになりました。現在は東工大におりまして、計算社会科学、それから社会イノベーションに取り組んでおります。

SNS上でよく見られる、エコーチェンバー現象

笹原:どういう研究をしてきたかを語ることが、たぶん私を表現するのに最もよいかなと思うんですけれども。おそらく、学術的に一番評価されてる研究があるとするならば、この論文かなと思います。これは「エコーチェンバー」と言われる現象ですね。

要するに、社会が右と左に分断されてしまう。特にオンライン上で顕著に見られるわけなんですが、どうしてこういう現象が起こるのか。しかも、そういう「右だ左だ」という分断が生じると、フェイクニュースが拡散されやすいという特徴があるんです。

それがどういう仕組みで生じるのかを、理論モデルと、それからソーシャルメディアのデータを分析して、その一端を明らかにするのがこの論文です。

こういうものが、いわゆるエコーチェンバーと言われるものですね。これは2020年のアメリカ大統領選の時のエコーチェンバーです。

左側がバイデン派、右側がトランプ派のTwitter上のリツイートの拡散を表しています。こんなものがなぜできるのか? ということを研究してきました。

来月、総務省でこれに関する研究会がありまして、発表する予定です。おそらく後日スライドが公開されると思うので、興味のある方はご覧いただければと思います。

不確かな情報が拡散されたコロナ禍

笹原:それからもう1つは、コロナ禍やインフォデミック禍において、すごく不確かな情報が拡散するという現象が起こりました。必ずしも人間だけがそういうことをしてるんじゃなくて、Botと言われるような、「自動化されたアカウント」が加担していることを実証した論文です。

これは2023年のアメリカ大統領経済報告書なんですが、これに引用されました。引用されると、こういうメールが来るんですね。The Biden-Harris Administration(バイデン・ハリス政権)からこういう通知が来ました。

まずは何を思ったかというと、「アメリカってやっぱりすごいな」「こういう科学論文をちゃんと発掘して読んで、政策に活かそうという活動があるんだな」と、ちょっと感心をしました。

それと、自分たちがやった研究がきちんとエビデンスの1つとして使われたのが、すごくうれしく思いました。

私が取り組んでいるのが、まさにこういう問題です。「フェイクニュースの情報生態系」ということで、情報の発信者・媒介者がいて、受信者がいる。今の世の中は、まさに発信者も受信者であって、受信者も発信者である世界なんですが、(スライドのような)こういう弾み車があります。

この弾み車を動かすいろんな要因があって、それは経済的な動機もあれば、陰謀論、プロパガンダ、選挙ビジネス、情報戦、世論誘導、印象操作といったものもあります。

左側は技術系を書いてるんですが、今日のトピックの1つである生成系AIだったり、ディープフェイク、Bot。こういった問題があります。

『ディープフェイクの衝撃』執筆の背景

笹原:こういう、情報生態系の仕組みそのものを明らかにしないと、なかなかフェイクニュースの拡散などを防げないです。これを理解しよう、そして緩和するような技術を作っていこう、ということを研究しています。

その具体的なテーマの1つが、今日お話しする「ディープフェイク」です。まさに今、ディープフェイクのプロジェクトに関わっているんですが、この本を執筆した動機は、ディープフェイク技術のような視聴覚メディアを操作する能力が著しく高まった、現在の世界の功罪です。もちろん悪いことばかりではなくて、可能性もありますね。

そういったところを、初学者にでも、例えば高校生ぐらいにでもわかるように全体像を書いてみたいと思ったのが、執筆した動機になります。

これまでディープフェイクに関する本はいくつか書かれていて、おおよそディープフェイクを使ったポルノ動画に関するものだったり、いろんな政治的なプロパガンダの問題なんかが扱われていることが多いんですが、どうせ書くならば、そういう本が扱ってない部分を書きたいなと思いました。

それから、どうせ書くからには、やっぱりおもしろい本にしたいなと思いました。なかなか苦しんで書いたわけなんですけれども、出来上がった本が、今日紹介する『ディープフェイクの衝撃』という本です。

怖くても、ディープフェイクと共存しなければならない

笹原:これが、この本書の構成になっていて、後から思うと「なかなか良い献立になっていたな」と、思う次第です。最初は、いろんなディープフェイクに関する象徴的な事件、Example(例)について述べています。ディープフェイクの起こりから、最新の画像生成AIの話までを盛り込んでいます。

1章が、ディープフェイクの簡単な定義ですね。「ディープフェイクとは何か」を定義して、2章はちょっと教科書的になっているんですが、ディープフェイクを作るのに関係するようなAI。それから、そのAIの歴史、そして技術について書いています。

3章では「ディープフェイクに備える」ということで、作るほうがあれば、当然それを見抜くほうもあるので、検出する技術だったり、そういうことに関わる実験や技術について書いています。

4章が、計算社会科学者ならではの視点を入れたつもりで、おそらく他の本ではなかなか書かれていないことなのかなと思います。

ディープフェイクを怖いとは言っても、共存していかなきゃいけないし、共存どころか共創、Co-Creationの方向も模索していきたいなと思いますので、どういう問題があるのか、それを知った上でどう付き合っていけばいいのかを4章で述べています。

そんな献立になっていますので、ぜひ機会がありましたら、お手に取っていただけるとよろしいかなと思います。

時々刻々といろいろ技術が変わっていくわけなんですけれども、ディープフェイクの本質に関わる部分はそう古びるものではないと思っていますので、そのへんについてはしっかりと書いたつもりです。

たった2年で、約10倍に増えたディープフェイク動画

笹原:まず最初に、「ディープフェイクとは」ということなんですが、おそらくこのセミナーに参加されているみなさんは非常に関心が高いと思うので、釈迦に説法的なところはありますけれども、簡単に言うとこういうことですね。

ディープフェイクとは、「ディープラーニング」と「フェイク」という言葉を組み合わせた造語であると。ディープラーニングというのは、「深層学習」ですね。

ニューラルネットワークに代表される、ああいった機械学習モデルを多層にしたような、新しいタイプの機械学習の方法ですね。そういった、高度な機械学習等を使ったフェイクを作る技術ということです。

ですので、広義にはこういった深層学習も含め、人工知能の技術によって合成・生成されたメディアだったり、それを作るための技術のことを指します。

これはすごくニュートラルな定義の仕方で、特に悪意があって作るような場合じゃない場合では、「シンセティック・メディア」という呼び方をすることがあります。

一方で問題になってるのは、狭義のほうのディープフェイクです。人を騙す目的で、AIの技術を使って写真・音声・映像の一部を入れ替えて、本物そっくりに合成した偽のメディアということになります。

下のグラフに示したものは、2018年から2020年までにインターネット上で確認された、ディープフェイクの動画の数の推移を表しています。2018年当初は約8,000件ぐらいだったものが、たかだか2年でその10倍ぐらいまで増えている。

ものすごい勢いで、こういう合成コンテンツが増えているということです。必ずしも悪意を持った動画ということではないですが、少なくともAIが作った動画が増えています。

「まばたき」が不自然なディープフェイク動画

笹原:これは有名な例なので、みなさんもご存じかなと思いますけれども、オバマ大統領のディープフェイクですね。

実際にオバマ大統領が言っているわけではなくて、口の部分を合成して映画俳優の声を当てています。これはBuzzFeedというウェブメディアが、「こういう技術が出てきていますよ。気をつけましょう」という、啓蒙目的で作ったビデオです。

これを作るのに、当時は数十時間費やしたということです。なので、2、3年前の技術でもできるとはいえ、かなり時間がかかるし、それなりにソフトウェアやコンピューターに詳しくないと、なかなかこのクオリティのものはできないというわけですね。

音声自体はAIで合成しているわけじゃなくて、モノマネしてるだけなので、現在のようなディープフェイクともちょっと違います。

それから、ロシアがウクライナに侵攻して、ゼレンスキー大統領のディープフェイクが出ました。

まばたきに注目してもらうと、ちょっと気持ちが悪いことに気づくと思います。これは本の中でも書いたんですが、まず、映像の継ぎ目がすごく気持ちが悪いというか、おかしいと気づくと思います。ついで、まばたきがものすごく人工的だということに気づくと思うんですね。

今のAIの技術だと、まばたきを学習するのがあんまり上手じゃなくて。なんでかというと、Web上にある顔のデータって目を閉じてないことが多いんですね。

今のAIはWebにあるデータから学習するので、目が開いている状態のデータはたくさんあるんだけれども、目を閉じた状態の画像は少ないんです。そもそも、目を閉じた写真って、すぐゴミ箱に捨てちゃうと思うんですよね。

なので、すごく不自然な学習をしてしまうことが多いので、顔のディープフェイクを見抜く1つのやり方が、まばたきに着目することだと言われています。ただ、これもイタチごっこですので、もっと自然なまばたきをするAIが出てきてもまったく不思議ではないです。

AIが生成した絵画が展覧会で優勝

笹原:こういった動画が、今は普通の人でも簡単にできてしまいます。これはDeepfakes WebというWebサービスで、実際に我々も使っています。

何に使っているかというと、もちろん悪さをするためではなくて、実験をするためです。例えば、ディープフェイクを被験者に見せてどういう反応をするか。そんなような実験の素材を作るために、こういうツールを活用しているんです。

ベーシックプランだと基本料金は0ドルで、1本動画を作るのにだいたい15ドルかかる。5時間待つと、顔をスワップ(交換)したような動画が作れます。(ディープフェイクの動画が)15ドルで作れちゃうということです。

プレミアムプランになると月19ドルで、1時間ぐらいで(動画が)できて、1本15ドル。このくらいのお値段で、誰でも自然なディープフェイク動画ができてしまうというわけです。これは動画をアップロードするだけで、特別な技術も何も必要ないです。

最近、特に去年の暮れぐらいから非常に話題になっていたのが「画像生成AI」というやつですね。これは、私の本の記事の一部と共に、雑誌PRESIDENTのOnline版にも載ったので、もしかしたらご覧になった方もいらっしゃるかなと思います。

AIで作成した絵画を展覧会に出展したら、優勝してしまったというものですね。タイトルが『宇宙のオペラ座』という、非常に荘厳な感じの絵なわけですが、これは人が描いたのではないんです。

AIだけが作ったわけでもないんですが、Midjourneyという画像生成AIのサービスを使って、何枚かの絵を描いて人との共同で作ったものです。

当時、クリエイティビティこそが、人間に残された唯一の人間らしさだと思われていたものが、AIが描いた絵が優勝してしまったと。「なんだ、AIでもできちゃうのか」ということで、非常に衝撃的なニュースになりました。