「フェイク動画」はどうやって作られている？　ディープフェイクの仕組みと悪用対策

リンクをコピー

記事をブックマークブックマーク解除

画像・スライド一覧

SNSなどインターネット上で“ディープフェイク動画”を見たことがある人は、少なくないのではないでしょうか。その技術はクオリティを向上し続けており、現実と虚構の見分けがつかなくなるのは時間の問題です。プロでなくても簡単に作ることができることから、悪質な動画が増えてしまう懸念も。作る側にも見る側にもモラルが問われています。今回のYouTubeのサイエンス系動画チャンネル「SciShow」では、ディープフェイクが作られる仕組みと悪用対策について解説しました。

プロでなくても簡単に動画加工できる「ディープフェイク」

Hank Green（ハンク・グリーン）氏：CGIのおかげで、あたかも実在するように見える「架空の動画」が、ごく一般的になりました。例えば、（映像に見る）キャプテン・アメリカの体は、現実にはありえませんよね。

テレビや映画、ゲームなどで見る「Computer Generated Imagery（コンピュータージェネレイテッドイマジェリー）」つまりCGIは、何百万ドルものお金や、何ヶ月もの時間をかけて、専門教育を受けたプロが作り上げるものです。しかし、”deepfake”の登場により、そんな現状が変わろうとしています。

機械学習と人工知能を基にした”deepfake（ディープフェイク）”について聞いたことはあるでしょう。ディープフェイクの登場により、アマチュアでも動画を安価に手早く加工できるようになりました。現時点ではディープフェイクのクオリティは発展途上ですが、将来は格段に向上するでしょう。もしかしたら、現実と区別がつかなくなるかもしれません。

そんな未来が実現したら、どうなってしまうのでしょうか。実は、対策はもう練られているのです。

虚偽の選挙公報動画、ポルノ動画などに悪用される問題

ディープフェイクは、人工知能を使って“実在の人物が実際にしていない発言や行動をとる動画”を作成します。

動画の人物の身体に他人の顔を合成して、顔を差し替えたりするようなこともできます。実在する、とある動画のように、個人の楽しみとして、有名な映画の出演者を差し替えて加工することもできます。とはいえ、ニコラス・ケイジの差し替えだけは勘弁願いたいところです。

しかし、もっと悪どい利用法もあります。例えば2018年、ジョーダン・ピール監督は、バラク・オバマ元大統領に面白おかしく悪態をつかせたコンセプトビデオを製作しました。この動画は明らかに偽物でしたが、虚偽の選挙広報動画がいとも簡単にできてしまうことを広く知らしめました。

さらに恐ろしいことに、出回っているディープフェイク動画の95パーセントは、ディープフェイクだと明言していません。セレブはもちろん、ごく普通の一般人を合成した、合意の無いポルノ動画などがそれです。これは大きな問題です。

ディープフェイクが作られる仕組み

ディープフェイクの技術はまだ出て来たばかりなのですが、急激に進歩しています。一説によると、ディープフェイクの動画数は2019年には倍増しています。どんどん手軽に作れるようになってきているのが原因のようです。

ディープフェイクが使っているのは、敵対的生成ネットワーク、通称GANs（generative adversarial networks）と呼ばれる、新生の強力なコンピューティングメソッドです。

ディープフェイクを作るには、まず、“人の脳のニューロンの繋がり”をモデルにした学習能力のある人工知能である「ニューラルネットワーク」を2つ使用し、これに大量のトレーニングデータを与えます。

この場合は、動画を作りたい対象の人物の写真や動画です。次に、2つのネットワークを競合させます。片方のネットワークには、トレーニングデータを使って人物の顔をテンプレートにはめ込み、動画にして、ディープフェイクを作るよう指示します。もう片方のネットワークには、そのディープフェイクを観測して、トレーニングデータと比較させ、動画がリアルかどうかを判別するよう指示を出します。

これはそれぞれ”ジェネレーティブネットワーク（generative network）”と”ディスクリミネーティブネットワーク（discriminative network）”と呼ばれるもので、この2つが競合して何回もテストを繰り返す結果、ジェネレーティブネットワークの画像はどんどん洗練され、真に迫るディープフェイクが生成されます。最終的には、ディスクリミネーティブネットワークが真贋を判別できないほどの均衡点に達するのです。

もちろん、作られるディープフェイクは、ニューラルネットワークの性能の範囲内に限られますし、コンピュータを騙せても、人間を騙せるとは限りません。

現在では、チープなアマチュアレベルのディープフェイクであれば、ターゲットの画像250枚程度と、2日程のコンピュータプロセスで作ることができます。しかし、人間を騙せる品質ではありませんし、ニコラスケージ・パーティを合成する程度の、クオリティの低い動画しかできません。オバマ元大統領の動画のような、高品質のものを作成するには、いまだにプロの手を加える必要があります。

とはいえ、ディープフェイクを見破る難易度は、どんどん上がっています。例えば、以前であれば、不自然にまばたきが少ない人物を探せば見分けることができていました。しかし、専門家によれば、最近のものはもはやこの手法には頼れないようです。GANs同様、人間のプログラマーも、時と共にアルゴリズムを向上させているのです。そのため、今日、偽物の検出に使えた手法でも、翌日には使えなくなる可能性があります。

動画よりも似せるハードルが高いのは音声

さて、真贋の見分けが付かないほどのディープフェイクが作られる日は、来るのでしょうか。その答えは、いまだ議論の域を出ません。しかし、偽動画よりも高いハードルになるのは、「偽音声」です。顔の合成はかなり質が上がっており、GANsが人間を騙せる動画を生成する日は、遠からず来ることでしょう。しかし、人物に言葉を話させるのは、まったく別の問題です。

通常は、動画と同様、機械学習とGANsで音声を偽造できます。人物の声の録音データが、多少必要になる程度です。

しかし、芸術の域に達するような音声偽造ソフトウェアは、まだ人間を騙せるほどのクオリティではありません。人間による研究が、あまり進んでいないためでしょう。

しかしこれもまた、将来は変わる可能性があります。映画のクリエイターなどにとっては画期的なことではありますが、信頼できる情報の判別は、今後ますます困難となるでしょう。

メディアリテラシーがより一層求められる時代へ

これはゆゆしき問題であり、これに備えている企業もあります。例えば、”Truepic”という企業は、写真や動画のメタデータに注目してディープフェイクに対抗しようとしています。例えばスマートフォンについては、携帯が動画を撮影した時のGPS位置情報や、気圧や方角センサーなど、偽造しづらいデータを活用します。