ログイン

会員登録

ログイン

会員登録

検索

お知らせ

ログイン

メニュー

検索

お知らせ

ログイン

メニュー

YAPC::Kyoto 2023

2023.03.19 - 2023.03.19

法と技術の交差点（全4記事）

2023.06.12

メインカテゴリテクノロジー

「偶然似た」と言いやすいコードの著作権をどう考えるか　AIの学習・出力の点から見た、絵とは異なる“ややこしさ”

コピーリンクをコピー

ブックマーク記事をブックマーク

画像・スライド一覧

「YAPC（Yet Another Perl Conference）」は、Perlを軸としたITに関わるすべての人のためのカンファレンスです。ここで立命館大学情報理工学部情報理工学科教授の上原氏、立命館大学法学部法学科教授の宮脇氏が「法と技術の交差点」をテーマに登壇。まずは、AIの学習と出力における著作権の問題について話します。 ※本記事の内容は、2023年3月19日時点のものです。

登壇者の紹介

司会者：このセッションの進行は、Pasta-Kが担当します。よろしくお願いします。さっそくですが、登壇者の紹介からしたいと思います。奥から立命館大学情報理工学部教授の上原哲太郎先生です。よろしくお願いします。

（会場拍手）

上原哲太郎氏（以下、上原）：よろしくお願いします。

司会者：もう一方。僕の手前側が、立命館大学法学部教授の宮脇正晴先生です。よろしくお願いします。

宮脇正晴氏（以下、宮脇）：よろしくお願いします。

司会者：今日は「法と技術の交差点」ということで、技術の上原先生と法学部の宮脇先生に来ていただいて、技術や著作権に関していろいろ話を聞いていこうと思っています。

画面に出ているんですが、QRコードから随時質問とかを受けたいと思っています。「これ、ちょっとどうなっているの」とか、「これ、ぶっちゃけどうなの」とか質問があったら、僕がどんどん拾ってお二人にぶつけていこうと思っているので、みなさんよろしくお願いします。

「AIに学習させること」と「AIの出力」それぞれの権利関係

司会者：というわけで、先ほど打ち合わせの部屋で「今日は何の話をしようか」ということでいろいろ話をしていて。今日も会場ですごく出ていましたが、今一番ホットなのが「ChatGPT」だと思います。

あのあたり（の話の中）でどこからいこうかなと思うんですが、学習元とか、そのあたりのいろいろな権利がどうなっているのか、そもそも技術的にそれをどのように使うのか、それを使っていくことをどう捉えていくのがいいかという話題があると思います。

学習元の権利みたいなところはどういうふうに捉えられていますか？　宮脇先生。

宮脇：学習元については、まず機械学習でどんどんデータを吸わせるんですが、その段階ではっきり（データを吸わせることを）許す規定があるので、基本的には著作権侵害にならないですね。もちろん但書きとかがあって、「利益を害する」みたいなものはあるんですが、基本的にはタダでできるということです。

その結果、創作するAIとかに絵を描かせると。描かせた絵が既存の絵とすごく似ている時には著作権侵害になるかもしれないですね。だから学習させるのはよくて。それは要するに人間がもう認識しない（こととして扱う）。普通の絵の楽しみ方と（は利用方法が）明らかに違うので、機械に認識させるのはいいだろうと。

ただアウトプットが似ていたら、それは著作権を侵害したということにはなり得ますね。その画像を学習していないとか、そういう問題があったらまた別になりますが、それを学習した結果そうなったのであれば、侵害になるだろうなと思います。

司会者：上原先生はなんかそのあたりの話題は……。

上原：最初にこんな話になったのは、たぶん検索エンジンの影響が大きいと思っていて。検索エンジンのために集めたものがどうしたとか、キャッシュがどうしたとかいうあたりの著作権の処理が曖昧だったから、日本では検索エンジンが育たなかったんじゃないのかという議論があって。

（以前は）そこが後付けでフリーになっちゃったので、「今回は先回りして許しましょう」という動きになったことはいいことだと思うんですよ。一方で、先ほど宮脇先生がお話しされた絵の学習みたいな話はわかりやすいんですけが、ここに参加されている方がたぶん気にするのは、コードの問題なんですよね。

司会者：「GitHub Copilot」とか。

上原：そうそう（笑）。実際ChatGPTに聞いて出てきたコードって、「どう考えてもこれはGitHubのあそこのコードそのままだよな」みたいなものがあったりするわけですよね。これが大丈夫なのかは、けっこう微妙な問題になりつつあるんじゃないのかなと思っているんですがどうなんでしょうか（笑）？

宮脇：それは難しいとしか言いようがないですが、コードのほうが「偶然似た」と言い張りやすい面があると思うんですよね。「たまたまだ」と。

著作権侵害って依拠していないといけないので、たまたま同じものができたのは著作権侵害になりません。ただ「学習している範囲に明らかにそのコードが入っているでしょう」と言ったら、じゃあそのコードは本当に著作物なのかという問題があったりして。短いコードとかだと誰がやっても同じになるので著作物じゃないというような問題も生じてくるんですね。その面で、絵とかとはちょっと違うややこしさがあると思います。

司会者：なるほど。

宮脇：絵だったら、「俺の絵の著作物侵害だ」と言った時に、「いや、そもそもお前の絵は著作物じゃないだろう」みたいな反撃は、ほぼ返ってこないじゃないですか。

司会者：そうですよね。

宮脇：ただコードの場合はそれがちょっとあり得るかもと。何万行もあったらそれ（著作権侵害ではないと言い張ること）は無理だと思いますが、ちょっとしたコードとかだと「じゃあ、それは本当に著作物なんですか？」と。

司会者：それこそ「FizzBuzz（問題）」とかだと、誰が書いても同じようなコードになる。ChatGPTに投げて返ってきたコードが、たぶんどこかの誰かと似たようなコードになるでしょうけれど、それで著作権侵害にはならないですよね（笑）。

宮脇：そうですね。これは人間もそうで、たまたま自分が書いたコードがなにかと似ていたという時に、即侵害とされたら困るじゃないですか（笑）。なので「いや、それは知らずに作った」とか、「いや、そもそもそれは著作物じゃないだろう」という反撃が考えられるんですが、AIでもそこは同じことになるという。

AIがコードを書くことは質を保つことの障害になるか、得になるか

司会者：ChatGPT関連で、けっこう平気で嘘を教えてくるみたいな。新しいバージョンでちょっとマシになったみたいな話題がありますけど（笑）。そのあたりは上原先生とか（意見はありますか）。

上原：だから今、私は「ChatGPT Plus」を契約して、いろいろなものを聞いてみています。コードもそうだし、あとはサーバーの設定のコンフィグの書き方とかですね。この類のものをバカバカ突っ込んでみると、やはり注意して見ないと大嘘を教えてくるという問題があって（笑）。これはたぶん著作権とは別の文脈で面倒くさい問題になってきているんだろうなと思っています。

というのは、一般的にコードはレビュアーがちゃんとついて見ていれば、ある程度の質が保たれるわけです。今までのプログラマーは、自分がコードを書いて上位のレビュアーに見てもらいましょうという立場だったのが、ChatGPTを使っているうちに、なぜかいつの間にか自分がレビュアーにならなくちゃいけなくなる。

本来、技術レベルとしてはワンランクアップしなきゃいけないんですよね（笑）。ワンランクアップしなきゃいけないのに、なまじコードが動いちゃうもんだから、そのままレビューが通っちゃうようなことも起きかねなくなっている。

今後プログラマーの仕事として（コードを書くことを）やる時に、これがコードの質を保つためにすごく障害になるのか、それとも実はいいことなのかがちょっと私は判断がつかないんですけどね（笑）。

司会者：宮脇先生（として）は、このあたりの話題はどうですか？　「嘘をついてくる」みたいなところ。

宮脇：そのあたりは僕が専門にやっている知的財産法が関係することはあまりないかなと思いますね。AIの答えがすごく信頼されるような状態になった時に、「この人の作品にはこういうものがあります」という引用をしているけれど（その内容が）でたらめとか、そういう問題は少し生じるかもしれないですけど。今の段階だと、それで即法律違反となることはないだろうと思いますね。

AIを活用することで脆弱性の責任問題が複雑になる可能性がある

司会者：上原先生。

上原：著作権はたぶんなんとかなるかなと思います。エンジニアとしてしんどいのは、やはり「コードの質を高めましょう」という話があって。「私はセキュリティ屋だから正常系としては正しく動くんだけど、異常系が腐っていて脆弱性を生みました」という時に、「じゃあどうなるんですか」みたいな話をしなくちゃいけなくなることがどこかであると思うんですよね。

しかも最近厄介なことに、書いたコードが生んだ脆弱性の責任問題はどこかみたいなことが裁判になってしまった時に、やや技術屋が負け始めているんですよ。

最近私が裁判で驚いたのは、前橋市の教育委員会のネットワークがファイアウォールの設定不備で侵入されてハックされたという事案があって、それを受託したNTT東日本が前橋市に訴えられた。「正しい設定をしていなかったのはお前らの責任だ」と言うんです。

これ、第三者報告書が出ているから読んでいただいたらわかるんですが、悪いのはどちらかというと前橋市なんですよね。前橋市のほうが職員さんが勝手に作ったネットワークをずっと運用していて、それこそさっき（の話に）あった、ネットワーク版の廃墟になっていたわけですよ（笑）。

廃墟になっていたネットワークの管理をいきなり任されたNTT東日本が、リバースエンジニアリングして、一生懸命「正しい設定はどこですか？」とやったのに、情報がろくに出てこないまま運用が始まっちゃった。（だから）そのままいきなりハックされたという事案なのに、負けたのはNTT東日本というすごいことが起きて（笑）。

これがあると、「ChatGPTが出したコードに脆弱性がありました。この脆弱性によってなにかミスが起こりました。さあ、責任はどこへいきます？」という話が出てきそうな気がして、ちょっと怖いというのが今の状況です（笑）。

宮脇：その問題はあるかもしれないですね。今ならたぶん「ChatGPTに頼んでそのまま使うのが悪い」になると思うんですが、引き受けた時の契約内容とか、あるいはAIがもっと高度になったらより複雑になるだろうとは思います。

（次回に続く）

続きを読むには会員登録
（無料）が必要です。

会員登録していただくと、すべての記事が制限なく閲覧でき、
スピーカーフォローや記事のブックマークなど、便利な機能がご利用いただけます。

無料会員登録

すでに会員の方はこちらからログイン

または

名刺アプリ「Eight」をご利用中の方は
こちらを読み込むだけで、すぐに記事が読めます！

スマホで読み込んで
ログインまたは登録作業をスキップ

名刺アプリ「Eight」をご利用中の方は

デジタル名刺で
ログインまたは会員登録