自己紹介
小野陽子氏:横浜市立大学データサイエンス学部の小野と言います。私は@IBMではなく、WiDS TOKYO@Yokohama City Universityのアンバサダーです。今日はデータサイエンスと未来の芽ということで、どんな質問でも投稿してもらえればと思っています。
(スライドを指して)まずは自己紹介ということで、MathematicaのGANを使って作りました。オリジナルからゴッホ風、セザンヌ風としましたが、学生に見せても「ゴッホはなんとなくひまわりの黄色いイメージがあるんだけど、セザンヌってなんですか?」みたいなことを言われて、少しがっかりしている状態です。
最初のWiDSのオープニングにもありましたが、研究テーマは「ひとじゃないと何ができないの?」ということで、ざっくりくくっています。私はもともと計算機統計学(専門)ですが、検定などが大嫌いで、「もう統計は嫌だ」と思い、統計の理論を計算機でどうにかできないかということをずっとやっていました。
ブートストラップ法などをやっていましたが、ドクターをとった後に(統計を研究することが)嫌になってしまいました。それでIsabelle/HOLというものや高階論理を使って、命題証明、数学の抽象的な数学の自動証明をどうするかをずっとやっていました。
そういうことをやっていると、人間の「よって明らか」というところはなんとなくわかりますが、計算機は当然そんな隙間は作れないんです。それで、「どうしてひとじゃないとそれがわからないの?」ということがずっとベースにあるんじゃないかと思います。
その後、地方の大学に勤めていましたが、医学部の人と一緒に仕事をする機会があり、その人と話をすると、例えば病院では、その施術に対して効果があったとお医者さんは判定するが、患者さんは納得しないことがよくあると。
さらに(例をあげると)、大学には学生がいますが、成績があまり芳しくない学生ほど、「できた」「100点だと思います」「120点です」などと全力で伝えてくれるものの、(実際には)「んー、残念だなあ」ということだったりします。
そのようなことがいろいろあって、この認知のズレはどこにあるんだろうと思いました。最近はデータサイエンス学部になりましたので、「場の空気ってどうやって読んでいるんだろう」ということを、どうやってデータ化するのか。場の空気なんてものをとることは、当然、倫理的な問題があるので、発展してデータサイエンス倫理についても研究しています。
(スライドを指して)データサイエンス布教活動ということで、このようなものを企業の方が作ってくれたんですが、これは私です。先ほどのものとずいぶん違いますが、私に会ったことがある人は、「なんだか美化され、ずいぶんかわいくなっているけど、まあわからなくはないかな」ということで、なんとなく私だと認識できると思います。
だから(この写真を)よく使わせてもらっています。エバンジェリストと言っていいんでしょうか(笑)。そんな格好で作ってくれました。ということで、WiDS TOKYO@YCUのアンバサダーとして、いろいろとやっています。
セッションの内容
長くなりましたが、今日の話は「データサイエンスは日本に、世界に定着するんだろうか?」「その上でなぜWiDSなの?」と、「DS for Goodということで、世の中に対して、いかによりよくするためにデータサイエンスが使えるのか」ということをお話できればと思っています。
みなさんに(会の始まる前に)書いてもらいましたが、働き方やコミュニケーションの問題など、いろいろあったと思います。これまでの歴史からすると、社会の急激な変化というものが起きる時に、やはり私たちは新しい技術でそれを乗り越えてきたわけです。
そういった意味で、(新型コロナウィルスが)なくなる、撲滅されるというのはすばらしいことで、私たちが一番望んでいることですが、今日は「では私たちデータサイエンス分野の人間が、これから社会に果たす役割はいったいなんでしょう」ということをベースとして、みなさまと共有できればと思います。今日は数式はまったくありません。気楽に聞いてください。
ちなみに私のCOVID-19の影響は、前に出て、マス教育というのでしょうか。いわゆる、全員机があって、みんなでこっちを向いているという教育から、いよいよやっと別れることができそう。江戸時代の寺子屋みたいな感じで、わいわい勉強したい人が集まって、それぞれがそれぞれの勉強をしていくということになってきているのではないかと最近は思っています。
データサイエンスは世の中に定着するのか?
では定着するのか。そもそもデータサイエンス学部と言うと、だいたい「え?」って言われるんです。「カタカナの学部、大丈夫ですか?」「何を教えているんですか?」ってよく言われるんです。では、それを考えてみましょう。
(スライドを指して)こんな絵を出しました。最近、子どもに調査をすると、(将来は)お菓子屋さんやケーキ屋さんになりたいではなく、パティシエなどというように、幼稚園くらいの子たちも、きちんとカタカナで言います。ちょっと差し障りがあるかもしれませんが、YouTuberになりたいというものもありましたが、最近は少し影を潜めているのかもしれません。
それに対して、「データサイエンティストになりたい」と言うものの、名前がつく前は誰がその仕事をしていたんだろうかということをよく問います。ケーキ屋さんというと、売る人と作る人がいますが、実質的にはパティシエは作る人なわけで、それは昔からあったということです。
当然のことながら、YouTuberはYouTubeの仕組みや技術がないとあり得ませんし、もっと言うならば、イエローケーブルで結ばれていた時代には絶対無理な話です。そうなると、新しい技術が生まれて世に広まって定着すれば、当然新しい仕事が生まれて、これまでの仕事がずいぶん変わったり、置き換わったりするわけです。そういう可能性がある。
では、データサイエンティストが出てくる前は、誰がそれをやっていたのかと考えると、当然のことながら統計やデータ分析をする人、マーケティングをやっていた人。統計は統計です。あるいはコンピューターサイエンスでプログラマー、SEだった人たちかもしれません。しかし、データサイエンティストは、名前が置き換わっただけなのかということを少し考えていきたいと思っています。
さあ、どうでしょう。実際は少し違うのではないのかというのが、私たちデータサイエンス学部にいる人間が世にお話ししていることです。
教育といえば、当然、統計だったり、コンピュータープログラミングだったり、数学だったりですが、本当にこれだけでいいのかということを最近私たちは世の中に問うています。そして、横浜市大はこれだけじゃないというメッセージを発信し続けています。
データサイエンスは現代のリテラシー
ニュースなどで見た方もいると思いますが、これからの学生が身につける素養として、数理・データサイエンス教育強化拠点コンソーシアムというものがあります。東京大学を起点としたデータサイエンスの拠点校、残念ながら本学は違いますが、そういったデータサイエンス関連の大学です。
データサイエンス学部として参加しているのは滋賀大学だけと記憶しています。そのようなところが集まって、「数理・データサイエンス・AIモデルカリキュラム」というコアカリキュラムを作りました。その中で、「『データ』をもとに事象を適切に捉え、分析・説明できる力を修得すること」。すなわち、「データ思考を涵養すること」が大事だと言っているんです。
涵養はこれから何度か出てきます。「涵養?」「井戸水?」と思われた方はたぶん正解です。いわば、ジワジワと水を吸い上げるように養っていく。だから自然と身につくんです。「やれ」と言ってガッと押し込めて何かを一生懸命暗記させるのではなく、ジワジワと吸い上げて、体の養分になるように学ばせるということです。
(スライドを指して)これが文部科学省の資料です。いわゆる『AI戦略 2019』というもので、「すべての大学生と高専生、年間約50万人の学生たちは初級レベルのこの数理・データサイエンス・AIを修得しなさい。この優れた教育プログラムを政府が認定します」という号令が、実は今、私たちや大学にかかっています。
これによって認定を受けた大学が、いずれバッジか何かをもらいます。今日は企業から来ている方のほうが多いと思いますが、企業の方々もそのバッジを受けられるかもしれません。これはいったいどんなものか。なかなか目にしないと思うので、少し見てもらえればと思います。
項目が全部で1から5まであります。導入部分は、社会で何が起きているか。心得は倫理関連です。そして基礎として、データを読む、説明する、扱うですが、本当に基礎の部分です。
我々データサイエンス学部の学生には、少し簡単すぎるのではないかという中身ですが、このようなことをどの学部でもやりなさいというのが、今かかっている号令です。
つまり、データサイエンスは、現代のリテラシーということです。読み書き、そろばんということです。そしてこのようなものをどこまで涵養できるかが、私たち大学の人間の果たす役割です。このようなものを携えて社会に出て、もしかするとデータサイエンスに直結した分野ではないかもしれませんが、読み書きそろばんのレベルを持った学生が社会に出ていく。数年後には出ていくことになるということです。
それによって、これらの学生が社会人になった時に、どのような職業が新たに生まれるのか、そして私たちにはいったい何ができるんだろう、これから未来をどう作るんだろう、ということが出てきます。
データ思考のサイクルとは
データ思考についてもう少し説明します。データ思考のサイクルとはいったい何かというと、基本的には課題を設定してデータを分析、モデリングする流れがあって、問題を解決する。つまり、データからストーリーを語って、問題解決や社会実装に取り組む。それで、さらにもう一度、課題解決に戻るんです。
私たちはいつも、これまでの統計や計算幾何学、当然ながらデータ分析、モデリングなどのフェーズを非常に大事にしています。課題は誰かから降ってきて、仕事で「いつまでに解析してください」「絶対何か結果を出してください」と言われていた可能性があります。そして、最後の発案はまた別の人がする。もしかしたら、設定する人たちと、最後の(発案する)人たちは同じかもしれません。
分断されていたような部分はあったと思いますが、そうではなく、データ思考のサイクルというのは、結局回すところにうっすらかもしれないけれど、絶対かかわりなさいと。つまり、自分はデータ分析が得意だからそこをやるけれど、全部にかかわる。とにかくチームで当たるという教育をしています。
データサイエンスをデータサイエンスのままに受け入れる土壌は、はたして育っているのかが、非常に懸念事項です。この定着についてどうしていけばいいのかを、先ほどの回答から考えることで、次につなげていきたいと思います。
(次回に続く)