データ分析で得られる新たな知見

金岡亮氏:改めまして、富士通クラウドテクノロジーズの金岡と申します。「エリアデータとAIで見えるもの」と題して、セミナーを開始させていただきます。よろしくお願いします。

私はデータデザイン部で自社プロダクト開発の責任者をしておりまして、今日はプロダクトについて深くお話しできればと思います。

今日のアジェンダです。ほぼすべてデモで構成したコンテンツとなっております。まずテーマと、我々のデータサービスの中で利用するデータをご紹介します。そのあと「弊社独自調査」として、そのデータを分析して何がわかるのかというデモを、2つほどお見せします。最後に、データサービスをどういうふうに販売しているのかといったところをお話しできればと思います。

それでは、本日のテーマと利用するデータのご紹介ですね。まず本日のテーマなんですが、「複数の外部データによって新しい知見を獲得しましょう」ということで。さまざまなデータを掛け合わせて、今までわからなかったような新しい知見を、みなさまの事業活動の中で得ていただければなと思います。

事業会社がもうすでに持っているデータを見ていると「あ、これ知ってるな」とか、「だいたい勘で考えていたことと一緒だな」みたいな、ある程度の勘だったことが裏付けされるような使い方が多いのかなと思うんですが。

データマイニング的に今まで扱っていなかったデータを深掘りしてみると、「こんなこともあるんだ」というようなちょっと新しい知見などが出てきます。本日は私どもが提供しているデータサービスをうまく利用いたしまして、なにがしか新しい発見をお届けできればと考えております。

都市の夜間光や気象データを加工・販売

我々のサービス概要としては、整形済みの「政府・公的機関データと」「Starflake」という商品名で衛星のデータを加工、CSV化したデータ、そしてパートナー様のデータを販売しております。

現在再販しておりますのは、KDDI様の「KDDI Location Data」というものになります。こんなかたちで、整形済みの分析用データセットそのものを販売しております。先ほどの上島様のお話で使われていた用語で言いますと、データ製品に当たるのかなと思います。

本日使わせていただくデータについてご紹介できればと思います。まず初めは「Starflake nightview」という、NASAの人工衛星が取得している都市の夜間光のデータを加工したデータセットです。こちらの抽出可能範囲は全世界で、海外のデータも日本と同じ規格で取ることができます。

更新頻度は日次で更新されておりまして、だいたい撮影から6時間後ぐらいにNASAのサーバーに来ます。そこから私どもが加工いたしますので、目安として、過去1週間前のデータから取得が可能とお考えいただければと思います。

今、集計単位は250メートルメッシュ(地図を一定の規則に従って分割し、多数の正方形などに分割した単位)というところで集計をしております。いわゆるJIS規格で5次メッシュという規格があるんですが、こちらで集計をしております。ただし、オプションでほかの規格で集計することも可能でございます。こちらがまず、大きな題材として使おうと思っているデータです。

またもう1つ使おうと思っているデータが、過去の気象ログです。こちらは気象庁が提供するアメダスのログデータなんですけれども、実はさっとデータ解析ができるような形式ではないので、我々がこちらをもとに加工して販売しています。こちらも脈々と蓄積がありまして、1976年から現在まで取得されていまして、日本全土で取ることができます。

更新頻度は1時間ごとです。こちらも我々が独自に整形しまして、250メートルメッシュで集計したものをお届けするようなかたちです。125メートルメッシュや500メートルメッシュでニーズがあれば、ぜひお声がけいただければと思います。

観光施設や小売業の需要予測に活用可能

こちらのデータをどんなふうに使うのか、少しだけ例を出そうと思います。だいたい気象のデータは、多くの観光施設や小売店の需要予測などに使われています。アミューズメント施設などは気象の影響をダイレクトに受けるので、雨が降れば当然、来客数が減るのはおわかりいただけるかなと思います。

例えば例として持ってきました、札幌市の円山動物園。札幌市が、Data city Sapporoというオープンデータのポータルを作っており、こちらで円山動物園の来場者数、日次で公開してくれています。こちらのデータと組み合わせて、散布図を描いてみました。

本来は休業中のところですとか、無料開放日でちょっと外れ値になるような日を除去して、前処理をかけた上で分析するのがセオリーです。今回、生のデータを突っ込んで、ただ散布図を描いただけですが、概ね反比例の傾向にあるのはわかるかなと思います。

こんなかたちで、気象というのは来場客数、はたまた需要といったところとすごく密接に関連するデータです。観光だけではなくて小売店とか、さまざまなリアル店舗を持つようなところの需要とかPOS分析には、非常に定番のデータセットになっているかなと思います。こちらをメッシュ単位で集計しているのが我々の特徴です。データはこんな感じで加工しています。

もう1つご紹介するデータで、「KDDI Location Data」というデータをご提供しております。こちら、通信キャリア様のご契約者のスマートフォンで取れるGPSの情報を匿名化いたしまして、125、250、500メートルメッシュごとに集計した人口統計データです。こちらは2018年から2019年12月まで、今はデフォルトで取ることができます。

それで、日本全国で1時間更新されると。デフォルトでは平日・休日で平均値が取られているんですが、日次で24時間ごとのようなかたちで取ることもできるとのことでした。集計単位は125/250/500メートルで取ることができます。

こんな感じで新宿エリアが赤くなっているのがわかります。こちら、マーケティングにはかなり重要なデータになってくるのかなと思います。こちらのデータを我々が再販するようなかたちです。こちらも今日の分析に使っていきます。

データで北海道の“隠れた観光資源”を発掘

それではさっそく、独自調査に入ってまいります。最初のテーマは「観光資源の発掘」というところです。今コロナウイルスの影響で、少し観光業が不景気なのかなとは思うんですけれども、今年はオリンピックがございますので。コロナウイルスも少し収束してきて、オリンピックがあればまた観光産業、非常に盛り上がってくるのかなと思います。

そこで観光協会様ですとか、いわゆる自治体が持っているDMO(Destination Management/Marketing Organization:官民の幅広い連携によって観光地域づくりを推進する法人)様ですとか。このデモでは、そういったところをプロモーションする広告代理店様の立場で、どんなデータ分析ができるのかをご紹介したいと思います。

北海道のDMOや旅行代理店を想定しまして、今回はデータから隠された観光資源を発見してみたいと思います。今回は北海道というところで、まず最初に北海道がどんな所なのかというお話をしたいんですけど。

こちらに書いてありますが、実際に報道などを見ますと、北海道は「観光意欲度ランキング」で2019年、堂々の1位でございます。ある意味、日本で一番観光地として行きたい所なのかなと思っています。

こちらはオープンデータにも一部あるので、出してみました。宿泊施設数を見ると、実は全国で4位です。面積などでならす必要はあるかと思うんですが、数としては非常に多いかなと思います。

一方で、実は宿泊施設の稼働率というデータがあります。「この宿泊施設がどれぐらい使われているの」というところなんですが、全国で11位です。観光意欲度ランキングは1位なのに、施設数4位からの稼働率11位というところで、実はあんまり稼働率が高くないのが特徴です。

ということで、データから新しい観光資源を発見して、今まで人が行き渡らなかったような観光施設にも人が行って、稼働率を上げるような施策が打てればいいのかな、という立場で考えてみたいと思います。

夏の定番アクティビティが乏しい北海道

それでは、データをもとに、北海道がどんな所なのかをもう少し見ていきたいと思います。みなさんもご存知かとは思うんですけれど、北海道は非常に豊富な観光資源を持っております。札幌は食べ歩きも有名ですね。私も味噌バターラーメンを食べに行くのが大好きなんですけど、札幌にはすごくいろんなお店があったり。あとはすすきのなどの市街地も魅力的な観光資源かなと思っています。

あとは自然の観光資源もたくさんあるかなと思います。利尻島などもすごく有名ですね。あとは富良野とか、『北の国から』でも有名ですね。実は刑務所なども定番の観光スポットかなと思います(笑)。網走もけっこういろんな観光客が行っているそうです。北海道は面積は非常に広いんですけれども、豊富な観光資源を持っているのが特徴かなと思っております。

先ほどの円山動物園のデータ、もう1回出てまいります。レッサーパンダのホクトくん、かわいいですね。この円山動物園のデータを参考に、北海道の観光需要の特徴を見てみたいと思います。

数年分のオープンデータを日次で提供してくれている観光系のデータって、実はかなり貴重です。今回、円山動物園のサンプルを例に、北海道の観光の需要がどういうふうに推移していくのかを分析したいと思います。

折れ線グラフで可視化してみたんですが、ゴールデンウィーク近辺の5月。そして8月のお盆あたりですかね、来場者数がピークを迎えている。毎年のピークはどちらかに来ているのかなと思います。ゴールデンウィーク近辺と夏休みに最盛期を迎えて、6・7月、12月に大きく減少していく。

雪まつりなどはあって、冬も定番の観光のアクティビティがあるので、例えば夏の観光のアクティビティができるといいかな、という戦略が立てられるのかなと思います。円山動物園だけの事例ではございますが、概ねほかの施設もこういったかたちで人が流入するんじゃないかな、と分析することができます。

梅雨のない北海道ならではの伸びしろ

3つ目です。夏の北海道はどんな特色があるんだっけ、というところで。みなさまの中でも例えば、北海道は梅雨がなくて、避暑地として行ったりとか。夏でもけっこう快適に過ごせる観光地として有名かなと思います。

実際にアメダスのデータを見てみました。そうすると本州よりも降水量は少ないです。そして涼しいかなと思います。降水量もだいたい同時期の東京の70パーセント程度です。それで、ゴールデンウィークとか8月は長いお休みが取れるかと思うんですけれども、梅雨が続いてしまったり、台風が来たり。天候が荒れて、外に出かけると「あんまり思うように遊べなかった」という経験もあるかなと思うんですが。

北海道は、本州よりは天候に恵まれる可能性が大きくてですね。夏の晴天を活かしたアウトドアのアクティビティがあると、新しい観光資源としてプロモーションできるんじゃないかな、という仮説が立ちます。

夏の北海道の新たな見どころは「星空観光」

今回のデモのタスク設定に入りたいと思います。観光需要の高まる夏にできて、北海道の独特な風土を活かしたアクティビティとして、今回は「星空観光」を設定いたしました。

広告代理店様やDMO様の立場で、星空観光をプロモーションしたいと。これをさらにデータで、北海道の中で星空を見るのに適したエリアを発見して、観光資源としてプロモーションする。こんなタスクを考えてみたいと思います。

星空がきれいに見える条件なんですけども、例えば「都会でない」。ビルの夜光が少ない山奥などでは、星空がすごくきれいに見えたりします。田舎のほうもすごくきれいに見えますね。こういう、都会でない所。あとは高原で、「空気が澄んでいる所」。これもよく言われることかなと。さらに月の光を考慮に入れる必要もあります。満月じゃなければないほど星がきれいに見えるそうです。こんなところが星空観光の条件になってきます。

また当然、観光地としてプロモーションをしなければいけないので、機能要件も十分に考える必要があるかなと。例えば、交通の便がすごく重要です。北海道は先ほどもお話ししたとおり、さまざまな観光資源があります。これらのアクセスや相互乗り入れなども考えたほうがいいのかなと思います。

あとは実際にプロモーションしたけれども、田舎すぎて「宿泊施設数がぜんぜん足りない」なんてことがないように、宿泊施設数もある程度目安の条件になるのかなと考えられます。こんな5つの条件をデータで見ていって、星空観光に適した場所を洗い出してみたいと思います。

データで導き出す、絶好の星空観光スポット

使うのがこちら。先ほど出てきました「Starflake nightview」です。どんなふうに使っていくのかなんですけども、まずちょっと可視化してみました。黄色い所が夜間光が明るい所です。

こちらはちょっと引いているので、もう北海道の形になっていますが、近づいてみると250メートルメッシュで集計がされています。

これで見ていますと、当然札幌はビカビカに光っている。あとは函館や釧路など、都市があるような所は強く光が出てるのがわかります。先ほどの星空が見える条件の1つ目、ちょっと思い出していただきたいんですけども。都市の光、ビル夜光が少ない所ほど星がきれいに見えるということは、夜間光が暗いエリアは星がきれいに見える可能性が高い。

ということで、ここの赤黒くなっているようなエリア。あんまり黄色くないエリアから候補を絞っていくと、星がきれいに見える所が見つけられるんじゃないかなと思います。

続いて、ほかのデータも見ていきたいと思います。弊社では提供していないんですけれども、国土地理院が標高の高いエリアをヒートマップで出してくれています。赤ければ赤いほど標高が高いことを示します。

こちらをさっきの図に起こしてみました。夜間光が少なくて、暗くて、標高が高いエリア。青丸のエリアになってくるのかなと思います。おおよそ目処がついてきたかなと思います。

そして、機能要件も重要です。ただちょっと今回は限定的なデータで、主要空港と宿泊施設数をプロットしてみました。新千歳空港は定番ですけれども、札幌とのアクセス便などをちゃんと考慮する必要があるのかなと思います。本来であれば鉄道や、北海道は車で回られる方も多いのかなと思いますので、今後は自動車から取れるGPSのデータなども使うといいのかなと思います。

今回は宿泊施設と空港のデータを利用してみました。宿泊施設のデータは、Yahoo! トラベル様のデータを引用しております。どこもけっこういっぱいあるな、という印象ですね。

では、夜間光が弱くて、標高が比較的高くて、交通のアクセスに優れていて、宿泊施設数が多い、星空の観光に適したエリアはどこでしょう、ということで分析してみるとですね……「富良野じゃないかな」というのがなんとなくわかってきます。標高が高くて、ビル夜光がとても少ないエリアで、交通のアクセスは札幌から比較的良いです。

ということで、例えばお昼は札幌で食べ歩きしたあと、少し夕暮れぐらいまでいて。そのあと夜は富良野に移動して、ロッジで星空を見て、まったりする……なんて過ごし方を提案することができるんじゃないかなと思います。

観光資源の特定や効果測定への可能性

さて、先ほど星空が見える3つの条件をご紹介しました。ビル夜光の件と、標高が高いこと。あともう1つ、月がきれいに見えている日は実は星が見えなくなってしまうと。月が欠けていれば欠けているほど、星がきれいに見えるんですけれども。こちらも実は、「Starflake nightview」を分析することでわかるデータとなっております。

こちらは「Starflake nightview」のデータを1年ぶんプロットしたデータでございます。実は周期性を持っておりまして、こちらを取得するとおおむね月齢も捕捉できます。

夜間光の特徴なんですが、実は放射輝度という光の強さの値を取っているんですけれども、こちらは新月のときには強まり、満月のときには弱まるという特徴を持っております。そうすると、だいたい月末~月初に新月時期を狙って行くと、星がきれいに見えるんじゃないかな、ということがわかります。

つまり先ほどの情報を総合しますと、4月末~5月初週、7月末~8月初週あたりの富良野に行くと、星がとてもきれいに見えるんじゃないかな、ということがデータから見えてきます。

ちょっとまとめます。夜間光が弱くて、標高が比較的高くて、交通のアクセスに優れていて、宿泊施設が多い所は富良野でございます。月末・月初はとくに新月に近くなるので、星がきれいに見える可能性が高まります。私もゴールデンウィークと8月初めは、富良野でまったりしたいなと思っております(笑)。

ただこの分析、実はお客様の直接のデータは使っておりません。例えば自動車関連、交通のデータとか、ホテルの事業者様ですと満空情報などのデータも持っているかと思います。こういう企業保有の特有のデータを利用することによって、より精緻に観光資源の特定に使えるんじゃないかなと思います。また、プロモーションしたあとの効果測定、みたいなキーワードも出てくるかなと思います。

リアルタイムの分析やシミュレーションが強み

今回、可視化から仮説を検証していったんですけれども。例えばデータ同士を組み合わせて、いわゆる教師なし学習とかクラスタリングというアルゴリズムがあるんですけれども、これをかけることによって自動で「ここが実は観光地に適してるんじゃないか」という条件を見つけることができます。このへんも今後、より高度な分析をするときには検討してもいいのかなと思っております。

またさらに、今回利用したデータにKDDI様のデータを組み合わせると、より精緻なことがわかります。例えばKDDI様のデータ、平日・休日、24時間で性年代別の人口がわかります。例えば「2時に富良野には60代の人がいっぱいいます」というようなデータが取れます。

そうすると例えば、観光地をプロモーションする前の人口の動きと、あとの人口を比較することによって、シミュレーションや効果検証ができます。Webの世界ですとA/Bテストみたいな、トラフィックを比べて施策がうまくいったかいかないかという分析ができたりするんですけれども、これをリアルでできるのが「KDDI Location Data」の非常に大きな特徴かなと思っております。

我々の提供するデータと、一部ほかのオープンデータも使いましたけれども、これらを組み合わせるだけである程度戦略が立てられます。データ利活用に関して、こんなかたちで進めることができるんじゃないかな、という一つのご提案でございました。