Google Cloud (GCP)で1,000倍の 人流ビッグデータを 高速処理・可視化 データ駆動型社会の実現を目指す
株式会社SVI研究所
写真左から【株式会社 SVI研究所】新規事業開発担当 中谷 俊文氏、船本 洋司氏
■まず、御社の事業概要を教えてください。
船本氏(以下、船本):株式会社SVI研究所は人流データの解析技術を活かしたサービスを提供しており、スマートシティやMaaSに代表されるデータ駆動型社会の実現に向けた事業を展開しています。様々なデータを可視化し、客観データという強いエビデンスを武器に日々の仕事をよりよい方向に進めるサポートをするツール、「Fracti」の展開も進めています。
私たちがサービスを提供している領域のひとつに都市交通分野があります。当分野でよく用いるデータ形式のひとつに、A地区からB地区へ何人が移動したかを示すOD表(Origin:出発地 Destination:目的地 の略)という形式があります。人流データを簡単にOD表に変換して可視化することで、データからインサイトを導くスピードを上げるための支援をしています。
また、こうしたデータの扱い方はマーケティング等の他分野にも応用できるので、商業ポテンシャルの計測など人流データから統計的に意味のある情報を抽出することにも取り組んでいます。
人流データを活用したビジネスは以前からありましたが、弊社はデータホルダーではないので、様々なデータホルダーの方々と連携しながら、柔軟にデータを組み合わせて顧客の課題解決を図るアプローチを取っているのが特徴です。
■オンプレミスから Google Cloud (GCP) へ移行した背景は?
中谷氏(以下、中谷):今回grasysさんにお願いしたのは、人流ビッグデータを高速に処理するシステムの開発です。これまでは自社のオンプレミス環境でデータを取り扱っていましたが、データの規模が圧倒的に大きくなってきたため、サービス運営が難しくなってきていました。従来のオンプレミス環境では、数百MBもしくは1~2GBほどを読み込んで数時間で処理していましたが、現在一番多く使用しているスマートフォンのGPSデータだと東京都のみで1ヶ月で1TBほどの量になり、単純に計算すると数台のPCで同時に計算しても1ヶ月以上かかってしまいます。扱うデータが今までの1,000倍ほどになったことが、クラウド環境が必要となった大きな理由です。
船本:もうひとつの理由が、独自の解析手法の実装です。SVI研究所は建設系のコンサルティング会社からスピンアウトした会社なので、Excel文化が強く、ExcelやVBA(Visual Basic for Applications)でデータ処理することが主流でした。それらで扱えるボリュームのデータが多かったという背景もあります。
そこで独自の解析ロジックを築いてきましたが、それらはビッグデータ処理に合わせて設計されたものではありません。ビッグデータ処理に適用させる場合はロジックを簡素化して対応することが多いと思います。しかし、弊社にとってはサービス上このロジックが欠かせず、なんとか大量のデータにもそのまま適用させたいと思い、それを実現するためにはクラウド環境が必要だという結論に至りました。
■システムに求めたスペックや grasys を選択した背景は?
中谷:私たちの実現したい解析が1日以内に処理が終わるという処理速度と、開発と運用の両面でリーズナブルなコストに抑えるという条件がありました。5社ほどにお話を伺いましたが、grasysさんは特に丁寧に状況をヒアリングしてくださりました。はじめはどのクラウドが最適かわからなかったので、そこも含めての相談でしたが、grasysさんは私たちがやりたいことをよく理解していただいたうえで提案してくださりました。
船本:初回の打ち合わせにエンジニアの方が同席して、システム構成のイメージ図を一枚作って来てくださったことも良かったです。大量のデータを処理するための構成の素案をはじめから持ってきてくださったことでイメージが湧きました。
当時クラウドを使っていなかったので、実現したいことを言葉でうまく表現できない部分もありましたが、そのイメージ図によって共通の言語を持てたので会話がスムーズに進みました。私たち自身も技術者なので、中身がわからないと安心できないということもあり、このようなアプローチと相性が良かったのだと思います。
■プロジェクトでどのような困難を乗り越えましたか?
船本:大量データに対して弊社の解析ロジックをどう適用させるかというのが最大の課題でした。例えばある移動体端末が建物に入って1時間そこに滞在している場合は、同じ場所に位置情報データが連続して溜まっていきますが、”建物に1時間いた”という情報だけで充分なので、そのような判別をして不要なデータを削除するというステップがあります。
このステップについても処理に時間がかかりすぎてしまうという課題が生じたのですが、grasysさんが1,000台ほどのGCE(Google Compute Engine)ハイメモリインスタンスを起動してデータを並列処理することで解決してくださりました。
中谷:データ量が想定以上に多かったため、すべてのデータを一気にインプットするとシステムエラーが発生するという課題も途中で生じました。アジャイル開発でデータ処理の流れを組み替えていただいたり、何度かトライアルを繰り返しながら進めていただきました。また、処理スピードとコストの落とし所をどこにするかを見極めるのにも苦労しました。
grasys:やはり人口が多い首都圏は人流データの情報量が非常に多く、その処理のコストや手順をどうするかは特に工夫した点です。また、一般的なWebブラウザで大量のデータを表示することはできないため、WebGLの技術を利用しています。
■現在のシステム運用状況は?
中谷:2019年にGoogle Cloud (GCP)を導入し、2020年4月にシステム開発を依頼して同年9月に開発が完了しており、現在は運用フェーズにあります。
現在はクライアントから依頼をいただいたら、grasysさんに作っていただいたシステムに人流データをインプットして数時間で解析処理を行い、そこから我々がレポートやダッシュボードなどのアウトプットを作成して納品するといった流れで運用しています。
あるプロジェクトで、ビッグデータを用いて大都市の鉄道の路線別混雑率を可視化する取り組みがあったのですが、そこでも今回のシステムを使用しました。新型コロナウイルスの影響で混雑具合がどのように減ったかを把握することが目的でしたが、開発したシステムがなければ膨大なデータ量を有するエリアでこうした解析を行うことは不可能だったかもしれません。
このように実際のプロジェクトで運用しつつ、まだまだ実装したいことはあるので今後もバージョンアップしていこうと考えています。
■今後の展望は?
船本:新型コロナウイルスの影響で人流データがメディアに取り上げられる機会も増えており、弊社が強みとする人流データ活用に対する認知度が社会的に高まってきていると感じています。
人流データの用途は多岐に渡りますが、ベースとなるインフラができたのでこれまで弊社がアプローチできていなかった領域に事業を広げていきたいと考えています。
ひとつの事例として、商業ビル内の人の動きを知りたいという依頼をいただいています。来館者がどのフロアに立ち寄って、その後レストランに行って、最終的にどのフロアに行きました、というような人の動きの特性を見たいという内容です。さらに、エリアレベルの人流分析から得られる特性を加えて解釈を行い、例えば自社のビルだと滞在時間が短かったが、違うロケーションではもっと滞在しているという情報を得られると、マーケティング施策のヒントを得ることができます。このような人流データを活用した施設やエリアのマネジメントにも今後携わっていきたいと思います。
■grasys に期待することは?
中谷:現在、全国で様々なスマートシティ関連のプロジェクトが立ち上がっており、弊社もいくつかのプロジェクトに参画していますが、スマートシティの実現にはデータや解析技術だけではなくITインフラも必須なので、我々だけでは十分に価値を出すことができません。解析技術を持つ我々とITインフラ技術を持つgrasysさんはとても相性が良いと考えており、今後事業を拡大していくうえでのパートナーとして、ぜひ連携を深めていけたらと考えています。
grasys:今回のプロジェクトでは企画をお預かりしてシステム開発をしましたが、今後は弊社からソリューションやアプローチの提案もできればと思います。スマートシティはやはり1社2社というより行政や様々な団体を巻き込んで実現するものなので、SVI研究所さんを様々な団体にお誘いして一緒にアクションをとっていければと思います。