データ活用の重要性は十分に理解していても、社内のデータ分析基盤を、どのように構築するかに悩むエンジニアや情報システム担当者は多いのではないでしょうか。スピーディーにデータ分析基盤を構築し、分析によってインサイトを得るには、マネージドサービスの利用が大きな力を発揮します。クラウドベンダーとしてマネージドサービスを提供するグーグル・クラウド・ジャパン合同会社の長谷川 一平氏と、primeNumberのETLツール「trocco®」を導入して、データ分析基盤を構築した弁護士ドットコム株式会社の小田島 拓氏が事例を交えて講演しました。
※グーグル・クラウド・ジャパン様のご登壇箇所は非公開のためレポート内では割愛しております。
社内データの活用に悩むエンジニアや情報システム担当者の方々に、マネージドサービスを活用し、クイックにデータ基盤を構築するステップについて、クラウドベンダーであるGoogleの知見も交えながら紹介します。また、「弁護士ドットコム」や「クラウドサイン」など複数事業を展開する弁護士ドットコム株式会社を迎え、より具体的なデータ分析基盤の構築運用事例を紹介します。同社の課題解決のため、trocco®︎ ご利用の判断に至った検討プロセスや導入までの背景、ご苦労、そして導入後にどのような効果があったのか、担当者様の声を頂きます。
Embulk+Digdagでのデータ転送を「trocco®︎」に変更。すべてのデータをBigQueryに集約し、運用工数を最小化
写真は右から
小田島 拓 氏 (弁護士ドットコム株式会社 SRE室)
山本 健太 (株式会社primeNumber 取締役執行役員 CIO)
データ分析基盤の構築はマネージドサービス活用がカギ
企業におけるデータ活用の目的は様々です。一般的に企業は「利益の最大化」を重要な目標として活動しますが、それを実現するためには「売上」と「コスト」に関する指標を要素分解しながら計測、可視化することが重要です。可視化することで、問題点を把握し、改善することが可能になります。そのため、社内各所に点在するデータを集約して、分析を可能にするデータ分析基盤の構築が欠かせません。
データ分析基盤は、バラバラなデータを1つにまとめるETL(抽出・変換・格納)による「統合」、大規模データを横断的に管理するDWH(データウェアハウス)での「蓄積」、BI(ビジネスインテリジェンス)を使った「可視化」の3ステップから成り立っています。
データ分析基盤を素早く構築するには、外部リソースを利用するマネージドサービスの活用がカギです。株式会社primeNumber 取締役執行役員CIOの山本健太は述べます。
「マネージドサービスを利用するメリットは、(1)構築に際してのイニシャルコスト削減、(2)構築リードタイムの短縮、(3)メンテナンスコストの最小化、(4)ノウハウ集積による機能拡張性の高さという4つにまとめられるでしょう」(山本)
代表的なマネージドサービスは、ETLではprimeNumberの「trocco®」、DWHでは「Google BigQuery(以下BigQuery)」「Amazon Redshift」「Snowflake」、BIでは「Looker」「Tableau」「Google データポータル」「Microsoft Power BI」があります。
ETLツールの対応部分を詳しく見ていきます。データを統合するために、データエンジニアが行う作業は非常に多いです。追加するデータがたった一つだとしても、こちらのスライドで挙げているような多くの作業が必要で、その後ようやく運用にたどり着きます。「trocco®」はデータ分析基盤の総合支援を行うSaaS(サービスとしてのソフトウェア)なので、データエンジニアの作業負荷を大きく減らし、素早く運用にのせることが可能になります。
「ETL、DWH、BIをマネージドサービスで運用すると、インフラの運用負荷が軽減され、外部APIへの追従も可能になり、分析対象データの追加が容易に実現できます。分析データを一元管理することで、データガバナンスが向上しますし、分析業務のサイクルが高速化して、新たなインサイトの発見に寄与するでしょう」(山本)
データ分析基盤の構築はマネージドサービス活用がカギ
続いて、trocco®を利用している弁護士ドットコム株式会社 SRE室 小田島 拓氏から話がありました。弁護士ドットコム株式会社は日本最大級の法律相談ポータルサイトである「弁護士ドットコム」をはじめ、「クラウドサイン」など、複数のサービスを展開しています。しかし、データ分析基盤が煩雑で全体像を把握できていませんでした。
小田島氏は、trocco®導入の経緯を明かしました。
「データの転送経路がサービスごとにバラバラで、一部だけBigQueryに転送する形になっていました。転送の仕組みもEmbulkとDigdagで作り込まれていて、頻繁にエラーが発生していました。そこで、trocco®を導入、データ転送機能とデータマート機能を持つ新しいデータ分析基盤を構築しました」(小田島氏)
データはすべてBigQueryに転送、サービスごとにプロジェクトを立ち上げ、データレイク、データウェアハウス、データマートに分類して、Redashで参照します。こうして、データ分析基盤が抱えていた課題を解決することができました。
データ転送経路はtrocco®に統一して、必要なデータをすべてBigQueryに転送、ほとんどエラーが発生せず、運用も楽になったといいます。さらに課題解決以外の導入の効果として、(1)分析用マスキングでかさんでいたI/O(入出力)費用の削減、(2)データ抽出などにかかってていたエンジニア工数の削減、(3)これまで困難だったSaaSのデータソースを組み合わせての分析の実現の3つを挙げていました。
「現在、trocco®で毎日433テーブルを転送し、138のデータマートを作成していますが、転送数は今後さらに増える見通しです。trocco®導入後の運用段階では、ユーザーの増加による、権限の分け方、権限の付与が課題です。試行錯誤しながら、最適解を導き出したいと考えています」(小田島氏)
登壇者
企業情報
https://www.bengo4.com/corporate/
設立:2005年7月4日
資本金:4億3,900万円(2021年12月)
事業内容:弁護士ドットコムの開発・運営、弁護士ドットコムニュースの運営、税理士ドットコムの開発・運営、クラウドサインの開発・提供、BUSINESS LAWYERSの運営、弁護士ドットコムキャリアの運営
https://cloud.google.com/
設立:2016年
資本金:1,000万円
事業内容:Google Cloudの提供