企業におけるデータ活用の重要性が高まり、データ分析基盤に求められる役割も変貌しています。そうした状況の変化に対応するため、データ統合自動化サービス「trocco®」は、データマネジメント全般をサポートするプラットフォームへの進化を目指し、データカタログをはじめ、データエンジニアリング業務に役立つ様々な新機能を拡充。直近のアップデートと開発ロードマップを紹介しました。
trocco®はリリース以後、ETL/ELTやワークフローなど「データ統合」に関するサポート機能を充実させてきました。しかしながらデータエンジニア・分析基盤に求められる役割はどんどん複雑化しています。そうした情勢を踏まえ、trocco®は「データマネジメント」全般をサポートするプラットフォームに進化していきます。本セッションでは新機能「データカタログ」を始めとする直近のアップデートや、2022年の開発ロードマップを公開します。
データマネジメントプラットフォームへと進化を続ける「trocco®」
データエンジニアが“攻めの仕事”に集中できる機能を追加
trocco®は、2018年10月にデータ転送のETL(抽出・変換・格納)に特化したサービスとしてリリースされて以降、データマートやジョブ管理のワークフローといったデータ統合にかかわるサポート機能を拡充してきました。セッションの冒頭、「trocco®の歩みと今」について話しました。
「最近では2021年7月にデータリネージ、12月にはデータカタログ機能を追加するなど、データマネジメント全般をサポートし、データエンジニアの皆様が“攻めの仕事”に集中できることをコンセプトに、より広範なサービスへと進化しています」
そして、直近のアップデートについて解説します。主なアップデートとして、以下4つが挙げられました。
- コネクタの拡充
- データマート
- テンプレートETL
- データカタログ
まず、コネクタの拡充では、新たに転送元のコネクタを追加しました。Apple Search Adsや国内ASPのA8など、6つのサービスを転送元として利用できるようになりました。
また、転送先BigQueryのクラスタ化テーブルの対応や、転送元・転送先Salesforceでオブジェクトの自動補完が可能になるなど、コネクタのアップデートについて説明しました。
「データマートのアップデートでは、BigQueryのデータマートに自由記述モードを追加しました。これにより、SELECT文以外にも、DDL文などが実行可能となり、テーブルスナップショットの取得など、ワークフローの柔軟性が向上します。従来のAmazon Redshift、BigQueryに加え、Snowflakeに対応することも、今回のデータマートのアップデートのポイントです」
テンプレートETLのアップデートでは、Unicode正規化の手法の1つであるNFKC方式の文字列正規化処理を追加しています。カラム名と変換方法を指定することにより、全角英数を半角に変換したり、半角カナを全角に変換したりするなど、扱いやすい形でデータ転送が可能です。
欲しいデータがすぐ見つかり、誰でも理解できるデータカタログ機能
データカタログ機能は2021年12月にリリースしました。その背景には、データにかかわる様々な悩みが寄せられていたことがあるといいます。例えば、trocco®を使ってデータ分析基盤を構築したものの、「いざというときに分析データが見つからない」「データの意味・構造の理解が難しい」「データが多過ぎて複雑化してしまった」といったことです。
「こうした悩みを解消するのが、データカタログ機能です。欲しいデータがすぐ見つかり、誰でもすぐに理解できるようになります。具体的には、まずtrocco®が『BigQueryのテーブルやカラムには何があるのか』といったカタログデータを抽出します。そして、そのデータを元にカタログを構築します。更に、データソースから抽出したメタデータを自動的に紐付けることが可能です。BigQuery上にある分析データに対し、テーブル・カラムの情報といったメタデータを自動で拡充することにより、検索性が大幅に向上され、テーブル同士の関係性を可視化するのが特徴です」
また、自動メタデータ統合対象となるデータソースには、BigQueryやMySQL、Salesforce、Google Analyticsなどに加え、近々、kintone、PostgreSQLなどにも対応する予定だといいます。
その他にも、DWH(データウェアハウス)上にあるメタデータを横断的に検索できる「メタデータ検索」や、DWH上のテーブルを可視化してデータの依存関係などの把握が可能な「ER図」、より詳細な分析データの理解を支援する「カタログ詳細」、2つのテーブルの関係性をベン図で可視化できる「JOIN分析」、データカタログを見ながらクエリを書き、その結果を参照できる「クエリエディタ」といった機能があります。
「これらの機能を含め、2022年3月末を目処にデータカタログ機能をオープンβ版として公開予定で、利用をご希望されるtrocco®ユーザーの方はどなたでもお使いいただけます」
このほか、イベント当日のアップデートとして、以下の3つについても説明しました。
- 「ユーザー定義メタデータ※」機能のリリース
- 「trocco®ヘルプセンター」のリニューアル
- 「trocco®英語版」のリリース
※ユーザー自身がフィールドを定義し、独自のメタデータを保存できる機能。
データ転送やエンタープライズ対応などアップデートを計画
次に、今後の開発ロードマップについて、以下の4つが挙げられました。
- データ転送
- データカタログ
- エンタープライズ対応
- グループ機能
「データ転送では、コネクタを追加する予定です。転送元・転送先にGoogleドライブ、転送元にExcel形式のファイルが加わります。また、転送元にtrocco®を指定し、ジョブの履歴やデータカタログで取得したメタデータをBigQueryなどへ転送可能になります。これにより、trocco®の利用状況の分析などが行えます」。
また、1つのデータソースに複数のテーブル・オブジェクトが紐づく場合、個別に転送設定を作成するのではなく、trocco®︎上でテーブルリストにチェックをつけるだけで一括作成ができる「一括インポート機能」も大幅にアップデートします。対応コネクタの拡充や、インポート後のテーブル追加・削除に自動追従、また「一括インポート」単位での操作に対応します。
現状trocco®のインフラ基盤にはAWS(Amazon Web Services)のみを採用しておりますが、基盤としてGoogle Cloud Platformをご選択いただける「マルチクラウド対応」の追加も予定しています。
エンタープライズ対応は、オンプレミス環境のデータソースとtrocco®をセキュアに接続する「フレッツ閉域網」に対応するほか、お客様AWS環境とtrocco® AWS環境をAWS Private Linkで接続する仕組みを用意します。加えて、trocco®の稼働率などに関するSLA(サービス品質保証)を拡充する計画です。
オプションの「グループ機能」では、より細かな権限管理や、作成した設定を複数グループへ共有可能になるアップデートを実施予定です。
このほか、trocco®の情報交換、機能要望などにご活用いただけるご契約者専用の「trocco®ユーザーSlack」の開設などについて述べたうえで、次のように語り、セッションを終えました。
「trocco®は、データカタログ機能を皮切りに、メタデータ領域へとカバー範囲を広げてきました。今後はさらにデータモデリングの領域へと機能を追加・拡充していく予定です。その結果、データマネジメントにおいて出来ることが、さらに増えていくと思いますので、ご期待ください」