OpenTextのホームページ。
技術トピックス

データメッシュとデータファブリックとは何か?

ノートPCを中心としたITアイテムの図解

概要

データメッシュや データファブリックは、最新かつ最高の取り組みなのか、それともソリューションの販売を目的とした新しい流行語なのか?一概には言えないが、こうした新たな企業の取り組みには、異種データの処理という共通の目標がある。データを過度に何度もコピーすることなく、異種データを分析に利用できれば、データからより多くの価値を得られることが多い。データメッシュとデータファブリックは、異種データの問題を解決するために異なるアプローチを取る。

データ・メッシュとデータ・ファブリック

データメッシュとデータファブリックの違いは?

データメッシュもファブリックも、複数のデータソースをアナリティクスに活用するためのメタデータとセマンティックレイヤーに重点を置いている。しかし、大きな違いは文脈にあるようだ。

平たく言えば、データメッシュとは、様々なデータソースを分析エンジンに提供する能力のことである。データ・メッシュは、あなたがソース・データ・ファイルの構造を知っていて、データの文脈がしっかりしているという事実を頼りにしている。データメッシュを使うには、誰が、いつ、どこで、なぜ、どのようにデータを作成したかを知っていることが前提となる。例えば、社内の複数のデータウェアハウスからデータを分析したい場合、データメッシュを使用する戦略が考えられる。元のメタデータがかなり明確に定義されているユースケースだ。

データ・ファブリックは、オーケストレーション、メタデータ管理、データへのコンテキストの追加に重点を置いている。データファブリックでは、セマンティック層の管理が焦点となる。セマンティック・レイヤーを使って重要な企業データを表現し、データの共通方言を開発しましょう。データ・ファブリック・プロジェクトにおけるセマンティック・レイヤーは、複雑なデータを製品、顧客、収益といった馴染みのあるビジネス用語にマッピングし、組織全体で統一されたデータの統合ビューを提供するかもしれない。医薬品の臨床試験は、データファブリックを使用する良い例である。なぜなら、臨床試験のデータは、機械、報告書、その他の研究の組み合わせから得られ、そのデータは正確なメタデータをほとんど持っていないからである。このデータは「スパース」である可能性もあり、これはかなりの数の行や列が空白またはNULLであることを意味する。

 


データメッシュ/データファブリックのための技術

データメッシュ・イン・ア・ボックスやデータファブリック・イン・ア・ボックスのソリューションは存在しない。この記事を書いている時点では、生地とデータメッシュのワンストップショップは存在しなかった。つまり、データメッシュやファブリックはソフトウェア製品ではないのだ。複数の解決策を必要とする戦略的な取り組みが一般的だ。

今日、企業はデータ・メッシュやデータ・ファブリックを構築するために、いくつかのテクノロジーを利用しているかもしれない。いくつか例を挙げよう:

伝統のデータベース

最近のデータベースは、データメッシュ形式で外部テーブルを活用することができる。例えばVerticaでは、PARQUETファイルやその他のファイルタイプをメインリポジトリにロードすることなく、シームレスに使用することができます。さらに、AVRO、JSON、TEXTの半構造化データがある場合、スキーマ・オン・リード機能を活用してデータを利用する簡単な方法がある。この機能は、異種のソースがあり、それらをデータベース内のデータのように活用したい場合に、データメッシュを作成するのに役立つ

クエリーエンジン

全世代のクエリー・エンジン(クエリー・アクセラレーターと呼ばれることもある)が、データ・メッシュも可能にしている。Dremio、Starburst、Druidのようなソリューションは、主に外部テーブルの分析に重点を置いている。ACIDへの準拠や、高い並行性で分析を行う能力に欠けることもあるが、データメッシュのミッションに役立つことが多い。従来のデータベースには、データベースとデータレイクでシームレスなクエリを可能にするクエリエンジンが追加されるケースが増えている。

視覚化ツール

高度な視覚化ツールの中には、セマンティック・レイヤー・システムを持つものもある。例えば、MicroStrategyは、複数のソースからのデータを解釈する一貫した方法を提供する抽象化レイヤーを提供します。さらに、複雑なデータを身近なビジネス用語にマッピングする。この機能は、単純化されたデータ・ファブリックであるだけでなく、データベースの外部テーブル機能を活用することもできる。これを組み合わせれば、強力な力を発揮できる。

グラフ・データベース

グラフ・データベースはオーケストレーションとコンテキストに優れており、多くのデータ・ファブリック・ソリューションのエンジンとなっている。グラフDBを使ったデータ・ファブリックの実装は重要なプロジェクトだが、完成すれば真のデータ・ファブリックが手に入る。

データ仮想化

AtScaleやDenodoが提供するようなデータ仮想化ツールは、BIやデータサイエンスチームがデータを利用するための一貫したビューを提供します。最新のデータベースにはデータ仮想化機能もある。

データカタログ

データカタログは、組織内のデータ資産の組織化された目録である。Collibraのような企業は、メタデータの収集、整理、アクセス、エンリッチ化により、データディスカバリーおよびガバナンスカタログを提供する。

オンプレミスのオブジェクトストア

すべてのファイルを中央の場所に保存しておくと便利です。オブジェクトストアは、データベース、データリポジトリ、データレイクを一元管理し、優れたパフォーマンス、セキュリティ、ディザスタリカバリを実現します。そのため、Pure、Vast、Dell ECSなどのオブジェクト・ストアがデータ・メッシュに役立つ。

 


データメッシュかデータファブリックか?

データ・メッシュは、異種のデータにアクセスする方法であり、すべてのデータ・ソースがある場合に特に有効である:

  1. 構造を持つ
  2. 寸法があまり変わらない
  3. 疎らなデータを持ってはいけない

データメッシュに弱点があるとすれば、それはコンテキストだ。アナリティクスが "誰によれば?"という問いを投げかけているのであれば、データファブリックはそれを理解する上でより強力なものとなる。データエンジニアは、ソースを統合する際、しばしば矛盾した情報に遭遇する。例えば、新しいシステムは顧客の年齢を32歳と報告しているかもしれないが、レガシーデータは同じ顧客を30歳と報告しているかもしれない。データ・リネージはデータ・ファブリックの追加機能で、コンフリクトが発生したときにどのデータ・ソースをより信頼するかを決めることができる。

データ・ファブリック・ソリューションは、異種データの問題を解決するために、より多くのツールを組み合わせる傾向がある。このツールはデータ・メッシュよりもエレガントで、かつ複雑だ。これには、より高度な変換機能、強化されたきめ細かなセキュリティ、ガバナンスのためのグラフィカル・インターフェース、リネージなどが含まれる。しかし、データ・ファブリックの弱点があるとすれば、セマンティック・レイヤーの作成/管理に多大な労力を費やさなければならないことだろう。

データファブリック戦略を謳うベンダーは、しばしばナレッジグラフの機能を宣伝する。ナレッジグラフは、構造化データと非構造化データの両方を意味的に表現することで、データメッシュのデータ統合戦略に取って代わる。

 


データ・メッシュのための新しいデータベース機能

これまで以上に、データはデータベースやデータレイクに多様に配置されていることが多い。クラウドデータベースは、外部データへのアクセスという点で大きく異なる。ソリューションによっては、データをデータウェアハウスに特定の形式で保存する必要があり、データレイクをサポートしていないものもある。また、データレイクをサポートするものの、そのために複数のツールを必要とするところもある。一般的なフォーマット(ORC、PARQUET、AVRO、JSONなど)を扱い、それらのソースを日々の分析に優雅かつ迅速に活用できるソリューションを探す。組織内の他のデータベースにアクセスできるソリューション(データの仮想化)を探し、アクセスしにくいデータをなくす。

脚注