データ・メッシュは異種データにアクセスする方法であり、すべてのデータ・ソースがうまく機能する場合に特に有効です：データメッシュに弱点があるとすれば、それはコンテキストです。もしあなたのアナリティクスが、"「誰によると」" という質問をしているのであれば、データファブリックはこれを理解する上でより強力なものとなります。データエンジニアは、ソースを統合する際にしばしば矛盾した情報に遭遇します。例えば、新しいシステムでは顧客の年齢を32歳と報告しているのに、レガシーデータでは同じ顧客の年齢を30歳と報告しているかもしれません。データ・リネージはデータ・ファブリックの追加機能で、コンフリクトが発生したときにどのデータ・ソースをより信頼するかを決めることができます。データ・ファブリック・ソリューションは、より多くのツールを組み合わせて異種データの問題を解決する傾向があります。このツールは、データメッシュよりもエレガントで、かつ複雑です。その中には、より高度な変換機能、強化されたきめ細かなセキュリティ、ガバナンスのためのグラフィカル・インターフェース、リネージなどが含まれるかもしれません。しかし、データファブリックの弱点があるとすれば、セマンティックレイヤーの作成・管理に多大な労力を費やさなければならないことでしょう。データファブリック戦略を謳うベンダーは、しばしばナレッジグラフの機能を宣伝します。ナレッジグラフは、構造化データと非構造化データの両方を意味的に表現することで、データメッシュのデータ統合戦略を置き換えます。

概要

データメッシュや データファブリックは、最新かつ最高の取り組みなのか、それともソリューションの販売を目的とした新しい流行語なのか？一概には言えないが、こうした新たな企業の取り組みには、異種データの処理という共通の目標がある。データを過度に何度もコピーすることなく、異種データを分析に利用できれば、データからより多くの価値を得られることが多い。データメッシュとデータファブリックは、異種データの問題を解決するために異なるアプローチを取る。

データ・メッシュとデータ・ファブリック

データメッシュとデータファブリックの違いは？

データメッシュもファブリックも、複数のデータソースをアナリティクスに活用するためのメタデータとセマンティックレイヤーに重点を置いている。しかし、大きな違いは文脈にあるようだ。

平たく言えば、データメッシュとは、様々なデータソースを分析エンジンに提供する能力のことである。データ・メッシュは、あなたがソース・データ・ファイルの構造を知っていて、データの文脈がしっかりしているという事実を頼りにしている。データメッシュを使うには、誰が、いつ、どこで、なぜ、どのようにデータを作成したかを知っていることが前提となる。例えば、社内の複数のデータウェアハウスからデータを分析したい場合、データメッシュを使用する戦略が考えられる。元のメタデータがかなり明確に定義されているユースケースだ。

データ・ファブリックは、オーケストレーション、メタデータ管理、データへのコンテキストの追加に重点を置いている。データファブリックでは、セマンティック層の管理が焦点となる。セマンティック・レイヤーを使って重要な企業データを表現し、データの共通方言を開発しましょう。データ・ファブリック・プロジェクトにおけるセマンティック・レイヤーは、複雑なデータを製品、顧客、収益といった馴染みのあるビジネス用語にマッピングし、組織全体で統一されたデータの統合ビューを提供するかもしれない。医薬品の臨床試験は、データファブリックを使用する良い例である。なぜなら、臨床試験のデータは、機械、報告書、その他の研究の組み合わせから得られ、そのデータは正確なメタデータをほとんど持っていないからである。このデータは「スパース」である可能性もあり、これはかなりの数の行や列が空白またはNULLであることを意味する。

データメッシュ／データファブリックのための技術

データメッシュ・イン・ア・ボックスやデータファブリック・イン・ア・ボックスのソリューションは存在しない。この記事を書いている時点では、生地とデータメッシュのワンストップショップは存在しなかった。つまり、データメッシュやファブリックはソフトウェア製品ではないのだ。複数の解決策を必要とする戦略的な取り組みが一般的だ。

今日、企業はデータ・メッシュやデータ・ファブリックを構築するために、いくつかのテクノロジーを利用しているかもしれない。いくつか例を挙げよう：

伝統のデータベース

最近のデータベースは、データメッシュ形式で外部テーブルを活用することができる。例えばVerticaでは、PARQUETファイルやその他のファイルタイプをメインリポジトリにロードすることなく、シームレスに使用することができます。さらに、AVRO、JSON、TEXTの半構造化データがある場合、スキーマ・オン・リード機能を活用してデータを利用する簡単な方法がある。この機能は、異種のソースがあり、それらをデータベース内のデータのように活用したい場合に、データメッシュを作成するのに役立つ。

クエリーエンジン

全世代のクエリー・エンジン（クエリー・アクセラレーターと呼ばれることもある）が、データ・メッシュも可能にしている。Dremio、Starburst、Druidのようなソリューションは、主に外部テーブルの分析に重点を置いている。ACIDへの準拠や、高い並行性で分析を行う能力に欠けることもあるが、データメッシュのミッションに役立つことが多い。従来のデータベースには、データベースとデータレイクでシームレスなクエリを可能にするクエリエンジンが追加されるケースが増えている。

視覚化ツール

高度な視覚化ツールの中には、セマンティック・レイヤー・システムを持つものもある。例えば、MicroStrategyは、複数のソースからのデータを解釈する一貫した方法を提供する抽象化レイヤーを提供します。さらに、複雑なデータを身近なビジネス用語にマッピングする。この機能は、単純化されたデータ・ファブリックであるだけでなく、データベースの外部テーブル機能を活用することもできる。これを組み合わせれば、強力な力を発揮できる。

グラフ・データベース

グラフ・データベースはオーケストレーションとコンテキストに優れており、多くのデータ・ファブリック・ソリューションのエンジンとなっている。グラフDBを使ったデータ・ファブリックの実装は重要なプロジェクトだが、完成すれば真のデータ・ファブリックが手に入る。

データ仮想化

AtScaleやDenodoが提供するようなデータ仮想化ツールは、BIチームやデータサイエンスチームがデータを利用するための一貫したビューを提供します。最新のデータベースにはデータ仮想化機能もあります。

データカタログ

データカタログは、組織内のデータ資産の組織化された目録である。Collibraのような企業は、メタデータの収集、整理、アクセス、エンリッチ化により、データディスカバリーおよびガバナンスカタログを提供する。

オンプレミスのオブジェクトストア

すべてのファイルを中央の場所に保存しておくと便利です。オブジェクトストアは、データベース、データリポジトリ、データレイクを一元管理し、優れたパフォーマンス、セキュリティ、ディザスタリカバリを実現します。そのため、Pure、Vast、Dell ECSなどのオブジェクト・ストアがデータ・メッシュに役立つ。

データメッシュかデータファブリックか？

データ・メッシュは、異種のデータにアクセスする方法であり、すべてのデータ・ソースがある場合に特に有効である：

構造を持つ
寸法があまり変わらない
疎らなデータを持ってはいけない

データメッシュに弱点があるとすれば、それはコンテキストだ。アナリティクスが "誰によれば？"という問いを投げかけているのであれば、データファブリックはそれを理解する上でより強力なものとなる。データエンジニアは、ソースを統合する際、しばしば矛盾した情報に遭遇する。例えば、新しいシステムは顧客の年齢を32歳と報告しているかもしれないが、レガシーデータは同じ顧客を30歳と報告しているかもしれない。データ・リネージはデータ・ファブリックの追加機能で、コンフリクトが発生したときにどのデータ・ソースをより信頼するかを決めることができる。

データ・ファブリック・ソリューションは、異種データの問題を解決するために、より多くのツールを組み合わせる傾向がある。このツールはデータ・メッシュよりもエレガントで、かつ複雑だ。これには、より高度な変換機能、強化されたきめ細かなセキュリティ、ガバナンスのためのグラフィカル・インターフェース、リネージなどが含まれる。しかし、データ・ファブリックの弱点があるとすれば、セマンティック・レイヤーの作成／管理に多大な労力を費やさなければならないことだろう。

データファブリック戦略を謳うベンダーは、しばしばナレッジグラフの機能を宣伝する。ナレッジグラフは、構造化データと非構造化データの両方を意味的に表現することで、データメッシュのデータ統合戦略に取って代わる。

データ・メッシュのための新しいデータベース機能

これまで以上に、データはデータベースやデータレイクに多様に配置されていることが多い。クラウドデータベースは、外部データへのアクセスという点で大きく異なる。ソリューションによっては、データをデータウェアハウスに特定の形式で保存する必要があり、データレイクをサポートしていないものもある。また、データレイクをサポートするものの、そのために複数のツールを必要とするところもある。一般的なフォーマット（ORC、PARQUET、AVRO、JSONなど）を扱い、それらのソースを日々の分析に優雅かつ迅速に活用できるソリューションを探す。組織内の他のデータベースにアクセスできるソリューション（データの仮想化）を探し、アクセスしにくいデータをなくす。