OpenText-Startseite.
Technische Themen

Was sind Data Mesh und Data Fabric?

Illustration von IT-Artikeln mit Schwerpunkt auf einem Laptop

Übersicht

Sind Data Mesh und Data Fabric die neueste und beste Initiative oder neue Schlagworte, um Lösungen zu verkaufen? Es ist schwer zu sagen, aber diese neuen Unternehmensinitiativen haben ein gemeinsames Ziel: den Umgang mit uneinheitlichen Daten. Sie können oft einen größeren Nutzen aus Ihren Daten ziehen, wenn Sie unterschiedliche Daten für Ihre Analysen verwenden können, ohne Daten übermäßig und wiederholt kopieren zu müssen. Data Mesh und Data Fabric verfolgen unterschiedliche Ansätze zur Lösung des Problems der disparaten Daten.

Data Mesh und Data Fabric

Was ist der Unterschied zwischen Data Mesh und Data Fabric?

Sowohl Data Mesh als auch Fabric konzentrieren sich auf Metadaten und eine semantische Ebene, um mehrere Datenquellen für Analysen zu nutzen. Der größte Unterschied scheint jedoch der Kontext zu sein.

Laienhaft ausgedrückt geht es bei der Datenverflechtung um die Fähigkeit, verschiedene Datenquellen einer Analysemaschine anzubieten. Data Mesh setzt voraus, dass Sie die Struktur Ihrer Quelldateien kennen und dass der Kontext der Daten solide ist. Die Verwendung von Datennetzen setzt voraus, dass Sie wissen, wer, wann, wo, warum und wie die Daten erstellt wurden. Data Mesh könnte die Strategie sein, die Sie anwenden, wenn Sie zum Beispiel Daten aus mehreren Data Warehouses in Ihrem Unternehmen analysieren wollen. Es handelt sich um einen Anwendungsfall, bei dem die ursprünglichen Metadaten ziemlich genau definiert sind.

Data Fabric konzentriert sich auf die Orchestrierung, die Verwaltung von Metadaten und das Hinzufügen von zusätzlichem Kontext zu den Daten. In der Datenstruktur steht die Verwaltung der semantischen Schicht im Mittelpunkt. Nutzen Sie die semantische Ebene zur Darstellung wichtiger Unternehmensdaten und entwickeln Sie einen gemeinsamen Dialekt für Ihre Daten. Eine semantische Schicht in einem Data-Fabric-Projekt könnte komplexe Daten in vertraute Geschäftsbegriffe wie Produkt, Kunde oder Umsatz umwandeln, um eine einheitliche, konsolidierte Ansicht der Daten im gesamten Unternehmen zu bieten. Pharmazeutische Studien sind ein gutes Beispiel für den Einsatz von Data Fabric, da die Daten einer Studie aus einer Kombination von Maschinen, Berichten und anderen Studien stammen, bei denen die Daten nur wenige genaue Metadaten enthalten, auf die man sich verlassen kann. Diese Daten können auch "spärlich" sein, was bedeutet, dass eine erhebliche Anzahl von Zeilen und Spalten leer oder null sind.

 


Technologien für Datennetze/Datenstrukturen

Es gibt keine "Data-Mesh-in-a-Box"- oder "Data-Fabric-in-a-Box"-Lösungen. Zum Zeitpunkt der Abfassung dieses Artikels gab es noch keinen One-Stop-Shop für Gewebe und Datengewebe. Mit anderen Worten: Data Mesh und Fabric sind keine Softwareprodukte. Es handelt sich in der Regel um strategische Initiativen, die mehrere Lösungen erfordern.

Heutzutage können Unternehmen mehrere Technologien einsetzen, um ein Datennetz oder eine Datenstruktur zu schaffen. Hier sind einige Beispiele:

Traditionelle Datenbanken

Moderne Datenbanken können externe Tabellen im Stil eines Datennetzes nutzen. Mit Vertica können Sie zum Beispiel PARQUET-Dateien und andere Dateitypen nahtlos verwenden, ohne sie in das Haupt-Repository zu laden. Wenn Sie über halbstrukturierte Daten in AVRO, JSON oder TEXT verfügen, können Sie außerdem auf einfache Weise Schema-on-Read-Funktionen nutzen, um die Daten zu verwenden. Diese Funktion ist für die Erstellung eines Datennetzes sehr nützlich, wenn Sie unterschiedliche Quellen haben und diese wie Daten in einer Datenbank nutzen möchten.

Abfragemaschinen

Eine ganze Generation von Abfrage-Engines (manchmal auch als Abfrage-Beschleuniger bezeichnet) ermöglicht auch die Vernetzung von Daten. Lösungen wie Dremio, Starburst und Druid konzentrieren sich in erster Linie auf die Analyse von externen Tabellen. Manchmal fehlt es ihnen an ACID-Konformität und an der Fähigkeit, Analysen mit hoher Gleichzeitigkeit durchzuführen, aber sie sind oft hilfreich für die Aufgabe der Datenvernetzung. Immer mehr traditionelle Datenbanken haben Abfrage-Engines hinzugefügt, um eine nahtlose Abfrage in einer Datenbank und einem Data Lake zu ermöglichen.

Werkzeuge zur Visualisierung

Einige fortschrittliche Visualisierungswerkzeuge verfügen über ein semantisches Ebenensystem. MicroStrategy zum Beispiel bietet eine Abstraktionsebene, die eine konsistente Interpretation von Daten aus verschiedenen Quellen ermöglicht. Darüber hinaus werden komplexe Daten in vertraute Geschäftsbegriffe übersetzt. Diese Fähigkeit ist nicht nur eine vereinfachte Datenstruktur, sondern kann auch die Möglichkeiten der externen Tabellen Ihrer Datenbank nutzen. In Kombination können sie sehr mächtig sein.

Graph-Datenbanken

Graphdatenbanken sind gut in der Orchestrierung und im Kontext und sind die Motoren hinter vielen Data-Fabric-Lösungen. Die Implementierung von Data Fabric mit einer Graph-DB ist ein umfangreiches Projekt, aber Sie erhalten eine echte Data Fabric, wenn sie fertig ist.

Virtualisierung von Daten

Datenvirtualisierungstools, wie sie von AtScale und Denodo angeboten werden, bieten BI- und Data Science-Teams eine einheitliche Sicht auf die Daten. Moderne Datenbanken verfügen auch über Funktionen zur Datenvirtualisierung.

Datenkatalog

Ein Datenkatalog ist ein organisiertes Inventar von Datenbeständen in einer Organisation. Unternehmen wie Collibra stellen Kataloge zur Datenerkennung und -verwaltung bereit, indem sie Metadaten sammeln, organisieren, zugänglich machen und anreichern.

Vor-Ort-Objektspeicher

Es kann hilfreich sein, alle Ihre Dateien an einem zentralen Ort zu speichern. Mit Objektspeichern können Sie Datenbanken, Daten-Repositories und Data Lakes zentral an einem Ort verwalten, und zwar mit hervorragender Leistung, Sicherheit und Disaster Recovery. Aus diesem Grund können Objektspeicher, wie die von Pure, Vast, Dell ECS und vielen anderen, bei der Datenvernetzung helfen.

 


Datengitter oder Datengewebe?

Data Mesh ist eine Möglichkeit, auf Daten zuzugreifen, die unterschiedlich sein können, und funktioniert besonders gut, wenn alle Datenquellen vorhanden sind:

  1. Struktur haben
  2. Abmessungen haben, die sich nicht sehr stark verändern
  3. keine dünn besiedelten Daten haben

Wenn das Datennetz eine Schwäche hat, dann ist es der Kontext. Wenn Ihre Analyse die Frage "nach wem?" stellt, dann kann ein Datengewebe zu einem besseren Verständnis beitragen. Dateningenieure stoßen bei der Integration von Quellen häufig auf widersprüchliche Informationen. So kann ein neues System beispielsweise das Alter eines Kunden mit 32 Jahren angeben, während die alten Daten denselben Kunden mit 30 Jahren ausweisen. Data Lineage ist eine zusätzliche Funktion von Data Fabric, mit der Sie entscheiden können, welchen Datenquellen Sie bei Konflikten mehr vertrauen.

Bei Data-Fabric-Lösungen werden in der Regel mehrere Tools kombiniert, um Ihr Problem mit verteilten Daten zu lösen. Die Werkzeuge sind sowohl eleganter als auch in der Regel komplexer als Datengitter. Dazu könnten größere Transformationsmöglichkeiten, eine verbesserte, fein abgestufte Sicherheit, grafische Schnittstellen für die Verwaltung und die Abstammung gehören. Ein Schwachpunkt von Data Fabric ist jedoch, dass Sie wahrscheinlich einen erheblichen Aufwand für die Erstellung/Verwaltung einer semantischen Schicht betreiben müssen.

Die Anbieter, die eine Data-Fabric-Strategie anpreisen, werben oft mit den Fähigkeiten eines Wissensgraphen. Ein Wissensgraph ersetzt die Strategie der Datenintegration durch eine semantische Darstellung sowohl strukturierter als auch unstrukturierter Daten - eine Darstellung, die oft mehrere Schemata und sich ändernde Dimensionen besser unterstützt.

 


Neue Datenbankfunktionen für Datengitter

Mehr denn je befinden sich die Daten in Datenbanken und Data Lakes an verschiedenen Orten. Cloud-Datenbanken unterscheiden sich stark in Bezug auf den Zugriff auf externe Daten. Einige Lösungen erfordern die Speicherung von Daten in bestimmten Formaten in Data Warehouses und bieten keine Unterstützung für Data Lakes. Wieder andere unterstützen Data Lakes, benötigen dafür aber mehrere Tools. Suchen Sie nach einer Lösung, die gängige Formate (wie ORC, PARQUET, AVRO, JSON) verarbeiten kann und diese Quellen mit Leichtigkeit und Geschwindigkeit in die tägliche Analyse einbezieht. Suchen Sie nach Lösungen, die auf andere Datenbanken in Ihrem Unternehmen zugreifen können (Datenvirtualisierung), damit der Zugriff auf keine Daten erschwert wird.

Wie können wir behilflich sein?

Fußnoten