Page d'accueil d'OpenText.
Thèmes techniques

Qu'est-ce que le Data Mesh et le Data Fabric ?

Illustration d'articles informatiques avec un ordinateur portable en point de mire

Présentation

Le maillage des données et le tissu de données sont-ils la dernière et la plus grande initiative, ou de nouveaux mots à la mode destinés à vendre des solutions ? Difficile à dire, mais ces nouvelles initiatives émergentes des entreprises ont un objectif commun : traiter des données disparates. Vous pouvez souvent tirer plus de valeur de vos données si vous pouvez utiliser des données disparates pour vos analyses sans avoir à copier des données de manière excessive et répétée. Le maillage et le tissu de données adoptent des approches différentes pour résoudre le problème des données disparates.

Data Mesh et Data Fabric

Quelle est la différence entre data mesh et data fabric ?

Le maillage et le tissu de données sont tous deux axés sur les métadonnées et une couche sémantique permettant d'exploiter de multiples sources de données à des fins d'analyse. Toutefois, la principale différence semble concerner le contexte.

En termes simples, le maillage des données est la capacité d'offrir différentes sources de données à un moteur d'analyse. Le maillage des données repose sur le fait que vous connaissez la structure de vos fichiers de données sources et que le contexte des données est solide. L'utilisation d'un maillage de données suppose que vous sachiez qui, quand, où, pourquoi et comment les données ont été créées. Le maillage des données peut être la stratégie que vous utilisez, par exemple, si vous souhaitez analyser des données provenant de plusieurs entrepôts de données dans votre entreprise. Il s'agit d'un cas d'utilisation où les métadonnées d'origine sont assez bien définies.

La structure de données se concentre sur l'orchestration, la gestion des métadonnées et l'ajout d'un contexte supplémentaire aux données. Dans le tissu de données, la gestion de la couche sémantique est au centre des préoccupations. Utilisez la couche sémantique pour représenter les données critiques de l'entreprise et développez un dialecte commun pour vos données. Une couche sémantique dans un projet de tissu de données peut mettre en correspondance des données complexes avec des termes commerciaux familiers tels que produit, client ou revenu, afin d'offrir une vue unifiée et consolidée des données dans l'ensemble de l'organisation. Les essais pharmaceutiques sont un bon exemple d'utilisation du tissu de données, puisque les données d'un essai proviennent d'une combinaison de machines, de rapports et d'autres études où les données ne disposent que de peu de métadonnées précises sur lesquelles s'appuyer. Ces données peuvent également être "éparses", ce qui signifie qu'un nombre important de lignes et de colonnes sont vides ou nulles.

 


Technologies pour le maillage des données/la structure des données

Il n'existe pas vraiment de solutions de type "data-mesh-in-a-box" ou "data-fabric-in-a-box". Au moment de la rédaction de cet article, il n'existait pas de guichet unique pour le tissu et le maillage de données. En d'autres termes, le maillage et le tissu de données ne sont pas des produits logiciels. Il s'agit plus souvent d'initiatives stratégiques qui nécessitent des solutions multiples.

Aujourd'hui, les entreprises peuvent utiliser plusieurs technologies pour créer un maillage de données ou un tissu de données. Voici quelques exemples :

Bases de données sur les traditions

Les bases de données modernes peuvent exploiter des tables externes dans un style de maillage de données. Vertica, par exemple, vous permet d'utiliser des fichiers PARQUET et d'autres types de fichiers de manière transparente sans les charger dans le référentiel principal. En outre, si vous disposez de données semi-structurées en AVRO, JSON ou TEXT, il existe un moyen simple d'exploiter les fonctionnalités de lecture des schémas pour utiliser les données. Cette fonctionnalité est très utile pour créer un maillage de données si vous disposez de sources disparates et que vous souhaitez les exploiter comme vous le feriez avec des données dans une base de données.

Moteurs de recherche

Toute une génération de moteurs de requêtes (parfois appelés accélérateurs de requêtes) rend également possible le maillage des données. Des solutions comme Dremio, Starburst et Druid se concentrent principalement sur l'analyse des tables externes. Ils manquent parfois de conformité ACID et de capacité à effectuer des analyses avec une forte concurrence, mais ils sont souvent utiles dans le cadre de la mission de maillage des données. De plus en plus de bases de données traditionnelles ont ajouté des moteurs de requête pour permettre une interrogation transparente dans une base de données et un lac de données.

Outils de visualisation

Certains outils de visualisation avancés disposent d'un système de couches sémantiques. MicroStrategy, par exemple, offre une couche d'abstraction qui permet d'interpréter de manière cohérente des données provenant de sources multiples. En outre, il permet de traduire des données complexes en termes commerciaux familiers. Cette capacité n'est pas seulement un tissu de données simplifié, elle peut également exploiter les capacités des tables externes de votre base de données. Combinées, elles peuvent être très puissantes.

Bases de données graphiques

Les bases de données graphiques sont performantes en matière d'orchestration et de contexte et sont les moteurs de nombreuses solutions de tissu de données. La mise en œuvre d'une structure de données avec une base de données graphique est un projet important, mais vous obtiendrez une véritable structure de données une fois qu'elle sera terminée.

Virtualisation des données

Les outils de virtualisation des données tels que ceux proposés par AtScale et Denodo offrent une vue cohérente aux équipes de BI et de Data Science pour consommer les données. Les bases de données modernes disposent également de capacités de virtualisation des données.

Catalogue de données

Un catalogue de données est un inventaire organisé des actifs de données de l'organisation. Des entreprises comme Collibra fournissent des catalogues de découverte et de gouvernance des données en collectant, organisant, accédant et enrichissant les métadonnées.

Magasin d'objets sur site

Il peut être utile de stocker tous vos fichiers dans un endroit central. Les magasins d'objets vous permettent de gérer de manière centralisée des bases de données, des référentiels de données et des lacs de données en un seul endroit, avec des performances, une sécurité et une reprise après sinistre exceptionnelles. C'est pourquoi les magasins d'objets tels que ceux de Pure, Vast, Dell ECS et bien d'autres peuvent contribuer au maillage des données.

 


Maillage de données ou tissu de données ?

Le maillage des données est un moyen d'accéder à des données qui peuvent être disparates et fonctionne particulièrement bien lorsque toutes les sources de données sont présentes :

  1. Avoir une structure
  2. Avoir des dimensions qui ne changent pas beaucoup
  3. Ne pas avoir de données peu peuplées

Si le maillage de données a une faiblesse, c'est le contexte. Si votre analyse pose la question "selon qui ?", un tissu de données peut être plus puissant pour comprendre cela. Les ingénieurs des données sont souvent confrontés à des informations contradictoires lorsqu'ils intègrent des sources. Par exemple, un nouveau système peut indiquer l'âge d'un client à 32 ans, alors que les données existantes peuvent indiquer que le même client a 30 ans. Le lignage des données est une fonctionnalité supplémentaire du tissu de données qui vous permet de décider à quelles sources de données faire davantage confiance en cas de conflit.

Les solutions de tissu de données tendent à combiner plusieurs outils pour résoudre votre problème de données disparates. Les outils sont à la fois plus élégants et généralement plus complexes que le maillage de données. Il peut s'agir de capacités de transformation accrues, d'une sécurité plus fine, d'interfaces graphiques pour la gouvernance et le lignage. Cependant, s'il y a une faiblesse dans le data fabric, c'est que vous devrez probablement consacrer des efforts importants à la création/gestion d'une couche sémantique.

Les fournisseurs qui vantent les mérites d'une stratégie de "data fabric" mettent souvent en avant les capacités d'un graphe de connaissances. Un graphe de connaissances remplace la stratégie d'intégration des données en mailles par une représentation sémantique des données structurées et non structurées, qui prend souvent mieux en charge les schémas multiples et les dimensions changeantes.

 


Nouvelles fonctionnalités de la base de données pour le maillage des données

Plus que jamais, les données sont souvent réparties dans des bases de données et des lacs de données. Les bases de données en nuage varient considérablement en termes d'accès aux données externes. Certaines solutions exigent que les données soient stockées dans des formats spécifiques dans des entrepôts de données et n'offrent aucun support pour les lacs de données. D'autres encore prennent en charge les lacs de données mais ont besoin de plusieurs outils pour ce faire. Recherchez une solution capable de gérer les formats courants (tels que ORC, PARQUET, AVRO, JSON) et d'exploiter ces sources dans l'analyse quotidienne avec grâce et rapidité. Recherchez des solutions qui peuvent accéder à d'autres bases de données de votre organisation (virtualisation des données) afin qu'aucune donnée ne soit difficile d'accès.

Comment pouvons-nous vous aider ?

Notes de bas de page