Page d'accueil d'OpenText.
Sujets techniques

Quels sont les concepts de Mesh de données et de Data Fabric ?

Illustration de matériel informatique, avec un ordinateur portable en particulier.

Aperçu

Les termes « mesh de données » et « fabric de données » représentent-ils la dernière et la plus grande initiative, ou de simples mots à la mode destinés à vendre des solutions ? Difficile à dire, mais ces nouvelles initiatives d'entreprises émergentes ont un objectif commun : traiter des données disparates. Vous pouvez souvent tirer plus de valeur de vos données si vous pouvez utiliser des données disparates pour vos analyses sans avoir à les copier excessivement et à répétition. Les concepts de maillage de données et de tissu de données adoptent des approches différentes pour résoudre le problème des données disparates.

Maillage des données et structure des données

Quelle est la différence entre un maillage de données et une structure de données ?

Les architectures de maillage et de tissu de données se concentrent toutes deux sur les métadonnées et une couche sémantique afin d'exploiter plusieurs sources de données pour l'analyse. La principale différence semble toutefois résider dans le contexte.

En termes simples, un maillage de données permet de fournir diverses sources de données à un moteur analytique. Le maillage de données est basé sur le fait que vous connaissez la structure de vos fichiers de données sources et que le contexte des données est solide. L'utilisation d'un maillage de données suppose que vous connaissiez qui, quand, où, pourquoi et comment les données ont été créées. Le maillage de données pourrait être la stratégie à utiliser, par exemple, si vous souhaitez analyser des données provenant de plusieurs entrepôts de données de votre entreprise. Il s'agit d'un cas d'utilisation où les métadonnées d'origine sont relativement bien définies.

La plateforme de données se concentre sur l'orchestration, la gestion des métadonnées et l'ajout de contexte supplémentaire aux données. Dans l'architecture des données, la gestion de la couche sémantique est au cœur des préoccupations. Utilisez la couche sémantique pour représenter les données critiques de l'entreprise et développer un dialecte commun pour vos données. Dans un projet de structure de données, une couche sémantique peut transformer des données complexes en termes commerciaux familiers tels que produit, client ou chiffre d'affaires afin d'offrir une vue unifiée et consolidée des données à l'échelle de l'organisation. Les essais pharmaceutiques sont un bon exemple de domaine où l'on pourrait utiliser une structure de données, car les données d'un essai proviennent d'une combinaison de machines, de rapports et d'autres études pour lesquelles les métadonnées précises sont rares. Ces données peuvent aussi être « éparses », ce qui signifie qu'un nombre important de rangées et de colonnes sont vides ou nulles.

 


Technologies pour maillage de données/structure de données

Il n'existe pas vraiment de solutions de maillage de données ou de réseau de données clé en main. Au moment d'écrire ces lignes, il n'y avait pas de guichet unique pour les infrastructures de réseau et les maillages de données. Autrement dit, les réseaux de données et l'infrastructure réseau ne sont pas des produits logiciels. Il s’agit le plus souvent d’initiatives stratégiques nécessitant de multiples solutions.

Aujourd'hui, les entreprises peuvent utiliser plusieurs technologies pour créer un maillage de données ou une infrastructure de données. Voici quelques exemples :

Bases de données traditionnelles

Les bases de données modernes peuvent exploiter des tables externes selon un modèle de maillage de données. Vertica, par exemple, vous permet d'utiliser des fichiers PARQUET et d'autres types de fichiers de manière transparente sans avoir à les charger dans le dépôt principal. De plus, si vous disposez de données semi-structurées au format AVRO, JSON ou TEXT, il existe un moyen simple d'exploiter les fonctionnalités de schéma à la lecture pour utiliser ces données. Cette fonctionnalité est précieuse pour créer un maillage de données si vous avez des sources disparates et que vous voulez les exploiter comme vous le feriez avec des données d'une base de données.

Moteurs de requêtes

Toute une génération de moteurs de requêtes (parfois appelés accélérateurs de requêtes) rend également possible le maillage des données. Les solutions comme Dremio, Starburst et Druid se concentrent principalement sur l'analyse de tables externes. Ils peuvent parfois manquer de conformité ACID et de capacité à effectuer des analyses à haute concurrence, mais ils sont souvent utiles dans la mission de maillage de données. De plus en plus de bases de données traditionnelles ont ajouté des moteurs de requêtes pour permettre une interrogation transparente à la fois dans une base de données et dans un lac de données.

Outils de visualisation

Certains outils de visualisation avancés possèdent un système de couches sémantiques. MicroStrategy, par exemple, offre une couche d'abstraction qui permet d'interpréter de manière cohérente les données provenant de sources multiples. De plus, il permet de traduire des données complexes en termes commerciaux familiers. Cette fonctionnalité ne se limite pas à une structure de données simplifiée, mais permet également d'exploiter les capacités des tables externes de votre base de données. Ensemble, ils peuvent être extrêmement puissants.

bases de données graphiques

Les bases de données graphiques excellent dans l'orchestration et la contextualisation, et constituent le moteur de nombreuses solutions de fabrication de données. La mise en œuvre d'une structure de données avec une base de données graphique est un projet d'envergure, mais vous obtiendrez une véritable structure de données une fois celui-ci terminé.

virtualisation des données

Les outils de virtualisation des données comme ceux proposés par AtScale et Denodo offrent aux équipes de BI et de science des données une vue cohérente pour l'exploitation des données. Les bases de données modernes ont aussi des capacités de virtualisation des données.

Data catalog

Un catalogue de données est un inventaire organisé des actifs de données de l'organisation. Des entreprises comme Collibra fournissent des catalogues de découverte et de gouvernance des données en recueillant, organisant, accédant et enrichissant les métadonnées.

Magasin d'objets sur place

Il peut être utile de stocker tous vos fichiers dans un emplacement central. Les systèmes de stockage d'objets vous permettent de gérer de manière centralisée les bases de données, les référentiels de données et les lacs de données en un seul endroit, avec des performances, une sécurité et une reprise après sinistre exceptionnelles. C'est pourquoi les systèmes de stockage d'objets tels que ceux de Pure, Vast, Dell ECS et bien d'autres peuvent faciliter la mise en place d'un maillage de données.

 


Maillage de données ou tissu de données ?

Le maillage de données est une méthode d'accès à des données potentiellement disparates et fonctionne particulièrement bien lorsque toutes les sources de données :

  1. Avoir une structure
  2. Avoir des dimensions qui ne varient pas beaucoup
  3. Ne pas disposer de données peu denses

Si le maillage de données a un point faible, c'est bien le contexte. Si votre analyse pose la question « selon qui ? , alors une architecture de données peut s'avérer plus efficace pour répondre à cette question. Les ingénieurs de données sont souvent confrontés à des informations contradictoires lorsqu'ils intègrent différentes sources. Par exemple, un nouveau système pourrait indiquer que l'âge d'un client est de 32 ans, tandis que les données existantes pourraient indiquer que ce même client a 30 ans. La traçabilité des données est une fonctionnalité supplémentaire de Data Fabric qui vous permet de choisir les sources de données auxquelles accorder le plus de confiance en cas de conflits.

Les solutions de fabrication de données auront tendance à combiner plus d'outils pour résoudre votre problème de données disparates. Ces outils sont à la fois plus élégants et généralement plus complexes que le maillage de données. Elles pourraient inclure des capacités de transformation accrues, une sécurité renforcée et plus précise, des interfaces graphiques pour la gouvernance et la traçabilité. Cependant, le point faible de l'architecture de données réside probablement dans les efforts considérables qu'il faudra consacrer à la création et à la gestion d'une couche sémantique.

Ces fournisseurs qui vantent les mérites d'une stratégie de réseau de données mettent souvent en avant les capacités d'un graphique de connaissances. Un graphe de connaissances remplace la stratégie d'intégration de données en maillage par une représentation sémantique des données structurées et non structurées – une représentation qui prend souvent mieux en charge plusieurs schémas et dimensions évolutifs.

 


Nouvelles fonctionnalités de base de données pour le maillage de données

Plus que jamais, les données sont souvent réparties de diverses manières dans des bases de données et des lacs de données. Les bases de données infonuagiques varient considérablement en termes d'accès aux données externes. Certaines solutions exigent que les données soient stockées dans des formats spécifiques dans des entrepôts de données et ne prennent pas en charge les lacs de données. D'autres encore prennent en charge les lacs de données, mais nécessitent plusieurs outils pour ce faire. Recherchez une solution capable de gérer les formats courants (comme ORC, PARQUET, AVRO, JSON) et d'exploiter ces sources dans une analyse quotidienne avec fluidité et rapidité. Trouvez des solutions pour accéder à d'autres bases de données de votre organisation (virtualisation des données) afin qu'aucune donnée ne soit difficile d'accès.

Comment pouvons-nous vous aider?

Notes de bas de page