OpenText startsida.
Tekniska ämnen

Vad är Data Mesh och Data Fabric?

Illustration av IT-artiklar med fokus på en bärbar dator

Översikt

Är data mesh och data fabric det senaste och bästa initiativet, eller nya buzzwords som syftar till att sälja lösningar? Det är svårt att säga, men dessa nya företagsinitiativ har ett gemensamt mål - nämligen att hantera olika data. Du kan ofta få ut mer värde av dina data om du kan använda olika data för dina analyser utan att behöva kopiera data överdrivet mycket och upprepade gånger. Data mesh och data fabric har olika tillvägagångssätt för att lösa problemet med disparata data.

Data Mesh och Data Fabric

Vad är skillnaden mellan data mesh och data fabric?

Både data mesh och fabric fokuserar på metadata och ett semantiskt lager för att utnyttja flera datakällor för analys. Den största skillnaden verkar dock handla om sammanhanget.

I lekmannatermer handlar datanät om möjligheten att erbjuda olika datakällor till en analysmotor. Data mesh bygger på att du känner till strukturen i dina källdatafiler och att data har ett bra sammanhang. Att använda datanät förutsätter att du vet vem, när, var, varför och hur data skapades. Data mesh kan vara den strategi du använder, till exempel om du vill analysera data från flera datalager i ditt företag. Det är ett användningsfall där de ursprungliga metadata är ganska väldefinierade.

Data fabric fokuserar på orkestrering, metadatahantering och att lägga till ytterligare sammanhang i data. I datafabriken ligger fokus på att hantera det semantiska lagret. Använd det semantiska lagret för att representera viktiga företagsdata och utveckla en gemensam dialekt för dina data. Ett semantiskt lager i ett datafabriksprojekt kan mappa komplexa data till välkända affärstermer som produkt, kund eller intäkter för att erbjuda en enhetlig, konsoliderad vy av data i hela organisationen. Läkemedelsprövningar är ett bra exempel på när du kan använda datafabrikation, eftersom data från en prövning kommer från en kombination av maskiner, rapporter och andra studier där data har få exakta metadata att förlita sig på. Dessa data kan också vara "glesa", vilket innebär att ett betydande antal rader och kolumner är tomma eller noll.

 


Teknik för data mesh/data fabric

Det finns egentligen inga lösningar som bygger på att man har en datamask i en låda eller en datafabrik i en låda. När den här artikeln skrevs fanns det ingen enda leverantör av tyg- och datanät. Med andra ord är data mesh och fabric inte mjukvaruprodukter. De är oftare strategiska initiativ som kräver flera olika lösningar.

Idag kan företag använda flera olika tekniker för att skapa ett datanät eller en datafabrik. Här är några exempel:

Databaser för traditioner

Moderna databaser kan utnyttja externa tabeller i form av datanät. Vertica, till exempel, låter dig använda PARQUET-filer och andra filtyper sömlöst utan att ladda dem i huvudarkivet. Om du har semistrukturerade data i AVRO, JSON eller TEXT finns det dessutom ett enkelt sätt att utnyttja schema on read-funktioner för att använda data. Denhär funktionen är värdefull för att skapa ett datanät om du har olika källor och vill utnyttja dem som du skulle göra med data i en databas.

Sökmotorer

En hel generation av frågemotorer (ibland kallade frågeacceleratorer) gör också datanätverk möjliga. Lösningar som Dremio, Starburst och Druid fokuserar främst på att analysera externa tabeller. De saknar ibland ACID-överensstämmelse och förmågan att göra analyser med hög samtidighet, men de är ofta användbara i datanätets uppdrag. Fler och fler traditionella databaser har lagt till frågemotorer för att möjliggöra sömlösa sökningar i en databas och en datasjö.

Verktyg för visualisering

Vissa avancerade visualiseringsverktyg har ett system med semantiska lager. MicroStrategy, till exempel, erbjuder ett abstraktionslager som ger ett konsekvent sätt att tolka data från flera källor. Dessutom kan komplexa data omvandlas till välkända affärstermer. Den här funktionen är inte bara en förenklad datastruktur utan kan också utnyttja databasens funktioner för externa tabeller. I kombination kan det vara mycket kraftfullt.

Grafdatabaser

Grafdatabaser är bra på orkestrering och kontext och är motorn bakom många lösningar för datafabriker. Att implementera data fabric med en graf DB är ett betydande projekt, men du kommer att få en riktig data fabric när den är klar.

Virtualisering av data

Datavirtualiseringsverktyg som de som erbjuds av AtScale och Denodo ger BI- och Data Science-teamen en enhetlig vy för att konsumera data. Moderna databaser har också funktioner för datavirtualisering.

Datakatalog

En datakatalog är en organiserad inventering av datatillgångar i organisationen. Företag som Collibra tillhandahåller kataloger för datautvinning och styrning genom att samla in, organisera, få tillgång till och berika metadata.

Lokal objektbutik

Det kan vara bra att lagra alla dina filer på en central plats. Med Object Stores kan du centralt hantera databaser, datalager och datasjöar på ett och samma ställe med utmärkt prestanda, säkerhet och katastrofåterställning. Av den anledningen kan objektbutiker som de från Pure, Vast, Dell ECS och många andra hjälpa till med datanät.

 


Data mesh eller data fabric?

Data mesh är ett sätt att få tillgång till data som kan vara olika och fungerar särskilt bra när alla datakällor:

  1. Ha struktur
  2. Har dimensioner som inte förändras särskilt mycket
  3. Har inte glesbefolkade data

Om data mesh har en svaghet så är det sammanhanget. Om din analys ställer frågan "enligt vem?" kan en datafabrik vara mer kraftfull för att förstå detta. Dataingenjörer stöter ofta på motstridig information när de integrerar källor med varandra. Ett nytt system kan till exempel rapportera en kunds ålder till 32 år, medan äldre data kan rapportera samma kund som 30 år gammal. Data lineage är en extra funktion i data fabric som låter dig bestämma vilka datakällor du ska lita mer på när det finns konflikter.

Data fabric-lösningar tenderar att kombinera fler verktyg för att lösa ditt problem med disparata data. Verktygen är både mer eleganta och oftast mer komplexa än datanät. Det kan handla om större transformationsmöjligheter, förbättrad finkornig säkerhet, grafiska gränssnitt för styrning och lineage. Men om det finns en svaghet med data fabric är det att du förmodligen måste lägga ner betydande arbete på att skapa/hantera ett semantiskt lager.

De leverantörer som förespråkar en "data fabric"-strategi lyfter ofta fram möjligheterna med en kunskapsgraf. En kunskapsgraf ersätter datanätets dataintegrationsstrategi med en semantisk representation av både strukturerad och ostrukturerad data - en representation som ofta har bättre stöd för flera olika scheman och dimensioner som förändras.

 


Nya databasfunktioner för datanät

Mer än någonsin finns data ofta på olika platser i databaser och datasjöar. Molndatabaser varierar kraftigt när det gäller åtkomst till externa data. Vissa lösningar kräver att data lagras i specifika format i datalager och erbjuder inget stöd för datasjöar. Ytterligare andra stöder datasjöar men behöver flera verktyg för att göra det. Leta efter en lösning som kan hantera vanliga format (som ORC, PARQUET, AVRO, JSON) och utnyttja dessa källor i den dagliga analysen på ett elegant och snabbt sätt. Leta efter lösningar som kan nå andra databaser i din organisation (datavirtualisering) så att ingen data är svår att komma åt.

Hur kan vi hjälpa till?

Fotnoter