Argomenti tecnici

Che cosa sono Data Mesh e Data Fabric?

Che cosa sono Data Mesh e Data Fabric?

Panoramica

Il data mesh e il data fabric sono le ultime e più importanti iniziative o nuove parole d'ordine finalizzate alla vendita di soluzioni? È difficile dirlo, ma queste nuove iniziative aziendali emergenti hanno un obiettivo in comune: gestire dati eterogenei. Spesso è possibile ottenere più valore dai dati se si possono utilizzare dati eterogenei per le analisi senza doverli copiare eccessivamente e ripetutamente. Il data mesh e il data fabric adottano approcci diversi per risolvere il problema dei dati disparati.

De-mistificare la rete di dati

Scoprite alcuni dei principi alla base del concetto di rete di dati e dove si inserisce un database scalabile e ad alto valore di prestazioni in un'implementazione di rete di dati.

Guarda ora

Data Mesh e Data Fabric

Qual è la differenza tra data mesh e data fabric?

Sia il data mesh che il fabric si concentrano sui metadati e su un livello semantico per sfruttare più fonti di dati per l'analisi. Tuttavia, la differenza principale sembra riguardare il contesto.

In parole povere, il data mesh consiste nella capacità di offrire diverse fonti di dati a un motore analitico. Il data mesh si basa sul fatto che si conosce la struttura dei file di dati di origine e che il contesto dei dati è solido. L'uso del data mesh presuppone la conoscenza di chi, quando, dove, perché e come sono stati creati i dati. Il data mesh potrebbe essere la strategia da utilizzare, ad esempio, se si vogliono analizzare i dati provenienti da diversi data warehouse della propria azienda. È un caso d'uso in cui i metadati originali sono abbastanza ben definiti.

Il data fabric si concentra sull'orchestrazione, sulla gestione dei metadati e sull'aggiunta di un contesto supplementare ai dati. Nel data fabric, la gestione del livello semantico è il punto focale. Utilizzate il livello semantico per rappresentare i dati aziendali critici e sviluppare un dialetto comune per i vostri dati. Un livello semantico in un progetto di data fabric potrebbe mappare dati complessi in termini aziendali familiari come prodotto, cliente o fatturato per offrire una visione unificata e consolidata dei dati in tutta l'organizzazione. Le sperimentazioni farmaceutiche sono un buon esempio di utilizzo del data fabric, poiché i dati di una sperimentazione provengono da una combinazione di macchine, report e altri studi in cui i dati hanno pochi metadati accurati su cui basarsi. Questi dati possono anche essere "scarsi", cioè un numero significativo di righe e colonne sono vuote o nulle.

 


Tecnologie per data mesh/data fabric

Non esistono soluzioni data-mesh-in-a-box o data-fabric-in-a-box. Al momento della stesura di questo articolo, non esisteva uno sportello unico per il fabric e il data mesh. In altre parole, data mesh e fabric non sono prodotti software. Si tratta piuttosto di iniziative strategiche che richiedono più soluzioni.

Oggi le aziende possono utilizzare diverse tecnologie per creare una rete di dati o un tessuto di dati. Ecco alcuni esempi:

Banche dati della tradizione

I database moderni possono sfruttare tabelle esterne in stile data mesh. Vertica, ad esempio, consente di utilizzare file PARQUET e altri tipi di file senza doverli caricare nel repository principale. Inoltre, se si dispone di dati semi-strutturati in AVRO, JSON o TESTO, è possibile sfruttare facilmente le funzioni di lettura dello schema per utilizzare i dati. Questa funzionalità è preziosa per creare una rete di dati se si dispone di fonti diverse e si desidera sfruttarle come si farebbe con i dati di un database.

Motori di interrogazione

Un'intera generazione di motori di query (talvolta chiamati acceleratori di query) rende possibile anche il data mesh. Soluzioni come Dremio, Starburst e Druid si concentrano principalmente sull'analisi di tabelle esterne. A volte non sono in grado di garantire la conformità ACID e la capacità di eseguire analisi con un'elevata concurrency, ma sono spesso utili nella missione del data mesh. Un numero sempre maggiore di database tradizionali ha aggiunto motori di interrogazione che consentono di eseguire interrogazioni senza soluzione di continuità in un database e in un data lake.

Strumenti di visualizzazione

Alcuni strumenti di visualizzazione avanzati dispongono di un sistema di livelli semantici. MicroStrategy, ad esempio, offre un livello di astrazione che fornisce un modo coerente di interpretare i dati provenienti da più fonti. Inoltre, mappa i dati complessi in termini aziendali familiari. Questa capacità non è solo un tessuto di dati semplificato, ma può anche sfruttare le capacità delle tabelle esterne del database. Insieme, può essere molto potente.

Database grafici

I database a grafo sono bravi nell'orchestrazione e nel contesto e sono il motore di molte soluzioni di data fabric. L'implementazione del data fabric con un DB a grafo è un progetto significativo, ma una volta completato si otterrà un vero data fabric.

Virtualizzazione dei dati

Gli strumenti di virtualizzazione dei dati, come quelli offerti da AtScale e Denodo, offrono ai team di BI e Data Science una visione coerente per il consumo dei dati. Anche i database moderni dispongono di funzionalità di virtualizzazione dei dati.

Catalogo dati

Un catalogo di dati è un inventario organizzato delle risorse di dati presenti nell'organizzazione. Aziende come Collibra forniscono cataloghi di data discovery e governance raccogliendo, organizzando, accedendo e arricchendo i metadati.

Negozio di oggetti on-premises

Può essere utile archiviare tutti i file in una posizione centrale. Gli object store consentono di gestire centralmente database, archivi di dati e laghi di dati in un unico luogo, con prestazioni, sicurezza e disaster recovery eccellenti. Per questo motivo, gli object store come quelli di Pure, Vast, Dell ECS e molti altri possono essere utili per il data mesh.

 


Data mesh o data fabric?

Il data mesh è un modo per accedere a dati che possono essere disparati e funziona particolarmente bene quando tutte le fonti di dati:

  1. Avere una struttura
  2. Hanno dimensioni che non cambiano molto
  3. Non avere dati scarsamente popolati

Se il data mesh ha un punto debole, è il contesto. Se la vostra analisi si pone la domanda "secondo chi?", un data fabric può essere più potente per capirlo. Gli ingegneri dei dati si imbattono spesso in informazioni contrastanti quando integrano le fonti. Ad esempio, un nuovo sistema potrebbe riportare l'età di un cliente a 32 anni, mentre i dati legacy potrebbero riportare che lo stesso cliente ha 30 anni. Il data lineage è una funzionalità aggiuntiva del data fabric che consente di decidere a quali fonti di dati affidarsi maggiormente in caso di conflitti.

Le soluzioni Data Fabric tendono a combinare più strumenti per risolvere il problema dei dati disparati. Gli strumenti sono più eleganti e di solito più complessi rispetto al data mesh. Potrebbero includere maggiori capacità di trasformazione, una maggiore sicurezza a grana fine, interfacce grafiche per la governance e il lineage. Tuttavia, se c'è un punto debole nel data fabric è che probabilmente dovrete dedicare uno sforzo significativo alla creazione/gestione di un livello semantico.

I fornitori che pubblicizzano una strategia di data fabric spesso promuovono le capacità di un knowledge graph. Un knowledge graph sostituisce la strategia di integrazione dei dati in rete con una rappresentazione semantica dei dati strutturati e non strutturati, che spesso supporta meglio schemi multipli e dimensioni variabili.

 


Nuove funzionalità di database per la rete di dati

Oggi più che mai, i dati sono spesso dislocati in database e data lake. I database cloud variano notevolmente in termini di accesso ai dati esterni. Alcune soluzioni richiedono che i dati siano archiviati in formati specifici nei data warehouse e non offrono alcun supporto per i data lake. Altre ancora supportano i data lake ma richiedono più strumenti per farlo. Cercate una soluzione in grado di gestire formati comuni (come ORC, PARQUET, AVRO, JSON) e di sfruttare queste fonti nell'analisi quotidiana con grazia e velocità. Cercate soluzioni in grado di raggiungere altri database dell'organizzazione (virtualizzazione dei dati), in modo che nessun dato sia di difficile accesso.

Come possiamo aiutarvi?

Note a piè di pagina

OpenText piè di pagina