Página inicial da OpenText.
Tópicos técnicos

O que é Data Mesh e Data Fabric?

Ilustração de itens de TI com foco em um laptop

Visão geral

A malha de dados e a malha de dados são as iniciativas mais recentes e melhores, ou novas palavras da moda destinadas a vender soluções? É difícil dizer, mas essas novas iniciativas corporativas emergentes têm um objetivo em comum: lidar com dados díspares. Muitas vezes, você pode obter mais valor dos seus dados se puder usar dados diferentes para sua análise sem precisar copiar dados excessiva e repetidamente. A malha de dados e o tecido de dados adotam abordagens diferentes para resolver o problema de dados díspares.

Malha de dados e malha de dados

Qual é a diferença entre data mesh e data fabric?

Tanto a malha de dados quanto o tecido se concentram em metadados e em uma camada semântica para aproveitar várias fontes de dados para análise. No entanto, a principal diferença parece estar no contexto.

Em termos leigos, a malha de dados é a capacidade de oferecer várias fontes de dados a um mecanismo analítico. A malha de dados conta com o fato de que você conhece a estrutura dos seus arquivos de dados de origem e que o contexto dos dados é sólido. O uso da malha de dados pressupõe que você saiba quem, quando, onde, por que e como os dados foram criados. A malha de dados pode ser a estratégia usada, por exemplo, se você quiser analisar dados de vários data warehouses da sua empresa. É um caso de uso em que os metadados originais são bastante bem definidos.

A estrutura de dados concentra-se na orquestração, no gerenciamento de metadados e no acréscimo de contexto adicional aos dados. Na estrutura de dados, o foco é o gerenciamento da camada semântica. Use a camada semântica para representar dados corporativos essenciais e desenvolver um dialeto comum para seus dados. Uma camada semântica em um projeto de estrutura de dados pode mapear dados complexos em termos comerciais conhecidos, como produto, cliente ou receita, para oferecer uma visão unificada e consolidada dos dados em toda a organização. Os estudos farmacêuticos são um bom exemplo de onde você pode usar o data fabric, pois os dados de um estudo são provenientes de uma combinação de máquinas, relatórios e outros estudos em que os dados têm poucos metadados precisos nos quais se pode confiar. Esses dados também podem ser "esparsos", o que significa que um número significativo de linhas e colunas está em branco ou é nulo.

 


Tecnologias para malha de dados/tecido de dados

Na verdade, não existem soluções do tipo data mesh-in-a-box ou data-fabric-in-a-box. Até o momento em que este artigo foi escrito, não havia uma loja única para malha de tecido e dados. Em outras palavras, a malha de dados e o tecido não são produtos de software. Em geral, são iniciativas estratégicas que exigem várias soluções.

Atualmente, as empresas podem usar várias tecnologias para criar uma malha de dados ou um tecido de dados. Aqui estão alguns exemplos:

Bancos de dados tradicionais

Os bancos de dados modernos podem aproveitar tabelas externas no estilo de malha de dados. O Vertica, por exemplo, permite que você use arquivos PARQUET e outros tipos de arquivos sem problemas, sem carregá-los no repositório principal. Além disso, se você tiver dados semiestruturados em AVRO, JSON ou TEXT, há uma maneira fácil de aproveitar o esquema nos recursos de leitura para usar os dados. Essa funcionalidade é valiosa para criar uma malha de dados se você tiver fontes diferentes e quiser aproveitá-las como faria com os dados em um banco de dados.

Mecanismos de consulta

Uma geração inteira de mecanismos de consulta (às vezes chamados de aceleradores de consulta) também torna possível a malha de dados. Soluções como Dremio, Starburst e Druid se concentram principalmente na análise de tabelas externas. Às vezes, eles não estão em conformidade com a ACID e não têm a capacidade de fazer análises com alta simultaneidade, mas costumam ser úteis na missão da malha de dados. Cada vez mais, os bancos de dados tradicionais adicionaram mecanismos de consulta para permitir a consulta contínua em um banco de dados e em um data lake.

Ferramentas de visualização

Algumas ferramentas avançadas de visualização têm um sistema de camada semântica. A MicroStrategy, por exemplo, oferece uma camada de abstração que proporciona uma maneira consistente de interpretar dados de várias fontes. Além disso, ele mapeia dados complexos em termos comerciais conhecidos. Esse recurso não é apenas uma estrutura de dados simplificada, mas também pode aproveitar os recursos de tabelas externas do seu banco de dados. Combinadas, elas podem ser muito poderosas.

Bancos de dados gráficos

Os bancos de dados gráficos são bons em orquestração e contexto e são os mecanismos por trás de muitas soluções de estrutura de dados. A implementação da estrutura de dados com um banco de dados gráfico é um projeto significativo, mas você terá uma verdadeira estrutura de dados quando concluída.

Virtualização de dados

As ferramentas de virtualização de dados, como as oferecidas pela AtScale e pela Denodo, apresentam uma visão consistente para as equipes de BI e de ciência de dados consumirem os dados. Os bancos de dados modernos também têm recursos de virtualização de dados.

Catálogo de dados

Um catálogo de dados é um inventário organizado de ativos de dados na organização. Empresas como a Collibra fornecem catálogos de governança e descoberta de dados coletando, organizando, acessando e enriquecendo metadados.

Armazenamento de objetos no local

Pode ser útil armazenar todos os seus arquivos em um local central. Os armazenamentos de objetos permitem que você gerencie centralmente bancos de dados, repositórios de dados e lagos de dados em um só lugar, com excelente desempenho, segurança e recuperação de desastres. Por esse motivo, os armazenamentos de objetos, como os da Pure, Vast, Dell ECS e muitos outros, podem ajudar com a malha de dados.

 


Malha de dados ou malha de dados?

A malha de dados é uma forma de acessar dados que podem ser díspares e funciona particularmente bem quando todas as fontes de dados:

  1. Ter estrutura
  2. Têm dimensões que não mudam muito
  3. Não tenha dados escassamente preenchidos

Se a malha de dados tem um ponto fraco, ele é o contexto. Se a sua análise estiver fazendo a pergunta "de acordo com quem?", um tecido de dados pode ser mais poderoso para entender isso. Os engenheiros de dados geralmente se deparam com informações conflitantes ao integrar fontes. Por exemplo, um novo sistema pode estar informando a idade de um cliente como 32 anos, enquanto os dados antigos podem estar informando que o mesmo cliente tem 30 anos. A linhagem de dados é um recurso adicional da estrutura de dados que permite que você decida em quais fontes de dados confiar mais quando houver conflitos.

As soluções de estrutura de dados tendem a combinar mais ferramentas para resolver seu problema de dados díspares. As ferramentas são mais elegantes e geralmente mais complexas do que a malha de dados. Eles podem incluir maiores recursos de transformação, segurança aprimorada e refinada, interfaces gráficas para governança e a linhagem. No entanto, se há um ponto fraco na estrutura de dados, é que você provavelmente terá que despender um esforço significativo para criar/gerenciar uma camada semântica.

Os fornecedores que promovem uma estratégia de estrutura de dados geralmente divulgam os recursos de um gráfico de conhecimento. Um gráfico de conhecimento substitui a estratégia de integração de dados em malha de dados por uma representação semântica de dados estruturados e não estruturados - uma representação que, com frequência, suporta melhor vários esquemas e dimensões que mudam.

 


Novos recursos de banco de dados para malha de dados

Mais do que nunca, os dados geralmente estão localizados de forma diversificada em bancos de dados e data lakes. Os bancos de dados na nuvem variam muito em termos de acesso a dados externos. Algumas soluções exigem que os dados sejam armazenados em formatos específicos em data warehouses e não oferecem suporte para data lakes. Outros ainda oferecem suporte a data lakes, mas exigem várias ferramentas para isso. Procure uma solução que possa lidar com formatos comuns (como ORC, PARQUET, AVRO, JSON) e aproveite essas fontes na análise diária com graça e rapidez. Procure soluções que possam alcançar outros bancos de dados em sua organização (virtualização de dados) para que nenhum dado seja difícil de acessar.

Notas de rodapé