Página inicial da OpenText.
Tópicos técnicos

O que é um data lakehouse?

Ilustração de itens de TI com foco em um ponto de interrogação

Visão geral

Um data lakehouse permite que as empresas gerenciem com eficiência os crescentes volumes de dados, aumentem a segurança dos dados, reduzam os custos de armazenamento de dados e aproveitem a GenAI e o business intelligence. Descubra como funcionam os data lakehouses, os principais benefícios da adoção de uma arquitetura de data lakehouse e como você pode acessar a análise em tempo real e o aprendizado de máquina onde quer que os dados estejam armazenados - em um data lakehouse, data warehouse ou data lake.

A mudança de repatriação da nuvem: O que os dados nos dizem

Descubra por que mais de 200 líderes de TI estão repensando as estratégias somente de nuvem para seus data lakehouses, optando por implementações no local, em nuvem privada ou híbridas para recuperar o desempenho.

Faça o download do guia

Data lakehouse

O que é um data lakehouse?

Um data lakehouse é uma plataforma de gerenciamento de dados que reúne aspectos de um data warehouse e de um data lake com benefícios adicionais de desempenho, segurança e flexibilidade. Um data lakehouse é essencialmente um data warehouse de alto desempenho, capaz de suportar todos os tipos de dados (estruturados, não estruturados e semiestruturados) com ferramentas de processamento de dados incorporadas. O resultado é uma base de gerenciamento de dados única e avançada que potencializa o processamento de dados para IA e análises avançadas.

As inovações na arquitetura de data lakehouse impulsionaram a adoção, também estimuladas pela necessidade de gerenciar com mais eficiência volumes crescentes de dados diversos, preencher a lacuna entre um data lake e um data warehouse e fornecer IA e business intelligence confiáveis.


Qual é a diferença entre data lakes, data lakehouses e data warehouses?

Embora um data lakehouse, um data lake e um data warehouse sejam todos repositórios de dados, cada um tem diferenças distintas e casos de uso relevantes. Vamos comparar as três abordagens de dados.

Um data warehouse oferece uma maneira de centralizar o armazenamento de dados estruturados, capaz de consolidar dados de várias fontes em um único local. Como resultado, os data warehouses eliminam os silos de informações, oferecendo aos usuários corporativos acesso rápido aos dados e a capacidade de consultá-los para gerar relatórios e percepções. Os data warehouses oferecem suporte a casos de uso de mineração de dados, análise de dados e business intelligence, permitindo que as organizações entendam o desempenho dos negócios, descubram tendências e tomem decisões de negócios mais informadas.

No entanto, os data warehouses não estão isentos de desafios, com processos complexos de ETL (extração, transformação e carregamento) que aumentam os requisitos de gerenciamento e elevam os custos. Além disso, os data warehouses fora da nuvem podem ter dificuldade de escalonamento para dar suporte ao crescimento dos dados corporativos e aos novos casos de uso, afetando ainda mais o TCO.

Um data lake armazena grandes volumes de dados estruturados e não estruturados, podendo ser facilmente dimensionado para suportar volumes crescentes. A capacidade de oferecer suporte a vários tipos de dados e formatos diversos torna os data lakes aplicáveis a casos de uso de big data, como aprendizado de máquina e ciência de dados, e oferece uma opção mais econômica em comparação com um data warehouse.

No entanto, a complexidade e o tamanho dos data lakes exigem um gerenciamento adequado para evitar que os dados se tornem pesados e difíceis de gerenciar e, normalmente, exigem cientistas ou engenheiros de dados para utilizá-los de forma eficaz.

Historicamente, os data warehouses e data lakes eram implantados como arquiteturas individuais e em silos, o que exigia que os dados fossem compartilhados entre dois sistemas. Um data lakehouse pode ser usado em conjunto com um data lake e um data warehouse, oferecendo uma opção de armazenamento flexível e de baixo custo para todos os tipos de dados e formatos e eliminando a necessidade de várias cópias de dados em diferentes sistemas.

Com suporte para transações ACID, os usuários podem executar consultas por meio de comandos SQL para dados estruturados e não estruturados, usando IA e análise de alto desempenho para uma variedade de casos de uso. Como resultado, as organizações podem aumentar o poder da análise para permitir operações mais inteligentes, aplicando insights para personalizar as experiências dos clientes, melhorar a tomada de decisões, acelerar o desenvolvimento de produtos, otimizar os fluxos de trabalho e acelerar o crescimento da receita.


Por que as organizações estão migrando para uma arquitetura de data lakehouse?

As limitações das arquiteturas de dados tradicionais, como os altos custos e a escalabilidade limitada, estão levando as organizações a adotar os data lakehouses. Uma pesquisa recente revelou que 87% dos mais de 200 líderes de TI planejam repatriar cargas de trabalho dentro de dois anos.

Há vários fatores que contribuem para o desejo de mudar para uma abordagem de arquitetura de dados mais moderna, incluindo:

  • Volumes cada vez maiores de dados não estruturados: As organizações precisam de uma maneira mais eficiente de armazenar, gerenciar e utilizar e-mails, publicações em mídias sociais, imagens de produtos, vídeos, transcrições de call center, mensagens de bate-papo etc.
  • Foco total no atendimento ao cliente: A análise avançada e o aprendizado de máquina em uma arquitetura de data lakehouse podem ajudar a identificar padrões de comportamento do cliente, obter insights das interações de serviço e criar experiências mais direcionadas e orientadas por dados.
  • Economia de custos: O uso de um data lakehouse pode reduzir os custos de armazenamento e processamento, além de melhorar o gerenciamento de dados em diversas cargas de trabalho.
  • Adotar uma estratégia de dados híbridos: Uma arquitetura de data lakehouse oferece às organizações a flexibilidade de aproveitar o armazenamento de dados na nuvem e fora da nuvem com base nos requisitos desejados de implementação, segurança e conformidade.

Como funciona um data lakehouse?

Normalmente, o data lakehouse consiste em cinco camadas:

  • Camada de ingestão
  • Camada de armazenamento
  • Camada de metadados
  • Camada de API
  • Camada de consumo

Vamos explorar a função de cada um deles:

A camada de ingestão, a primeira camada, reúne dados de várias fontes, como bancos de dados transacionais, bancos de dados NoSQL e APIs. A partir daí, os dados são transformados em um formato acessível para que o data lakehouse os armazene e analise.

A camada de armazenamento é onde todos os dados (não estruturados, estruturados e semiestruturados) são ingeridos no lakehouse e armazenados. Os dados são armazenados em formatos de arquivo abertos para otimizar o desempenho da análise.

A terceira camada é a camada de metadados, que classifica os metadados associados aos dados que foram ingeridos e armazenados.

A quarta camada usa APIs para aumentar a realização de análises mais avançadas, permitindo que ferramentas de análise e aplicativos de terceiros consultem os dados dentro da arquitetura do data lakehouse. Essa camada é compatível com o processamento de dados em tempo real, permitindo que as equipes aproveitem a análise em tempo real, mesmo quando os dados são atualizados e renovados.

A camada de consumo permite que aplicativos e ferramentas acessem todos os metadados e dados armazenados no lakehouse. Isso fornece o acesso desejado aos dados para os usuários corporativos, permitindo que os indivíduos realizem tarefas de análise, como criação de painéis, visualização de dados, consultas SQL e tarefas de aprendizado de máquina.


Quais são as vantagens comerciais de uma arquitetura de data lakehouse?

Os data lakehouses trazem muitos benefícios para as organizações e os usuários, como melhor gerenciamento de dados, economia de custos e IA e aprendizado de máquina aprimorados a partir da mesma fonte. Aqui estão algumas das principais vantagens que um data lakehouse pode oferecer:

  • Uma única fonte de verdade: Unifique o gerenciamento de dados e integre dados de várias fontes e entre formatos para obter consistência de dados.
  • Escalabilidade desejada: Com recursos separados de armazenamento e computação, um conjunto diversificado de cargas de trabalho pode ser suportado e dimensionado.
  • Novas oportunidades para a GenAI: os recursos e a estrutura de um data lakehouse permitem que as organizações aproveitem os recursos de dados para aplicativos de GenAI e os usem para criação de conteúdo, insights e respostas personalizadas e imediatas.
  • Desempenho do Analytics: Melhore o desempenho da consulta de dados para aumentar a velocidade e a precisão dos resultados.
  • Governança de dados confiável: Estrutura e controles robustos de governança de dados para reforçar a qualidade e a segurança dos dados.
  • Flexibilidade de implementação: Otimize o custo e o desempenho com opções para implementações fora da nuvem, híbridas e em várias nuvens.

Como a OpenText pode ajudá-lo a aproveitar os benefícios do data lakehouse?

Com a análise em tempo real e o aprendizado de máquina incorporado, o OpenText permite que as organizações analisem perfeitamente os dados em um data lakehouse, otimizando o uso de recursos e reduzindo o custo total de propriedade.

A OpenText ajuda as empresas a tirar o máximo proveito de uma arquitetura moderna de data lakehouse - ancorada pelo OpenText™ Analytics Database (Vertica) para análises escalonáveis e de alto desempenho em data warehouses e data lakes.

O mecanismo unificado do OpenText é compatível com SQL de alto desempenho, análises avançadas e formatos de dados abertos, proporcionando a velocidade de um depósito com a escala e a abertura de um lago. Seja no local, na nuvem ou em ambientes híbridos, o OpenText capacita as organizações a unificar seu cenário de dados e a executar análises onde quer que os dados estejam - sem comprometimento.

Para ampliar esses recursos, a plataforma de IA e análise composta da OpenText permite que as organizações extraiam insights mais profundos, controlem os dados com mais eficiência e agreguem valor em toda a empresa.

Para aprimorar o insight, o Knowledge Discovery traz IA avançada e aprendizado de máquina para processar e analisar dados não estruturados, como documentos, e-mails, vídeo e áudio - tipos de conteúdo essenciais que os lakehouses tradicionais geralmente ignoram. O OpenText™ Intelligent Classification enriquece ainda mais esse recurso com o processamento de linguagem natural, revelando sentimentos, tópicos e entidades-chave a partir de grandes volumes de texto. O OpenText™ Intelligence capacita os usuários corporativos com painéis interativos e análises de autoatendimento para acelerar a tomada de decisões.

Além da análise, a OpenText atende às necessidades essenciais das empresas em relação à confiança, governança e segurança dos dados. O OpenText™ Data Discovery verifica, classifica e mapeia automaticamente os dados entre silos, dando às organizações visibilidade de informações confidenciais e regulamentadas e reduzindo o risco antes mesmo que os dados entrem no ambiente de análise. O Data Privacy and Protection adiciona segurança de nível empresarial centrada nos dados por meio de criptografia com preservação de formato, tokenização e controles de privacidade baseados em políticas, garantindo que seus dados permaneçam protegidos durante todo o seu ciclo de vida.

Juntos, esses recursos transformam a oferta de data lakehouse da OpenText em um ecossistema holístico e pronto para a empresa, criado para oferecer velocidade, inteligência, segurança e confiança.

Explore como uma plataforma analítica rápida e dimensionável pode dar suporte aos seus negócios e analisar dados onde quer que estejam armazenados.

Saiba mais sobre o data lakehouse e a análise da OpenText

Inicie sua avaliação gratuita do OpenText Analytics Database


Inicie sua avaliação gratuita

Notas de rodapé