OpenText 主页。
技术主题

什么是数据湖?

以问号为重点的信息技术项目图示

概述

数据湖泊使企业能够有效管理不断增长的数据量,提高数据安全性,降低数据存储成本,并利用 GenAI 和商业智能。了解数据湖如何工作、采用数据湖架构的主要优势,以及如何在数据湖、数据仓库或数据湖中存储数据的任何地方访问实时分析和机器学习。

云遣返的转变:数据告诉我们什么

了解为什么 200 多位 IT 领导者正在重新思考数据湖的纯云战略--选择内部部署、私有云或混合部署来恢复性能。

下载指南

湖仓一体

什么是数据湖?

数据湖房是一种数据管理平台,它将数据仓库和数据湖的各个方面结合在一起,并增加了性能、安全性和灵活性等优势。数据湖房本质上是一个高性能数据仓库,能够支持所有类型的数据(结构化、非结构化和半结构化),并内置数据处理工具。它是一个单一、强大的数据管理基础,为人工智能和高级分析的数据处理提供动力。

数据湖架构的创新推动了数据湖的采用,同时也是由于需要更有效地管理日益增长的各种数据、弥合数据湖和数据仓库之间的差距,以及提供可信的人工智能和商业智能。


数据湖、数据湖居和数据仓库有何不同?

虽然数据湖、数据湖和数据仓库都是数据存储库,但每种存储库都有明显的区别和相关用例。让我们比较一下这三种数据方法。

数据仓库提供了一种集中存储结构化数据的方法,能够将多个来源的数据整合到一个位置。因此,数据仓库打破了信息孤岛,使业务用户能够快速访问数据,并能够查询数据以生成报告和见解。数据仓库支持数据挖掘、数据分析和商业智能用例,使企业能够了解业务绩效、发现趋势并做出更明智的业务决策。

然而,数据仓库并非没有挑战,复杂的 ETL(提取、转换和加载)流程增加了管理要求,并导致成本上升。此外,云外数据仓库可能难以扩展以支持企业数据增长和新用例,从而进一步影响总体拥有成本。

数据湖存储大量结构化和 非结构化数据 ,能够轻松扩展以支持不断增长的 数据量 。数据湖能够支持各种类型的不同数据和格式,因此适用于机器学习和数据科学等大数据用例,而且与数据仓库相比,数据湖提供了更具成本效益的选择。

但是,数据湖的复杂性和规模需要适当的管理,以防止数据变得臃肿和难以管理,而且通常需要数据科学家或数据工程师才能有效利用数据。

从历史上看,数据仓库和数据湖是作为独立的孤岛式架构部署的,这就要求数据在两个系统之间共享。数据湖库可与数据湖和数据仓库配合使用,为各种类型和格式的数据提供灵活、低成本的存储选择,并消除了在不同系统中建立多个数据副本的需要。

由于支持 ACID 事务,用户可以通过 SQL 命令对结构化和非结构化数据进行查询,使用高性能的人工智能和分析技术来处理各种用例。因此,企业可以提高分析能力,实现更智能的运营,将洞察力应用于个性化客户体验、改进决策、加快产品开发、优化工作流程以及加快收入增长。


为什么企业要转向数据湖泊架构?

传统数据架构的局限性,如高昂的成本和有限的可扩展性,正在推动企业拥抱数据湖。最近的一项调查发现,在 200 多名 IT 领导者中,有 87% 计划在两年内重新分配工作负载。

有几个因素促使人们希望采用更现代的数据架构方法,其中包括

  • 非结构化数据量不断增加:企业需要更高效的方式来存储、管理和利用电子邮件、社交媒体帖子、产品图片、视频、呼叫中心记录、聊天信息等。
  • 激光聚焦客户服务:数据湖架构中的高级分析和机器学习可帮助识别客户行为模式,从服务互动中获得洞察力,并创建更有针对性的数据驱动型体验。
  • 节约成本:利用数据湖可以降低存储和处理成本,并改善不同工作负载的数据管理。
  • 采用混合数据战略:数据湖架构使企业能够根据所需的部署、安全性和合规性要求,灵活利用云和非云数据存储。

数据湖泊如何运作?

数据湖泊一般由五层组成:

  • 摄取层
  • 存储层
  • 元数据层
  • 应用程序接口层
  • 消费层

让我们来探讨一下它们各自的作用:

摄取层是第一层,从各种来源收集数据,如事务数据库、NoSQL 数据库和 API。在此基础上,数据会被转换成可访问的格式,供数据湖存储和分析。

存储层是将所有数据(非结构化数据、结构化数据和半结构化数据)导入湖泊中心并进行存储的地方。数据以开放文件格式存储,可优化分析性能。

第三层是元数据层,它对与已摄取和存储的数据相关的元数据进行分类。

第四层使用应用程序接口(API)进行更高级的分析,使分析工具和第三方应用程序能够查询数据湖架构内的数据。该层支持实时数据处理,允许团队在数据更新和刷新时利用实时分析。

消费层允许应用程序和工具访问存储在湖泊库中的所有元数据和数据。这就为业务用户提供了所需的数据访问,使个人能够执行分析任务,如仪表盘创建、数据可视化、SQL 查询和机器学习任务。


数据湖泊架构有哪些业务优势?

数据湖泊为企业和用户带来了许多好处,如改善数据管理、节约成本以及从同一源头增强人工智能和机器学习。以下是数据湖可以带来的一些主要优势:

  • 单一真实来源:统一数据管理,整合来自多个来源和不同格式的数据,实现数据一致性。
  • 所需的可扩展性:利用独立的存储和计算资源,可以支持和扩展各种工作负载。
  • GenAI 的新机遇:数据湖的功能和结构使企业能够为 GenAI 应用程序利用数据资源,并将其用于内容创建、洞察力以及个性化的及时响应。
  • 分析性能:改善数据查询性能,提高结果的速度和准确性。
  • 可信赖的数据管理:强大的数据管理框架和控制措施,以确保数据质量和安全性。
  • 部署灵活:通过离云、混合和多云部署选项,优化成本和性能。

OpenText 如何帮助您利用数据湖的优势?

借助实时分析和内置机器学习功能,OpenText 允许企业在数据湖中无缝分析数据,从而优化资源使用并降低总体拥有成本。

OpenText 帮助企业充分利用现代数据湖架构--该架构以OpenText™ Analytics Database (Vertica)为基础,可跨数据仓库和数据湖进行高性能、可扩展的分析。

OpenText 的统一引擎支持高性能 SQL、高级分析和开放数据格式,使您既能获得仓库的速度,又能获得湖的规模和开放性。无论是在企业内部、云中还是在混合环境中,OpenText 都能帮助企业统一其数据环境,并在数据存在的任何地方运行分析,而不会受到任何影响。

为了扩展这些功能,OpenText 的可组合分析和人工智能平台使企业能够提取更深入的洞察力,更有效地管理数据,并在整个企业中实现价值。

为了提高洞察力,知识发现(Knowledge Discovery)引入了先进的人工智能和机器学习技术,用于处理和分析非结构化数据,如文档、电子邮件、视频和音频,这些都是传统湖泊中心经常忽略的关键内容类型。OpenText™ Intelligent Classification 通过自然语言处理进一步丰富了这一功能,从海量文本中发现情感、主题和关键实体。OpenText™ Intelligence通过交互式仪表盘和自助服务分析功能增强企业用户的能力,从而加快决策进程。

除分析外,OpenText 还能满足企业在数据信任、管理和安全方面的关键需求。OpenText™ Data Discovery可自动扫描、分类和映射孤岛数据,使企业了解敏感和受监管的信息,并在数据进入分析环境之前降低风险。数据隐私和保护功能通过格式保存加密、标记化和基于策略的隐私控制,增加了以数据为中心的企业级安全性,确保您的数据在整个生命周期内始终受到保护。

这些功能结合在一起,将 OpenText 的数据湖库产品转变为一个全面的、企业就绪的生态系统,该系统以速度、智能、安全和信任为基础。

探索快速、可扩展的分析平台如何为您的业务提供支持,以及如何分析存储在任何地方的数据。

了解有关 OpenText 数据湖和分析的更多信息

开始免费试用 OpenText Analytics Database


开始免费试用

我们能提供什么帮助?

脚注