OpenText 主页。
技术主题

什么是文件分析?

以问号为重点的信息技术项目图示

概述

文件分析通过映射数据位置和确定谁可以访问哪些数据(包括文件共享、电子邮件数据库、企业文件同步和共享、记录管理、企业内容管理、Microsoft SharePoint 和数据存档),帮助企业应对日益增长的数据量。

文件分析解决方案可对文件元数据和内容进行分析、索引、搜索、跟踪和报告。这使企业能够查看和组织详细的元数据和上下文信息,改进 PII 监督和信息管理,并更有效地管理非结构化数据。

文件分析解决方案还能保护非结构化数据并确保其安全。企业可以在内容分析方面做出更好的决策,同时降低与数据相关的风险和成本。这些解决方案有助于确保数据安全、生命周期管理、数据访问治理、映射和分类,同时实现关键数据洞察和分析,从而推动和保护业务发展。这些关键功能可帮助企业解决数字化转型用例中的风险缓解、治理与合规、效率与优化以及数据洞察等问题。

文件分析

为什么要进行文件分析?

企业面临着越来越大的业务转型压力。无论是从加快向云计算迁移、支持远程员工还是为数据隐私做准备开始,文件分析解决方案都能帮助优化数据和应用程序,并智能地识别、保护和分类数据。文件分析解决方案还能深入分析数据,以确保合规性并实现更智能的数据迁移。

文件分析解决方案可以进行扩展,以满足当今现代化工作负载的需求,并确定可以优化和删除数据的区域,从而降低成本、提高效率并确保合规性。部署文件分析的项目需要快速跟上不断变化的业务环境。要从这些解决方案中获得最大价值,速度、规模和快速实现价值至关重要。

文件分析解决方案可访问最常见的非结构化数据源(内部部署或云端),以评估风险、识别敏感数据和高价值数据,并在数据的生命周期内提供保护、安全和管理措施。

文件分析如何帮助提高数据效率和优化?

提高数据效率并优化非结构化数据,首先要了解您拥有哪些数据以及这些数据存储在哪里。通过数据映射,您可以使用文件分析来确定所有数据的位置,并识别错位、孤儿、重复、过时或琐碎的 "暗数据"。利用文件分析的项目可通过主动删除或优化对组织没有价值的数据,加快投资回报。

文件分析如何帮助降低风险?

文件分析解决方案通过优化、保护和保障在内容分析阶段发现的数据,协助降低数据风险。这包括

  • 检测、管理和处理 PII、PCI、PHI 和 IP。
  • 管理信息流。
  • 处理敏感数据。
  • 提供身份保护、元数据报告、身份访问权限、以数据为中心的访问保护、策略控制和审计跟踪。

数据优化完成后,任何没有业务价值的数据都不再占用数据存储空间。只有那些极具价值并被企业积极使用的数据才会保留下来。

了解访问权限至关重要。提供补救工具的文件分析解决方案有助于确保在数据处于使用状态时对其实施适当的控制。有些解决方案还包括额外的保护措施,如在端点加密数据,以确保正确使用。最后,适当部署的文件分析解决方案可以防止用户在不了解其业务目的的情况下移动或删除数据。部署 "就地管理 "模式的文件分析解决方案可最大限度地降低业务用户受到干扰的风险。

文件分析如何帮助管理和合规?

部署文件分析解决方案有助于确保在正确的时间向正确的用户提供正确的数据。它通过以下方式帮助组织实现其监管、法律和内部治理与合规目标:

  • 提供元数据管理、法律保留、隔离和发现功能。
  • 优化数据量。
  • 管理适当的权限。
  • 授予基于角色的访问权限。
  • 确定高价值资产。
  • 应用数据生命周期策略。

文件分析对 PII 数据和数据隐私合规有何帮助?

各组织都在争分夺秒地查找、保护和保障个人数据(包括消费者、公民和员工数据)的安全。这一全球趋势--包括 GDPR(欧盟)、CCPA(加利福尼亚)、KVKK(土耳其)、PIPEDA(加拿大)和 POPIA(南非)--为文件分析解决方案带来了新的关注点。通过利用内容分析功能和检测技术,文件分析解决方案是确保合规性和协助回应消费者请求或数据主体访问请求的理想选择。

数据隐私防范就是文件分析解决方案大显身手的一个例子。它还强调有必要建立一个程序,以便于识别、索引和检索 PII 文件。

端到端流程应该是这样的:

  1. 查找存储库并识别文件
  2. 提取文件中的所有元数据和内容。
  3. 分析文件内容和元数据以查找特定实体,或根据概念内容对文件进行分类。
  4. 根据分析结果应用业务规则,确保适当的访问级别和敏感数据的处理(即加密),从而保护数据安全。您还可以应用类别或分类来帮助管理资产的生命周期。

什么是文件分类?

文件分析解决方案使用基于元数据标签、关键字或术语列表的简单分类方法。一些解决方案利用文件内容的概念分类,并将这些方法与找到的文档、图像或数据实体相结合,以提高分类的准确性。其他解决方案则更进一步,利用样本文件进行机器学习和指导学习,让您能够定义要使用的分类。

例如,包含健康或保险信息的人力资源文件可以使用基于样本数据的数据分类政策。对于年龄和地点等其他要素,您可以应用风险评分和附加权限来进一步定义政策。

文件分析如何提供数据治理和数据保护?

文件分析解决方案提供的功能可帮助企业自动对数据采取行动,并提供丰富的工具集帮助管理和保存数据。在 企业数据管理 的推动下,解决方案通常包括以下选项 :

  • 删除数据。如果不需要保留文件,请将其删除。是不是太旧了?是重复的吗?它能为企业带来任何价值吗?消费者是否要求销毁其数据?文件分析解决方案可对您的操作和操作原因进行审计跟踪。
  • 确保数据安全。如果需要保留数据,那就确保数据安全。一些文件分析解决方案可以更改访问控制或加密数据。另一种方法是将其转移到一个安全的位置,如记录管理工具,以便长期保存。
  • 编辑数据。您可能需要保留部分数据,但不需要保留 PII。一些文件分析解决方案支持编辑,以创建不含 PII 内容的原始文件的干净副本。然后按上述方法删除或保护原始文件。

什么是 "就地管理"?

就地管理是数据生命周期管理和治理的一个关键概念。这就是元数据(包括位置、权限和内容)所在的文件分析解决方案分析元数据的 "方式"。在分析过程中,实际对象不会被移动、复制或存储到其他位置或保存区域。

了解实体语法

有两种基本类型的数据发现语法(规则集)用于描述您试图识别的实体:策划的和用户生成的。

语法包括

  • PII:可识别个人身份的信息,不同地区的信息可能不同(包括格式,这可能导致误报)。
  • 个人健康信息(PHI):个人健康信息,通常与北美卫生行业有关。
  • PCI:个人信用卡信息。
  • PSI:个人安全信息,用于账户详情访问密钥。

寻找经过编辑和优化的语法,用户不能对其进行修改。这些语法使用上下文和地标来获得更准确的结果,并提供 "置信度分数 "来帮助您过滤误报。上下文和地标可以是短语、单词或单个字符。

语境是关键。文件分析解决方案利用与候选实体的接近程度和上下文的强度(基于自然语言处理技术)来提高置信度分数。您可以利用特定实体、国家或地区的综合列表,获得更精细的评分。

调谐和灵活性。如果这些语法都不能满足您的特定用例,您可以使用允许创建自定义语法的文件分析解决方案。这些语法通常通过使用格式描述 RegX 或简单列表来定义。

什么是误报?

顾名思义,"假阳性 "是指检测结果错误地显示存在某种特定条件或属性1。在文件分析解决方案中,假阳性表示在内容分析过程中错误识别的模式、语法或关键字匹配。单纯使用模式或关键字匹配的文件分析解决方案的误报率通常高于具有上下文内容分析功能的解决方案。

扫描文件和录音

文件分析解决方案可以分析基于文本的文件风险,但 PII 也可能存在于其他形式的数据中。对扫描文件、对话录音和视频会议录音进行文件分析正变得越来越普遍。一些文件分析解决方案可以在应用 PII 发现技术之前处理这些文件。

以图像形式存储的扫描纸质文件(例如 PDF 文件)应使用光学字符识别 (OCR) 技术进行处理,以提取文本,最好还能提取相关的结构信息。许多组织会将员工的驾照或护照等身份证件扫描存档。

支持分析音频或视频录像的文件分析解决方案需要通过语音转文本引擎进行处理,以创建书面誊本进行分析。

人工智能驱动的内容分析的优势:

  • 提高敏感数据和高价值数据的准确性和检测能力。
  • 减少误报。
  • 通过人工智能训练的分类提高效率,减少数据分类所需的人工干预。

就地管理 "模式的优势:

  • 数据易于查找,并位于最终用户所期望的位置。
  • 降低数据丢失、生产力损失和终端用户中断的威胁。
  • 无需通过网络或云端传输数据进行分析,从而节省成本,提高速度。

内部部署和 SaaS 解决方案在文件分析方面的区别

什么是文件分析 SaaS 解决方案?

文件分析可以通过软件即服务(SaaS)的方式提供,即客户按月或按年付费使用应用安全提供商提供的服务。这种方法不需要采购硬件或传统的永久许可。它部分或完全依赖 SaaS 供应商(或某些情况下的托管服务提供商)提供对应用程序的访问,以便进行内容分析、搜索、管理操作和分析。SaaS 提供了一种开始内容分析的简单方法,并具有高可扩展性、速度和快速实现价值的能力。根据 SaaS 托管环境的位置,可能需要权衡数据驻留和数据主权问题与 SaaS 的商业利益。

什么是内部部署文件分析解决方案?

文件分析解决方案也可在内部运行,并由内部团队进行操作和维护。这种方法要求组织提供基础设施和人员,并获取和管理应用程序安全解决方案。内部部署可确保组织的应用数据不与第三方共享,也不会离开组织。通常情况下,企业内部解决方案通过永久许可证进行销售。最近,订阅许可的使用为软件的消费和计费方式提供了更大的灵活性。

OpenText 提供文件分析工具

Voltage File Analysis Suite by OpenText™ SaaS 文件分析解决方案使企业能够快速高效地降低信息风险;确保数据隐私;分析、优化和保护员工对关键数据的访问,从而推动和保护业务发展。我们的解决方案可确保数据生命周期管理和数据访问治理,同时降低与敏感数据管理相关的风险。文件分析还提供身份和访问管理、完整的数据可视性、降低存储成本、提高效率的可操作分析以及数据质量。此外,它还支持数据隐私合规,同时解决高价值资产(如合同、知识产权、专利等)和敏感数据(如 PI/PII、PCI、PHI 等)的管理问题。

OpenText™ File Reporter可清查网络文件系统,并提供所需的详细文件存储情报,以优化和保护网络,提高效率和合规性。它能让你在发现和分析文件以及整个企业存储数据的相关权限时识别访问风险。File Reporter 专为企业文件系统报告而设计,可收集散布在构成网络的各种网络存储设备中的数百万个文件和文件夹的数据。通过灵活的报告、过滤和查询选项,可以准确显示您需要的结果,以证明合规性或采取纠正措施。

OpenText™ File Dynamics提供广泛的服务,以满足不断扩大的网络数据管理需求。 身份驱动政策将传统上由人工完成的任务自动化,从而节省了成本,并确保了任务的正确执行。目标驱动型策略可防止未经授权的访问,并可进行数据迁移和清理。File Dynamics 还通过对高价值目标进行近线存储备份来防止数据损坏和停机,从而实现文件及其相关权限的快速恢复。File Dynamics 提供符合数据管理规定所需的基于角色的访问限制、补救、风险缓解和主动管理。

OpenText™ ControlPoint是一款文件分析解决方案,利用 OpenText™ Knowledge Discovery 人工智能进行非结构化数据分析。它使企业能够识别敏感数据(如 PII、PCI、PHI)并自动对其进行分类;清理遗留数据;发现隐藏在电子邮件存储库、文件共享、SharePoint 站点和云存储库(如 Office365、Google Drive 和 Dropbox)中无人管理的暗数据中的风险。ControlPoint 还能减少冗余、过时和琐碎的数据,从而使企业节省存储成本。这样就能更好地访问有价值的信息,并通过应用有助于数据生命周期管理、法规遵从性和数据安全性的政策来实施数据保护。

文件分析

立即开始

申请演示

我们能提供什么帮助?

脚注