数字标记化最早 由 TrustCommerce 于 2001 年创建 ，旨在帮助客户保护客户信用卡信息。商户将持卡人数据存储在自己的服务器上，这意味着任何可以访问其服务器的人都有可能查看或利用这些客户信用卡号码。TrustCommerce 开发了一个系统，用一个名为 "令牌 "的随机数字取代主账号（PAN）。这样，商家在接受付款时就可以存储和引用代币。TrustCommerce 将代币转换回 PAN，并使用原始 PAN 处理付款。这就将风险隔离给了 TrustCommerce，因为商家的系统中不再存储任何实际的 PAN。随着安全问题和监管要求的增加，这种第一代标记化技术证明了该技术的价值，其他供应商也提供了类似的解决方案。然而，这种方法的问题很快就显现出来。

Q: 标记化的用途是什么？

令牌化用于保护许多不同类型的敏感数据，包括支付卡数据 美国社会安全号和其他国家身份证号码 电话号码 护照号码 驾驶执照号码 电子邮件地址 银行账号 姓名、地址、出生日期 随着数据泄露事件的增加，数据安全变得越来越重要，企业发现令牌化很有吸引力，因为它比传统加密更容易添加到现有应用程序中。PCI DSS 合规性 保护支付卡数据是令牌化最常见的用例之一，部分原因是不同类型卡的路由要求以及"最后四个" 卡号验证。由于支付卡行业安全标准委员会（PCI SSC）的要求，银行卡数据的令牌化很早就得到了推动。支付卡行业数据安全标准》（PCI DSS）要求处理支付卡数据的企业确保遵守严格的 网络安全 要求。虽然 PCI DSS 允许使用加密技术保护支付卡数据，但商家也可以使用标记化技术来满足合规标准。由于支付数据流复杂、性能高且定义明确，标记化比加密更容易添加。

概述

令牌化是用代用值或令牌取代 PAN、PHI、PII 和其他敏感数据元素的过程。令牌化实际上是一种加密形式，但这两个词的用法通常不同。加密通常是指将人类可读的数据编码成无法理解的文本，只有使用正确的解密密钥才能解码，而标记化（或 "掩码"，或 "混淆"）是指某种形式的格式保护数据：将敏感值转换成与原始数据长度和格式相同的非敏感替代值--标记。

标记与原始数据元素有一些共同特征，如字符集、长度等。
每个数据元素都映射到一个唯一的标记。
令牌具有确定性：重复为给定值生成令牌，会产生相同的令牌。
标记化数据库可以通过标记化查询术语并搜索这些术语来进行搜索。

作为加密的一种形式，标记化是任何企业保护数据隐私的关键策略。本页面提供了有关标记化及其工作原理的高级视图。

令牌化

标记化从何而来？

数字标记化最早由 TrustCommerce 于 2001 年创建，旨在帮助客户保护客户信用卡信息。商户将持卡人数据存储在自己的服务器上，这意味着任何可以访问其服务器的人都有可能查看或利用这些客户信用卡号码。

TrustCommerce 开发了一个系统，用一个名为 "令牌 "的随机数字取代主账号（PAN）。这样，商家就可以在接受付款时存储和引用代币。TrustCommerce 将代币转换回 PAN，并使用原始 PAN 处理付款。这就将风险隔离给了 TrustCommerce，因为商家的系统中不再存储任何实际的 PAN。

随着安全问题和监管要求的增加，这种第一代标记化技术证明了该技术的价值，其他供应商也提供了类似的解决方案。然而，这种方法的问题很快就显现出来。

有哪些类型的标记化？

标记化有两种类型：可逆和不可逆。

可逆令牌可以被去令牌化，即转换回原始值。在隐私术语中，这被称为假名化。这种令牌可进一步分为加密令牌和非加密令牌，但这种区分是人为的，因为任何令牌化实际上都是一种加密形式。

加密令牌化使用强加密技术生成令牌；明文数据元素不存储在任何地方，只存储加密密钥。 NIST 标准的 FF1 模式 AES 就是加密标记化的一个例子。

非加密令牌化最初是指通过随机生成一个值并将明文和相应令牌存储在数据库中来创建令牌，如最初的 TrustCommerce 产品。这种方法在概念上很简单，但意味着任何令牌化或去令牌化请求都必须发出服务器请求，从而增加了开销、复杂性和风险。它也不能很好地扩展。考虑一下对一个值进行标记化的请求：服务器必须首先执行数据库查询，看看是否已经有了该值的标记。如果有，则返回。如果没有，它必须生成一个新的随机值，然后再进行一次数据库查询，以确保该值没有被分配给不同的明文。如果有，则必须生成另一个随机值，然后检查该值，如此反复。随着创建令牌数量的增加，这些数据库查询所需的时间也会增加；更糟糕的是，发生此类碰撞的可能性也会呈指数级增长。此类实施通常还使用多个令牌服务器，以实现负载平衡、可靠性和故障转移。这些系统必须执行实时数据库同步，以确保可靠性和一致性，从而进一步增加了复杂性和开销。

现代非加密令牌化侧重于 "无状态 "或 "无保险库 "方法，使用随机生成的元数据安全地组合成令牌。与数据库支持的标记化不同，这种系统除了复制原始元数据外，不需要同步，因此可以相互断开运行，而且基本上可以无限扩展。

不可逆转代币无法转换回其原始值。在隐私术语中，这被称为匿名化。此类令牌通过单向功能创建，允许将匿名数据元素用于第三方分析、低级环境中的生产数据等。

令牌化的好处

令牌化只需做极少的改动，就能为现有应用程序添加强大的数据保护功能。传统的加密解决方案会放大数据，需要对数据库和程序数据模式进行重大更改，并需要额外的存储空间。这也意味着受保护字段无法通过任何验证检查，需要进一步分析和更新代码。令牌使用相同的数据格式，无需额外存储，并能通过验证检查。

由于应用程序共享数据，令牌化也比加密更容易添加，因为数据交换过程不会改变。事实上，许多中间数据使用--从接收到最终处置--通常都可以使用令牌，而无需对其进行去令牌化处理。这样可以提高安全性，在获取数据后尽快对其进行保护，并在其生命周期的大部分时间内保持对其的保护。

在安全要求允许的范围内，令牌可以保留部分明文值，如信用卡号码的前几位和后几位。这样就可以使用令牌执行所需的功能，如卡片路由、"后四位 "验证或在客户收据上打印，而无需将其转换回实际价值。

这种直接使用令牌的能力提高了性能和安全性：性能方面，因为不需要解令牌，所以没有开销；安全性方面，因为明文永远不会恢复，所以可用的攻击面更小。

标记化的用途是什么？

令牌化用于保护许多不同类型的敏感数据，包括

支付卡数据
美国社会安全号和其他国民身份证号码
电话号码
护照号码
驾驶执照号码
电子邮件地址
银行账号
姓名、地址、出生日期

随着数据泄露事件的增加，数据安全变得越来越重要，企业发现标记化很有吸引力，因为它比传统加密更容易添加到现有应用程序中。

PCI DSS 合规性

保护支付卡数据是标记化最常见的用例之一，部分原因是不同类型卡的路由要求以及卡号的 "后四位 "验证。由于支付卡行业安全标准委员会（PCI SSC）的要求，银行卡数据的令牌化很早就得到了推动。支付卡行业数据安全标准》（PCI DSS）要求处理支付卡数据的企业确保遵守严格的网络安全要求。虽然 PCI DSS 允许使用加密技术保护支付卡数据，但商家也可以使用标记化技术来满足合规标准。由于支付数据流复杂、性能高且定义明确，标记化比加密更容易添加。

利用标记化技术保护敏感数据

令牌化正日益成为一种流行的数据保护方式，并在数据隐私保护解决方案中发挥着重要作用。OpenText™ Cybersecurity 可使用 OpenText™ Voltage™ SecureData 帮助保护敏感业务数据的安全，它提供各种令牌化方法以满足各种需求。

Voltage SecureData 和其他网络恢复解决方案可通过人工智能增强人类智能，从而加强企业的数据安全态势。这不仅能提供智能加密和更智能的身份验证流程，还能通过对上下文威胁的洞察，轻松检测出新的和未知的威胁。

Resources

Cloud data security position paper