技术主题

什么是机器学习?

以问号为重点的信息技术项目图示

概述

机器学习是人工智能的一个子集,侧重于构建能够从历史数据中学习、识别模式并在几乎没有人工干预的情况下做出合理决策的系统。它是一种数据分析方法,通过使用包含数字、文字、点击和图像等各种数字信息形式的数据,自动建立分析模型。

机器学习应用程序从输入数据中学习,并利用自动优化方法不断提高输出的准确性。机器学习模型的质量取决于两个主要方面:

  1. 输入数据的质量。开发机器学习算法的一个常用语是 "垃圾进,垃圾出"。这句话的意思是,如果输入的数据质量不高或杂乱无章,那么模型的输出结果在很大程度上将是不准确的。
  2. 模型选择本身。在机器学习中,数据科学家可以选择大量算法,它们都有各自的特定用途。为每种使用情况选择正确的算法至关重要。神经网络是一种备受推崇的算法类型,因为它具有高准确性和多功能性。然而,对于低数据量,选择更简单的模型通常会有更好的表现。

机器学习模型越好,就能越准确地发现数据中的特征和模式。这反过来又意味着它的决策和预测会更加精确。

OpenText ArcSight 为 CrowdStrike 提供情报

前所未有的保护,将机器学习和端点安全与世界一流的威胁捕猎服务相结合。

了解更多

机器学习

机器学习为何重要?

为什么要使用机器学习?由于数据量越来越大,种类越来越多,计算能力越来越强,高速互联网越来越普及,机器学习的重要性与日俱增。这些数字化转型因素使人们有可能快速、自动地开发出能够快速、准确地分析超大型复杂数据集的模型。

为了削减成本、降低风险和提高整体生活质量,机器学习可应用于多种用例,包括推荐产品/服务、检测网络安全漏洞和实现自动驾驶汽车。随着数据获取能力和计算能力的提高,机器学习正变得无处不在,并将很快融入人类生活的方方面面。


机器学习如何工作?

创建机器学习模型有四个关键步骤。

  1. 选择和准备训练数据集

    训练数据是机器学习应用软件为调整模型参数而采集的具有代表性的数据信息。训练数据有时是有标签的,这意味着它已被标记为机器学习模式需要预测的分类或预期值。其他训练数据可能没有标签,因此模型必须自主提取特征并分配簇。

    对于标记数据,应将其分为训练子集和测试子集。前者用于训练模型,后者用于评估模型的有效性并寻找改进方法。

  2. 选择适用于训练数据集的算法

    您所选择的机器学习算法类型主要取决于几个方面:

    • 用例是使用标记训练数据的数值预测或分类,还是使用无标记训练数据的聚类或降维
    • 训练集中有多少数据
    • 模型要解决的问题的性质

    对于预测或分类用例,您通常会使用普通最小平方回归或逻辑回归等回归算法。对于无标注数据,您可能会使用聚类算法,如 k-means 或近邻算法。有些算法(如神经网络)可以配置为同时适用于聚类和预测用例。

  3. 训练算法以建立模型

    训练算法是调整模型变量和参数的过程,以便更准确地预测适当的结果。机器学习算法的训练通常是迭代式的,并根据所选模型使用各种优化方法。这些优化方法无需人工干预,这也是机器学习的强大之处。机器会根据用户提供的数据进行学习,几乎不需要用户的具体指导。

  4. 使用和改进模型

    最后一步是向模型提供新的数据,以逐步提高模型的有效性和准确性。新信息的来源取决于要解决的问题的性质。例如,用于自动驾驶汽车的机器学习模型将获取现实世界中关于路况、物体和交通法规的信息。


机器学习方法

什么是监督式机器学习

监督式机器学习算法使用标记数据作为训练数据,其中已知输入数据的适当输出。机器学习算法接收一组输入和相应的正确输出。算法将自己预测的输出与正确的输出进行比较,计算出模型的准确性,然后优化模型参数,提高准确性。

有监督的机器学习依靠模式来预测无标记数据的值。它最常用于自动化、大量数据记录或有太多数据输入而人类无法有效处理的情况。例如,算法可以识别出可能存在欺诈行为的信用卡交易,或者识别出最有可能提出索赔的保险客户。

什么是无监督机器学习

无监督机器学习最适用于没有结构化或客观答案的数据。对于给定的输入,没有预先确定正确的输出。相反,算法必须理解输入,并形成适当的决策。其目的是检查信息并识别其中的结构

无监督机器学习能很好地处理交易信息。例如,该算法可以识别具有相似属性的客户群。然后,这些细分市场中的客户就可以成为类似营销活动的目标客户。无监督学习中常用的技术包括最近邻映射、自组织图、奇异值分解和 k-means 聚类。这些算法随后可用于划分主题、识别异常值和推荐项目。


有监督和无监督机器学习有何区别?

方面

监督学习

无监督学习

过程

为训练模型提供输入和输出变量。

只为训练模型提供输入数据。不使用输出数据。

输入数据

使用标签数据。

使用无标记数据。

支持的算法

支持回归算法、基于实例的算法、分类算法、神经网络和决策树。

支持聚类算法、关联算法和神经网络。

复杂性

更简单

更复杂。

主观性

目标。

主观

班级数量

班级数量已知。

班级数量不详。

主要缺点

利用监督学习对海量数据进行分类非常困难。

群组数量的选择可能是主观的。

首要目标

训练模型,以预测新输入时的输出。

找到有用的见解和隐藏的模式。


机器学习能做什么?现实世界中的机器学习

虽然机器学习功能已经存在了几十年,但最近应用和自动计算涉及大数据的复杂数学计算的能力使其变得前所未有的复杂。如今,机器学习的应用领域非常广泛,从企业 AIOps到在线零售,不一而足。今天,机器学习能力在现实世界中的一些实例包括以下内容:

  • 网络安全利用行为分析来确定可能表明内部威胁APT 或零日攻击的可疑或异常事件。
  • 自动驾驶汽车项目,如Waymo (Alphabet 公司的子公司)和特斯拉的Autopilot ,后者比真正的自动驾驶汽车更进一步。
  • 像 Siri、Alexa 和 Google Assistant 这样的数字助理,可以根据我们的语音命令搜索网络信息。
  • Netflix、亚马逊和 YouTube 等网站和应用程序上由机器学习算法驱动的用户定制推荐。
  • 欺诈检测和网络复原力解决方案可汇总来自多个系统的数据,发现表现出高风险行为的客户,并识别可疑活动的模式。这些解决方案可以使用有监督和无监督的机器学习,将金融组织的交易分类为欺诈或合法交易。这就是为什么消费者会收到信用卡公司发来的短信,核实使用消费者金融凭证进行的异常消费是否合法。机器学习在反欺诈领域的应用已经非常先进,以至于许多信用卡公司都在宣传,如果金融组织的算法没有捕捉到欺诈性交易,消费者将不会受到任何损失。
  • 图像识别技术有了长足的进步,可以可靠地用于面部识别、读取存入支票上的笔迹、交通监控和计算房间内的人数。
  • 垃圾邮件过滤器可检测并阻止收件箱中不需要的邮件。
  • 对传感器数据进行分析,以找到提高效率和降低成本的方法。
  • 可穿戴医疗设备可实时获取宝贵数据,用于持续评估病人的健康状况。
  • 出租车应用程序实时评估交通状况,并推荐最有效的路线。
  • 情感分析可确定一行文本的基调。情感分析的良好应用包括 Twitter、客户评论和调查受访者:
    • 推特:评估品牌的一种方法是检测针对个人或公司的推文的语气。Crimson Hexagon 和 Nuvi 等公司可以实时提供这种服务。
    • 客户评论:您可以通过检测客户评论的语气来评估公司的经营状况。如果没有与自由文本客户评论搭配的评级系统,这一点尤其有用。
    • 调查:对自由文本调查回复进行情感分析,可以让您一目了然地评估调查受访者的感受。Qualtrics 已在其调查中实现了这一功能。
  • 市场细分分析使用无监督机器学习,根据购买习惯对客户进行分组,以确定不同类型或角色的客户。这可以让您更好地了解最有价值或服务不足的客户。
  • 按ctrl+F键搜索文档中的准确单词和短语很容易,但如果不知道要搜索的准确措辞,搜索文档就会很困难。机器学习可以使用模糊方法和主题建模等技术,让您在不知道所要查找的确切措辞的情况下搜索文档,从而使这一过程变得更加容易

机器学习的作用将不断增强

随着数据量的增长、计算能力的增强、互联网带宽的扩大以及数据科学家专业知识的提高,机器学习只会继续推动工作和家庭效率的提高和深化。

如今,企业面临的网络威胁与日俱增,因此需要通过机器学习来保护宝贵数据的安全,将黑客拒之于内部网络之外。我们首屈一指的 UEBA SecOps 软件ArcSight Intelligence 使用机器学习来检测可能预示恶意行为的异常情况。该软件在检测内部威胁、零日攻击,甚至红队攻击方面都有良好的记录。

我们能提供什么帮助?

脚注