机器学习是人工智能的一个子集,侧重于构建能够从历史数据中学习、识别模式并在几乎没有人工干预的情况下做出合理决策的系统。它是一种数据分析方法,通过使用包含数字、文字、点击和图像等各种数字信息形式的数据,自动建立分析模型。
机器学习应用程序从输入数据中学习,并利用自动优化方法不断提高输出的准确性。机器学习模型的质量取决于两个主要方面:
机器学习模型越好,就能越准确地发现数据中的特征和模式。这反过来又意味着它的决策和预测会更加精确。
为什么要使用机器学习?由于数据量越来越大,种类越来越多,计算能力越来越强,高速互联网越来越普及,机器学习的重要性与日俱增。这些数字化转型因素使人们有可能快速、自动地开发出能够快速、准确地分析超大型复杂数据集的模型。
为了削减成本、降低风险和提高整体生活质量,机器学习可应用于多种用例,包括推荐产品/服务、检测网络安全漏洞和实现自动驾驶汽车。随着数据获取能力和计算能力的提高,机器学习正变得无处不在,并将很快融入人类生活的方方面面。
创建机器学习模型有四个关键步骤。
训练数据是机器学习应用软件为调整模型参数而采集的具有代表性的数据信息。训练数据有时是有标签的,这意味着它已被标记为机器学习模式需要预测的分类或预期值。其他训练数据可能没有标签,因此模型必须自主提取特征并分配簇。
对于标记数据,应将其分为训练子集和测试子集。前者用于训练模型,后者用于评估模型的有效性并寻找改进方法。
您所选择的机器学习算法类型主要取决于几个方面:
对于预测或分类用例,您通常会使用普通最小平方回归或逻辑回归等回归算法。对于无标注数据,您可能会使用聚类算法,如 k-means 或近邻算法。有些算法(如神经网络)可以配置为同时适用于聚类和预测用例。
训练算法是调整模型变量和参数的过程,以便更准确地预测适当的结果。机器学习算法的训练通常是迭代式的,并根据所选模型使用各种优化方法。这些优化方法无需人工干预,这也是机器学习的强大之处。机器会根据用户提供的数据进行学习,几乎不需要用户的具体指导。
最后一步是向模型提供新的数据,以逐步提高模型的有效性和准确性。新信息的来源取决于要解决的问题的性质。例如,用于自动驾驶汽车的机器学习模型将获取现实世界中关于路况、物体和交通法规的信息。
什么是监督式机器学习
监督式机器学习算法使用标记数据作为训练数据,其中已知输入数据的适当输出。机器学习算法接收一组输入和相应的正确输出。算法将自己预测的输出与正确的输出进行比较,计算出模型的准确性,然后优化模型参数,提高准确性。
有监督的机器学习依靠模式来预测无标记数据的值。它最常用于自动化、大量数据记录或有太多数据输入而人类无法有效处理的情况。例如,算法可以识别出可能存在欺诈行为的信用卡交易,或者识别出最有可能提出索赔的保险客户。
什么是无监督机器学习
无监督机器学习最适用于没有结构化或客观答案的数据。对于给定的输入,没有预先确定正确的输出。相反,算法必须理解输入,并形成适当的决策。其目的是检查信息并识别其中的结构。
无监督机器学习能很好地处理交易信息。例如,该算法可以识别具有相似属性的客户群。然后,这些细分市场中的客户就可以成为类似营销活动的目标客户。无监督学习中常用的技术包括最近邻映射、自组织图、奇异值分解和 k-means 聚类。这些算法随后可用于划分主题、识别异常值和推荐项目。
方面 |
监督学习 |
无监督学习 |
过程 |
为训练模型提供输入和输出变量。 |
只为训练模型提供输入数据。不使用输出数据。 |
输入数据 |
使用标签数据。 |
使用无标记数据。 |
支持的算法 |
支持回归算法、基于实例的算法、分类算法、神经网络和决策树。 |
支持聚类算法、关联算法和神经网络。 |
复杂性 |
更简单 |
更复杂。 |
主观性 |
目标。 |
主观 |
班级数量 |
班级数量已知。 |
班级数量不详。 |
主要缺点 |
利用监督学习对海量数据进行分类非常困难。 |
群组数量的选择可能是主观的。 |
首要目标 |
训练模型,以预测新输入时的输出。 |
找到有用的见解和隐藏的模式。 |
虽然机器学习功能已经存在了几十年,但最近应用和自动计算涉及大数据的复杂数学计算的能力使其变得前所未有的复杂。如今,机器学习的应用领域非常广泛,从企业 AIOps到在线零售,不一而足。今天,机器学习能力在现实世界中的一些实例包括以下内容:
随着数据量的增长、计算能力的增强、互联网带宽的扩大以及数据科学家专业知识的提高,机器学习只会继续推动工作和家庭效率的提高和深化。
如今,企业面临的网络威胁与日俱增,因此需要通过机器学习来保护宝贵数据的安全,将黑客拒之于内部网络之外。我们首屈一指的 UEBA SecOps 软件ArcSight Intelligence 使用机器学习来检测可能预示恶意行为的异常情况。该软件在检测内部威胁、零日攻击,甚至红队攻击方面都有良好的记录。
主动检测内部风险、新型攻击和高级持续性威胁
利用实时检测和本地 SOAR 加速威胁检测和响应
人工智能驱动的测试自动化
Interset 用机器智能增强人类智能,加强您的网络复原力
简化日志管理和合规性,同时加速取证调查