OpenText 首頁。
技術主題

什麼是機器學習?

以問號為重點的 IT 項目說明

概述

機器學習是人工智慧的一個子集,專注於建立能夠從歷史資料中學習、識別模式,並在幾乎沒有人工干预的情況下做出合乎邏輯的決策的系統。它是一種資料分析方法,可透過使用包含各種形式數位資訊(包括數字、文字、點擊和影像)的資料,自動建立分析模型。

機器學習應用程式會從輸入資料中學習,並使用自動最佳化方法持續改善輸出的精確度。機器學習模型的品質取決於兩個主要方面:

  1. 輸入資料的品質。開發機器學習演算法的常用詞是「垃圾進,垃圾出」。這句話的意思是,如果您放入低品質或混亂的資料,那麼您的模型輸出很大程度上會不準確。
  2. 模型選擇本身。在機器學習中,有許多演算法可供資料科學家選擇,這些演算法都有其特定用途。為每種使用情況選擇正確的演算法至關重要。由於神經網路具有高準確性和多樣性,因此是一種受到熱烈討論的演算法類型。然而,對於低資料量,選擇較簡單的模型通常會有較好的表現。

機器學習模型越好,就能越準確地找到資料中的特徵和模式。反過來,這也意味著它的決策和預測會越精確。

OpenText ArcSight Intelligence for CrowdStrike

前所未有的保護功能,結合機器學習和端點安全,以及世界級的威脅獵捕服務。

了解更多

機器學習

為什麼機器學習很重要?

為什麼要使用機器學習?由於資料的數量和種類日益龐大、計算能力的可及性以及高速網際網路的可用性,機器學習的重要性與日俱增。這些數位轉換因素讓人們有可能快速、自動地開發模型,以快速、準確地分析異常龐大且複雜的資料集。

為了降低成本、減少風險和改善整體生活品質,機器學習可以應用在許多使用個案中,包括推薦產品/服務、偵測網路安全漏洞和啟用自動駕駛汽車。隨著資料和運算能力的更廣泛存取,機器學習每天都在變得更加無所不在,並將很快融入人類生活的許多層面。


機器學習如何運作?

在建立機器學習模型時,您會遵循四個關鍵步驟。

  1. 選擇和準備訓練資料集

    訓練資料是機器學習應用程式將擷取以調整模型參數的代表性資料。訓練資料有時會被標記,這表示資料已被標記,以指出機器學習模式需要預測的分類或預期值。其他訓練資料可能是沒有標記的,因此模型必須擷取特徵並自主分配叢集。

    對於標記,資料應分為訓練子集和測試子集。前者用於訓練模型,後者則用於評估模型的有效性,並找出改善的方法。

  2. 選擇應用於訓練資料集的演算法

    您選擇的機器學習演算法類型主要取決於幾個方面:

    • 無論用例是使用標記訓練資料的數值預測或分類,或是使用非標記訓練資料的聚類或降維。
    • 訓練集中有多少資料
    • 模型要解決問題的性質

    對於預測或分類用例,您通常會使用回歸演算法,例如普通最小平方回歸或 logistic 回歸。對於未標籤的資料,您可能會依賴聚類演算法,例如 k-means 或近鄰演算法。有些演算法 (例如神經網路) 可以設定為同時適用於聚類和預測用例。

  3. 訓練演算法以建立模型

    訓練演算法是調整模型變數和參數的過程,以更精準地預測適當的結果。訓練機器學習演算法通常是迭代式的,並根據所選模型使用各種最佳化方法。這些最佳化方法不需要人為介入,這也是機器學習的威力之一。機器會從您提供的資料中學習,幾乎不需要使用者的特定指示。

  4. 使用並改善模型

    最後一個步驟是將新資料饋入模型,作為隨時間改進其有效性和準確性的手段。新資訊的來源取決於要解決問題的性質。例如,用於自動駕駛汽車的機器學習模型會攝取真實世界中的路況、物件和交通法規資訊。


機器學習方法

什麼是有監督的機器學習

有監督的機器學習演算法使用標記資料作為訓練資料,其中輸入資料的適當輸出是已知的。機器學習演算法攝取一組輸入和相對應的正確輸出。演算法會比較自己的預測輸出與正確輸出,以計算模型精確度,然後優化模型參數以提高精確度。

有監督的機器學習依賴模式來預測未標籤資料的值。它最常用於自動化、大量資料記錄或人類無法有效處理太多資料輸入的情況。例如,演算法可以找出可能是詐騙的信用卡交易,或識別出最有可能提出索賠的保險客戶。

什麼是無監督機器學習

無監督機器學習最適用於沒有結構化或客觀答案的資料。對於給定的輸入,並沒有預先確定正確的輸出。相反,演算法必須了解輸入內容,並形成適當的決策。目的是檢視資訊並找出其中的結構。

無監督的機器學習在交易資訊上運作良好。例如,演算法可辨識擁有相似屬性的客戶群。這些區塊中的客戶可以成為類似的行銷活動的目標。無監督學習中常用的技術包括最近鄰映射、自組圖、奇異值分解和 k-means 聚類。演算法隨後會用來分割主題、識別離群組和推薦項目。


有監督和無監督的機器學習有何差異?

外觀

監督學習

無監督學習

製程

輸入和輸出變數提供給訓練模型。

只提供輸入資料來訓練模型。不使用輸出資料。

輸入資料

使用標記資料。

使用未標示的資料。

支援的演算法

支援迴歸演算法、基於實例的演算法、分類演算法、神經網路和決策樹。

支援聚類演算法、關聯演算法和神經網路。

複雜性

更簡單。

更複雜。

主觀性

目標:

主觀。

班級數目

班級數量已知。

班級數量未知。

主要缺點

使用監督學習對海量資料進行分類非常困難。

群集數量的選擇可能是主觀的。

主要目標

訓練模型以預測新輸入時的輸出。

尋找有用的洞察力和隱藏的模式。


機器學習能做什麼:真實世界中的機器學習

雖然機器學習功能已存在數十年之久,但最近應用並自動計算涉及大資料的複雜數學運算的能力,卻讓機器學習功能變得前所未有的複雜。今天,機器學習的應用領域非常廣泛,從企業 AIOps到線上零售都有。現今機器學習能力的一些真實範例包括以下幾點:

  • 網路安全使用行為分析來判斷可能顯示內部威脅APT 或零時差攻擊的可疑或異常事件。
  • 自動駕駛汽車專案,例如 Waymo(Alphabet Inc. 的子公司) 和 Tesla 的 Autopilot(比真正的 自動 駕駛汽車低一級)。
  • 像 Siri、Alexa 和 Google Assistant 之類的數位助理,可根據我們的語音指令搜尋網路資訊。
  • 由 Netflix、Amazon 和 YouTube 等網站和應用程式上的機器學習演算法驅動,為使用者量身打造的建議。
  • 詐欺偵測與網路復原解決方案,可匯總來自多個系統的資料、發現客戶的高風險行為,並辨識可疑活動的模式。這些解決方案可使用有監督和無監督的機器學習,將金融機構的交易分類為詐欺或合法。這就是為什麼消費者可以收到信用卡公司的簡訊,確認使用消費者財務憑證的不尋常購買是否合法。機器學習在詐欺領域已發展得非常先進,許多信用卡公司都會向消費者宣傳,如果金融機構的演算法沒有抓到詐欺交易,就不會有任何過失。
  • 影像識別技術已取得重大進展,並可可靠地用於臉部辨識、閱讀存入支票上的筆跡、交通監控以及計算房間內的人數。
  • 垃圾郵件過濾器可偵測並阻止收件匣中不想要的郵件。
  • 分析感測器資料以尋找提高效率和降低成本方法的公用事業。
  • 可穿戴醫療裝置可即時擷取寶貴的資料,用於持續評估病患的健康狀況。
  • 計程車應用程式可即時評估交通路況,並建議最有效率的路線。
  • 情感分析可判斷一行文字的語調。情感分析的良好應用包括 Twitter、客戶評論和調查受訪者:
    • Twitter:評估品牌的方法之一是偵測針對個人或公司的推文語氣。Crimson Hexagon 和 Nuvi 等公司可提供此即時功能。
    • 客戶評論:您可以偵測客戶評論的語調,以評估貴公司的表現。如果沒有搭配自由文字客戶評論的評等系統,這一點尤其有用。
    • 調查:對自由文字調查問卷回覆使用情感分析,可讓您一目了然地評估出調查問卷受訪者的感受。Qualtrics 的調查問卷已實施此功能。
  • 市場區隔分析使用無監督的機器學習,根據購買習慣對客戶進行群組,以確定不同類型或角色的客戶。這可讓您更了解最有價值或服務不足的客戶。
  • 按下 ctrl+F 鍵搜尋文件的確切字詞很容易,但如果您不知道要搜尋的確切字詞,搜尋文件就會很困難。機器學習可以使用模糊方法和主題建模等技術,可以讓您在不知道要尋找的確切詞句的情況下搜尋文件,讓這個過程變得更容易。

機器學習的角色只會持續增加

隨著資料量的增加、運算能力的提升、網路頻寬的擴充,以及資料科學家專業知識的提升,機器學習只會持續推動工作與家庭中更高更深的效率。

現今企業面對的網路威脅與日俱增,因此需要機器學習來保護寶貴的資料,並將駭客拒於內部網路之外。我們首屈一指的 UEBA SecOps 軟體 ArcSight Intelligence 使用機器學習來偵測可能顯示惡意行為的異常現象。它在偵測內部威脅、零時差攻擊,甚至是咄咄逼人的紅隊攻擊方面,都有良好的記錄。

我們能如何幫助您?

註腳