OpenTextのホームページ。
技術トピックス

機械学習とは何か?

クエスチョンマークを中心としたIT項目の図解

概要

機械学習は、過去のデータから学習し、パターンを特定し、人間がほとんど介在することなく論理的な決定を下すことができるシステムを構築することに焦点を当てた人工知能のサブセットである。数値、単語、クリック、画像など多様な形態のデジタル情報を含むデータを用いて、分析モデルの構築を自動化するデータ分析手法である。

機械学習アプリケーションは、入力データから学習し、自動最適化手法を用いて出力の精度を継続的に向上させる。機械学習モデルの品質は、大きく2つの側面に左右される:

  1. 入力データの質。機械学習アルゴリズムの開発でよく使われる言葉に「ガベージ・イン、ガベージ・アウト」がある。このことわざは、低品質なデータや乱雑なデータを入れると、モデルの出力が大きく不正確になることを意味している。
  2. モデルの選択そのもの。機械学習では、データサイエンティストが選択できるアルゴリズムが数多く存在し、そのすべてに固有の用途がある。それぞれのユースケースに適したアルゴリズムを選択することが肝要である。ニューラルネットワークは、その精度の高さと汎用性の高さから、大きな注目を集めているアルゴリズムである。しかし、データ量が少ない場合は、より単純なモデルを選択した方が良い結果が得られることが多い。

機械学習モデルが優れていればいるほど、データの特徴やパターンをより正確に見つけることができる。つまり、より正確な判断と予測が可能になるということだ。

OpenText ArcSight Intelligence for CrowdStrike

機械学習とエンドポイントセキュリティを組み合わせた前例のない保護と、サービスとしてのワールドクラスの脅威ハンティング。

詳細情報

機械学習

機械学習はなぜ重要なのか?

なぜ機械学習を使うのか?機械学習の重要性が増しているのは、データの量と種類がますます膨大になり、計算能力へのアクセスや価格が手頃になり、高速インターネットが利用できるようになったためである。こうしたデジタルトランスフォーメーションによって、非常に大規模で複雑なデータセットを迅速かつ正確に分析できるモデルを、迅速かつ自動的に開発することが可能になる。

コストを削減し、リスクを軽減し、製品/サービスの推奨、サイバーセキュリティ侵害の検出、自動運転車の実現など、全体的な生活の質を向上させるために機械学習が適用できるユースケースは数多くある。データと計算能力へのアクセスが向上したことで、機械学習は日々ユビキタスになっており、近い将来、人間の生活のさまざまな面に組み込まれるようになるだろう。


機械学習はどのように機能するのか?

機械学習モデルを作成する際には、4つの重要なステップがある。

  1. トレーニングデータセットの選択と準備

    学習データとは、機械学習アプリケーションがモデルのパラメータを調整するために取り込むデータの代表的な情報である。つまり、機械学習モードが予測する分類や期待値を呼び出すためのタグが付けられている。他の学習データはラベル付けされていない可能性があるため、モデルは自律的に特徴を抽出し、クラスタを割り当てる必要がある。

    ラベル付けされたデータは、トレーニング・サブセットとテスト・サブセットに分けられる。前者はモデルを訓練するために使われ、後者はモデルの有効性を評価し、それを改善する方法を見つけるために使われる。

  2. トレーニングデータセットに適用するアルゴリズムを選択する。

    選択する機械学習アルゴリズムのタイプは、主にいくつかの側面に依存する:

    • ユースケースが、ラベル付けされた訓練データを使用する値の予測や分類なのか、ラベル付けされていない訓練データを使用するクラスタリングや次元削減なのか。
    • トレーニングセットのデータ量
    • モデルが解決しようとする問題の性質

    予測や分類のユースケースでは、通常、通常の最小二乗回帰やロジスティック回帰のような回帰アルゴリズムを使用します。ラベル付けされていないデータでは、k-meansやnearest neighborのようなクラスタリング・アルゴリズムに頼ることになるだろう。ニューラルネットワークのようないくつかのアルゴリズムは、クラスタリングと予測の両方のユースケースで動作するように構成することができる。

  3. モデルを構築するためにアルゴリズムを訓練する

    アルゴリズムのトレーニングは、適切な結果をより正確に予測するために、モデルの変数やパラメータを調整するプロセスである。機械学習アルゴリズムのトレーニングは通常反復され、選択されたモデルに応じて様々な最適化手法が使用される。これらの最適化手法は、機械学習のパワーの一部である人間の介入を必要としない。機械は、ユーザーからの具体的な指示がほとんどなくても、与えられたデータから学習する。

  4. モデルの使用と改善

    最後のステップは、時間の経過とともにモデルの有効性と精度を向上させる手段として、新しいデータをモデルに与えることである。新しい情報がどこからもたらされるかは、解決すべき問題の性質による。例えば、自動運転車用の機械学習モデルは、道路状況、対象物、交通法規に関する実世界の情報を取り込む。


機械学習の手法

教師あり機械学習とは

教師あり機械学習アルゴリズムは、入力データに対する適切な出力がわかっているラベル付きデータを学習データとして使用する。機械学習アルゴリズムは、入力とそれに対応する正しい出力のセットを取り込む。アルゴリズムは、モデルの精度を計算するために、自身の予測出力と正しい出力を比較し、精度を向上させるためにモデルのパラメータを最適化する。

教師あり機械学習は、ラベルのないデータの値を予測するパターンに依存する。自動化、大量のデータ記録、またはデータ入力が多すぎて人間が効率的に処理できないような場合に最もよく使われる。例えば、アルゴリズムは、詐欺の可能性が高いクレジットカード取引をピックアップしたり、最もクレームを出しそうな保険加入者を特定したりすることができる。

教師なし機械学習とは

教師なし機械学習は、構造化された答えや客観的な答えを持っていないデータに適用するのが最適である。与えられた入力に対して正しい出力を事前に決定することはない。その代わり、アルゴリズムは入力を理解し、適切な判断を下さなければならない。その目的は、情報を精査し、その中の構造を特定することである。

教師なし機械学習は、取引情報に対してうまく機能する。例えば、アルゴリズムは、似たような属性を持つ顧客セグメントを特定することができる。これらのセグメント内の顧客は、同様のマーケティングキャンペーンでターゲットにすることができる。教師なし学習でよく使われる手法には、最近傍マッピング、自己組織化マップ、特異値分解、k-meansクラスタリングなどがある。アルゴリズムはその後、トピックのセグメント化、異常値の特定、アイテムの推奨に使用される。


教師あり機械学習と教師なし機械学習の違いは何ですか?

アスペクト

教師あり学習

教師なし学習

プロセス

入力変数と出力変数は、モデルを訓練するために提供される。

モデルの訓練には入力データのみが提供される。出力データは使用しない。

入力データ

ラベル付きデータを使用。

ラベルのないデータを使用。

対応アルゴリズム

回帰アルゴリズム、インスタンスベースアルゴリズム、分類アルゴリズム、ニューラルネットワーク、決定木をサポート。

クラスタリングアルゴリズム、アソシエーションアルゴリズム、ニューラルネットワークをサポート。

複雑さ

もっとシンプルだ。

もっと複雑だ。

主観性

目的

主観的だ。

クラス数

クラス数がわかっている。

クラス数は不明。

主な欠点

教師あり学習で膨大なデータを分類するのは難しい。

クラスター数の選択は主観的なものになりうる。

主な目標

新しい入力が提示されたときに出力を予測するようにモデルを訓練する。

有用な洞察や隠れたパターンを見つける。


機械学習で何ができるか実社会における機械学習

機械学習機能は何十年も前から存在していたが、ビッグデータを含む複雑な数学的計算を適用し、自動的に計算できるようになったことで、機械学習はかつてないほど洗練されたものになった。今日の機械学習アプリケーションの領域は、企業の AIOpsからオンライン小売に至るまで広大である。今日の機械学習機能の実例には、以下のようなものがある:

  • サイバーセキュリティは、行動分析を使って、内部脅威APT、ゼロデイ攻撃を示す可能性のある疑わしいイベントや異常なイベントを特定します。
  • ウェイモ (アルファベット社の子会社)やテスラのオートパイロットの ような自動運転車プロジェクトは、実際の自動運転車の一歩手前である。
  • Siri、Alexa、Googleアシスタントのようなデジタルアシスタントは、私たちの音声コマンドに応じてウェブ上の情報を検索する。
  • Netflix、Amazon、YouTubeのようなウェブサイトやアプリで、機械学習アルゴリズムによってユーザーに合わせたレコメンデーションが行われる。
  • 複数のシステムからデータを集約し、リスクの高い行動を示す顧客を発見し、疑わしい行動のパターンを特定する不正検知およびサイバー回復力ソリューション。これらのソリューションは、教師ありおよび教師なしの機械学習を使用して、金融機関の取引を不正または正当なものとして分類することができる。このため、消費者はクレジットカード会社から、その消費者の財務情報を使った異常な購入が正当なものであるかどうかを確認するメールを受け取ることができる。機械学習は不正行為の分野で非常に進歩しており、多くのクレジットカード会社は、金融機関のアルゴリズムによって不正取引が発見されなかった場合、消費者に無過失責任を宣伝している。
  • 画像認識は大きく進歩し、顔認識、預け入れ小切手の筆跡読み取り、交通監視、部屋の人数カウントなどに確実に使用できるようになった。
  • 受信トレイから不要なメールを検出してブロックするスパムフィルター。
  • センサー・データを分析して効率改善とコスト削減の方法を見つける公益事業。
  • 患者の健康状態を継続的に評価するための貴重なデータをリアルタイムで取得するウェアラブル医療機器。
  • タクシーアプリはリアルタイムで交通状況を評価し、最も効率的なルートを推奨する。
  • センチメント分析は、テキスト行のトーンを決定する。センチメント分析の良い応用例としては、ツイッター、カスタマーレビュー、アンケート回答者などがある:
    • ツイッター:ブランドを評価する一つの方法は、個人や企業に向けられたツイートのトーンを検出することである。Crimson HexagonやNuviのような企業がこのリアルタイムを提供している。
    • カスタマーレビュー:顧客レビューの論調から、御社の業績を評価することができます。これは、フリーテキストのカスタマーレビューと対になる評価システムがない場合に特に有効である。
    • アンケート自由記述のアンケート回答にセンチメント分析を使用すると、アンケート回答者がどのように感じているかを一目で評価することができます。Qualtricsのアンケートには、この機能が実装されている。
  • 市場セグメンテーション分析では、教師なし機械学習を使用して、購買習慣に従って顧客をクラスタリングし、さまざまなタイプの顧客やペルソナを決定する。これにより、最も価値のある顧客や十分にサービスを受けていない顧客をよりよく知ることができる。
  • ctrl+Fキーを押して正確な語句を検索するのは簡単だが、探している正確な語句がわからなければ、文書を検索するのは難しい。機械学習では、ファジー法やトピック・モデリングなどのテクニックを使うことで 、探している語句を正確に知らなくても文書を検索 できるようになり、このプロセスをはるかに簡単にすることができる 。

機械学習の役割はますます大きくなる

データ量が増加し、コンピューティング能力が向上し、インターネット帯域幅が拡大し、データサイエンティストがその専門知識を高めるにつれて、機械学習は職場や家庭での効率化をより大きく、より深く推進し続けるだろう。

今日、企業が直面するサイバー脅威が増加の一途をたどる中、貴重なデータを保護し、ハッカーを社内ネットワークから締め出すためには、機械学習が必要とされている。当社のプレミアUEBA SecOpsソフトウェアであるArcSight Intelligenceは、機械学習を使用して、悪意のある行為を示す可能性のある異常を検出します。インサイダー脅威、ゼロデイ攻撃、さらには攻撃的なレッドチーム攻撃を検知した実績がある。

脚注