OpenText 홈페이지.
기술 주제

머신러닝이란 무엇인가요?

물음표에 초점을 맞춘 IT 항목의 일러스트레이션

개요

머신러닝은 사람의 개입이 거의 또는 전혀 없이도 과거 데이터를 학습하고 패턴을 식별하며 논리적인 결정을 내릴 수 있는 시스템을 구축하는 데 초점을 맞춘 인공 지능의 하위 집합입니다. 숫자, 단어, 클릭, 이미지 등 다양한 형태의 디지털 정보를 포괄하는 데이터를 활용해 분석 모델 구축을 자동화하는 데이터 분석 방법입니다.

머신러닝 애플리케이션은 입력 데이터를 학습하고 자동화된 최적화 방법을 사용하여 출력의 정확도를 지속적으로 개선합니다. 머신러닝 모델의 품질은 크게 두 가지 측면에 따라 달라집니다:

  1. 입력 데이터의 품질입니다. 머신 러닝 알고리즘을 개발할 때 흔히 사용하는 표현은 "쓰레기 투입, 쓰레기 배출"입니다. 이 말은 품질이 낮거나 지저분한 데이터를 입력하면 모델의 결과가 대체로 부정확해진다는 뜻입니다.
  2. 모델 선택 자체. 머신 러닝에는 데이터 과학자가 선택할 수 있는 수많은 알고리즘이 있으며, 모두 고유한 용도를 가지고 있습니다. 각 사용 사례에 맞는 올바른 알고리즘을 선택하는 것이 중요합니다. 신경망은 높은 정확도와 다양한 기능으로 인해 많은 관심을 받고 있는 알고리즘 유형입니다. 그러나 데이터 양이 적은 경우에는 더 간단한 모델을 선택하는 것이 더 나은 성능을 발휘하는 경우가 많습니다.

머신러닝 모델이 우수할수록 데이터의 특징과 패턴을 더 정확하게 찾아낼 수 있습니다. 이는 결국 더 정확한 의사 결정과 예측이 가능해진다는 것을 의미합니다.

크라우드스트라이크용 OpenText ArcSight 인텔리전스

머신 러닝과 엔드포인트 보안을 결합한 전례 없는 보호 기능과 세계적 수준의 위협 헌팅을 서비스로 제공합니다.

더 알아보기

머신 러닝

머신러닝이 중요한 이유는 무엇인가요?

머신러닝을 사용하는 이유는 무엇인가요? 머신러닝은 점점 더 방대해지는 데이터의 양과 다양성, 컴퓨팅 성능의 접근성과 경제성, 초고속 인터넷의 가용성으로 인해 그 중요성이 점점 더 커지고 있습니다. 이러한 디지털 혁신 요소를 통해 엄청나게 크고 복잡한 데이터 세트를 빠르고 정확하게 분석할 수 있는 모델을 자동으로 신속하게 개발할 수 있습니다.

비용 절감, 위험 완화, 전반적인 삶의 질 향상을 위해 머신러닝을 적용할 수 있는 사용 사례는 제품/서비스 추천, 사이버 보안 침해 탐지, 자율 주행 자동차 활성화 등 매우 다양합니다. 데이터와 연산 능력에 대한 접근성이 높아지면서 머신러닝은 날로 보편화되고 있으며, 곧 인간 생활의 여러 측면에 통합될 것입니다.


머신러닝은 어떻게 작동하나요?

머신 러닝 모델을 만들 때 따라야 할 네 가지 주요 단계가 있습니다.

  1. 학습 데이터 세트 선택 및 준비

    학습 데이터는 머신 러닝 애플리케이션이 모델 파라미터를 조정하기 위해 수집할 데이터를 대표하는 정보입니다. 학습 데이터에는 머신 러닝 모드가 예측하는 데 필요한 분류 또는 예상 값을 호출하기 위해 태그가 지정되어 있는 경우가 있습니다. 다른 학습 데이터에는 레이블이 지정되지 않을 수 있으므로 모델이 자율적으로 특징을 추출하고 클러스터를 할당해야 합니다.

    레이블을 지정하려면 데이터를 학습 하위 집합과 테스트 하위 집합으로 나눠야 합니다. 전자는 모델을 훈련하는 데, 후자는 모델의 효과를 평가하고 개선 방법을 찾는 데 사용됩니다.

  2. 학습 데이터 세트에 적용할 알고리즘을 선택합니다.

    선택하는 머신 러닝 알고리즘의 유형은 주로 몇 가지 측면에 따라 달라집니다:

    • 사용 사례가 레이블이 지정된 학습 데이터를 사용하는 값 예측 또는 분류인지, 레이블이 지정되지 않은 학습 데이터를 사용하는 클러스터링 또는 차원 감소인지 여부
    • 학습 세트에 포함된 데이터의 양
    • 모델이 해결하고자 하는 문제의 특성

    예측 또는 분류 사용 사례의 경우 일반적으로 일반 최소제곱 회귀 또는 로지스틱 회귀와 같은 회귀 알고리즘을 사용합니다. 레이블이 지정되지 않은 데이터의 경우, k-평균 또는 최인접 이웃과 같은 클러스터링 알고리즘에 의존할 가능성이 높습니다. 신경망과 같은 일부 알고리즘은 클러스터링 및 예측 사용 사례 모두에서 작동하도록 구성할 수 있습니다.

  3. 알고리즘을 훈련하여 모델 구축

    알고리즘 학습은 적절한 결과를 보다 정확하게 예측하기 위해 모델 변수와 매개변수를 조정하는 과정입니다. 머신러닝 알고리즘 학습은 일반적으로 반복적으로 이루어지며 선택한 모델에 따라 다양한 최적화 방법을 사용합니다. 이러한 최적화 방법은 머신 러닝의 장점인 사람의 개입이 필요하지 않습니다. 머신은 사용자의 구체적인 지시가 거의 또는 전혀 없이 사용자가 제공한 데이터를 통해 학습합니다.

  4. 모델 사용 및 개선

    마지막 단계는 시간이 지남에 따라 모델의 효과와 정확성을 개선하기 위한 수단으로 새로운 데이터를 모델에 공급하는 것입니다. 새로운 정보의 출처는 해결해야 할 문제의 성격에 따라 달라집니다. 예를 들어, 자율주행차를 위한 머신러닝 모델은 도로 상황, 사물, 교통법규에 대한 실제 정보를 수집합니다.


머신 러닝 방법

지도형 머신 러닝이란?

지도 머신러닝 알고리즘은 입력 데이터에 대한 적절한 출력이 알려진 경우 레이블이 지정된 데이터를 학습 데이터로 사용합니다. 머신 러닝 알고리즘은 일련의 입력과 그에 해당하는 올바른 출력을 수집합니다. 알고리즘은 자체 예측 출력과 정확한 출력을 비교하여 모델 정확도를 계산한 다음 모델 매개 변수를 최적화하여 정확도를 높입니다.

지도형 머신 러닝은 패턴을 사용하여 레이블이 없는 데이터의 값을 예측합니다. 자동화, 대량의 데이터 레코드 또는 사람이 효과적으로 처리하기에는 너무 많은 데이터 입력이 있는 경우에 가장 자주 사용됩니다. 예를 들어, 알고리즘은 사기 가능성이 높은 신용카드 거래를 포착하거나 보험금을 청구할 가능성이 가장 높은 보험 고객을 식별할 수 있습니다.

비지도 머신 러닝이란?

비지도 머신러닝은 구조화되거나 객관적인 답이 없는 데이터에 적용하는 것이 가장 좋습니다. 주어진 입력에 대해 올바른 출력을 미리 결정할 수 없습니다. 대신 알고리즘은 입력을 이해하고 적절한 결정을 내려야 합니다. 정보를 조사하고 그 안의 구조를 파악하는것이 목표입니다.

비지도 머신 러닝은 거래 정보에서 잘 작동합니다. 예를 들어, 알고리즘은 유사한 속성을 가진 고객 세그먼트를 식별할 수 있습니다. 그러면 이러한 세그먼트에 속한 고객을 유사한 마케팅 캠페인으로 타겟팅할 수 있습니다. 비지도 학습에 널리 사용되는 기법으로는 최인접 매핑, 자기 조직화 맵, 특이값 분해, K-평균 클러스터링 등이 있습니다. 이후 알고리즘은 주제를 세분화하고, 이상값을 식별하고, 항목을 추천하는 데 사용됩니다.


지도형 머신러닝과 비지도형 머신러닝의 차이점은 무엇인가요?

측면

지도 학습

비지도 학습

프로세스

입력 및 출력 변수는 모델 학습을 위해 제공됩니다.

모델 학습에는 입력 데이터만 제공됩니다. 출력 데이터는 사용되지 않습니다.

입력 데이터

레이블이 지정된 데이터를 사용합니다.

레이블이 지정되지 않은 데이터를 사용합니다.

지원되는 알고리즘

회귀 알고리즘, 인스턴스 기반 알고리즘, 분류 알고리즘, 신경망 및 의사 결정 트리를 지원합니다.

클러스터링 알고리즘, 연관 알고리즘 및 신경망을 지원합니다.

복잡성

더 간단해졌습니다.

더 복잡합니다.

주관성

목표.

주관적.

클래스 수

클래스 수를 알 수 있습니다.

클래스 수를 알 수 없습니다.

주요 단점

지도 학습으로 방대한 데이터를 분류하는 것은 어렵습니다.

클러스터 수를 선택하는 것은 주관적일 수 있습니다.

주요 목표

새로운 입력이 주어졌을 때 출력을 예측하도록 모델을 훈련하세요.

유용한 인사이트와 숨겨진 패턴을 찾아보세요.


머신러닝이 할 수 있는 일 실제 세계에서의 머신 러닝

머신러닝 기능은 수십 년 전부터 사용되어 왔지만, 빅데이터와 관련된 복잡한 수학적 계산을 적용하고 자동으로 계산하는 기능은 최근 들어 전례 없는 정교함을 갖추게 되었습니다. 오늘날 머신 러닝 애플리케이션의 영역은 엔터프라이즈 AIOps부터 온라인 소매업에 이르기까지 광범위합니다. 오늘날 머신 러닝 기능의 실제 사례는 다음과 같습니다:

  • 사이버 보안은 행동 분석을 사용하여 내부자 위협, APT 또는 제로 데이 공격을 나타낼 수 있는 의심스러운 이벤트나 비정상적인 이벤트를 파악합니다.
  • 알파벳의 자회사인 웨이모와 실제 자율주행차보다 한 단계 아래 단계인 테슬라의 오토파일럿과 같은 자율주행차 프로젝트가 있습니다.
  • 음성 명령에 응답하여 웹에서 정보를 검색하는 Siri, Alexa, Google 어시스턴트와 같은 디지털 비서가 있습니다.
  • 넷플릭스, 아마존, 유튜브와 같은 웹사이트와 앱에서 머신 러닝 알고리즘에 기반한 사용자 맞춤형 추천을 제공합니다.
  • 사기 탐지 및 사이버 복원력 솔루션은 여러 시스템의 데이터를 집계하여 고위험 행동을 보이는 고객을 발굴하고 의심스러운 활동의 패턴을 식별합니다. 이러한 솔루션은 감독 및 비감독 머신 러닝을 사용하여 금융 기관의 거래를 사기 또는 합법적인 거래로 분류할 수 있습니다. 따라서 소비자는 신용카드 회사로부터 소비자의 금융 자격 증명을 사용한 비정상적인 구매가 합법적인지 확인하는 문자를 받을 수 있습니다. 머신 러닝은 사기 분야에서 매우 발전하여 많은 신용카드 회사가 금융 기관의 알고리즘에 의해 사기 거래가 포착되지 않으면 소비자에게 무과실이라고 광고할 정도로 발전했습니다.
  • 이미지 인식은 상당한 발전을 거듭하여 얼굴 인식, 예치된 수표의 필체 판독, 교통 모니터링, 방 안의 인원 수 계산 등에 안정적으로 사용할 수 있습니다.
  • 받은 편지함에서 원치 않는 메일을 감지하고 차단하는 스팸 필터입니다.
  • 센서 데이터를 분석하여 효율성을 개선하고 비용을 절감할 수 있는 방법을 찾는 유틸리티.
  • 웨어러블 의료 기기는 환자의 건강을 지속적으로 평가하는 데 사용할 수 있는 귀중한 데이터를 실시간으로 캡처합니다.
  • 택시 앱은 실시간으로 교통 상황을 평가하고 가장 효율적인 경로를 추천합니다.
  • 감성 분석은 텍스트 한 줄의 어조를 결정합니다. 트위터, 고객 리뷰, 설문조사 응답자 등이 감성 분석의 좋은 활용 사례입니다:
    • 트위터: 브랜드를 평가하는 한 가지 방법은 개인이나 회사를 향한 트윗의 어조를 감지하는 것입니다. 크림슨 헥사곤이나 누비 같은 회사에서 이 기능을 실시간으로 제공합니다.
    • 고객 리뷰: 고객 리뷰의 어조를 감지하여 회사의 성과를 평가할 수 있습니다. 무료 텍스트 고객 리뷰와 함께 제공되는 평점 시스템이 없는 경우 특히 유용합니다.
    • 설문조사: 무료 텍스트 설문조사 응답에 대한 감정 분석을 사용하면 설문조사 응답자의 감정을 한눈에 평가할 수 있습니다. Qualtrics는 설문조사에 이를 구현했습니다.
  • 시장 세분화 분석은 비지도 머신 러닝을 사용하여 구매 습관에 따라 고객을 클러스터링하여 다양한 유형의 고객 또는 페르소나를 파악합니다. 이를 통해 가장 가치 있는 고객이나 소외된 고객을 더 잘 파악할 수 있습니다.
  • 문서에서 정확한 단어나 구문을 검색하려면 Ctrl+F를 누르면 쉽지만, 찾고 있는 정확한 문구를 모를 경우 문서 검색이 어려울 수 있습니다. 머신 러닝은 퍼지 방법과 토픽 모델링과 같은 기술을 사용하여 찾고 있는 정확한 문구를 몰라도 문서를 검색할수 있도록 함으로써 이 과정을 훨씬 쉽게 만들어 줍니다.

머신 러닝의 역할은 계속 커질 것입니다.

데이터 양이 증가하고 컴퓨팅 성능이 향상되며 인터넷 대역폭이 확장되고 데이터 과학자의 전문성이 향상됨에 따라 머신 러닝은 직장과 가정에서 더 크고 더 깊은 효율성을 지속적으로 이끌어낼 것입니다.

오늘날 기업이 직면하는 사이버 위협이 날로 증가함에 따라 귀중한 데이터를 보호하고 해커의 내부 네트워크 침입을 차단하기 위해서는 머신러닝이 필요합니다. 최고의 UEBA SecOps 소프트웨어인 ArcSight Intelligence는 머신 러닝을 사용하여 악의적인 행동을 나타낼 수 있는 이상 징후를 탐지합니다. 내부자 위협, 제로데이 공격, 심지어 공격적인 레드팀 공격까지 탐지하는 입증된 실적을 보유하고 있습니다.

어떻게 도와드릴까요?

각주