Page d'accueil d'OpenText.
Sujets techniques

Qu'est-ce que l'apprentissage machine ?

Illustration d'éléments informatiques mettant en évidence un point d'interrogation

Aperçu

L'apprentissage machine est un sous-ensemble de l'intelligence artificielle qui vise à construire des systèmes capables d'apprendre à partir de données historiques, d'identifier des modèles et de prendre des décisions logiques avec peu ou pas d'intervention humaine. Il s'agit d'une méthode d'analyse de données qui automatise la construction de modèles analytiques en utilisant des données englobant diverses formes d'informations numériques, notamment des nombres, des mots, des clics et des images.

Les applications d'apprentissage machine apprennent à partir des données d'entrée et améliorent continuellement la précision des résultats grâce à des méthodes d'optimisation automatisées. La qualité d'un modèle d'apprentissage machine dépend de deux aspects majeurs :

  1. La qualité des données d'entrée. Une expression courante dans le domaine du développement des algorithmes d'apprentissage machine est « si les données d'entrée sont erronées, les résultats le seront aussi ». Ce dicton signifie que si vous utilisez des données de mauvaise qualité ou désordonnées, les résultats de votre modèle seront largement inexacts.
  2. Le choix du modèle lui-même. En apprentissage machine, il existe une multitude d'algorithmes parmi lesquels un scientifique des données peut choisir, chacun ayant ses propres usages spécifiques. Il est essentiel de choisir l'algorithme approprié pour chaque cas d'utilisation. Les réseaux de neurones sont un type d'algorithme qui suscite un engouement considérable en raison de leur grande précision et de leur polyvalence. Cependant, pour de faibles quantités de données, le choix d'un modèle plus simple donnera souvent de meilleurs résultats.

Plus le modèle d'apprentissage machine est performant, plus il est capable de détecter avec précision les caractéristiques et les tendances dans les données. Cela implique donc que ses décisions et ses prédictions seront d'autant plus précises.

OpenText ArcSight Intelligence pour CrowdStrike

Une protection sans précédent combinant l'apprentissage machine et la sécurité des terminaux, ainsi qu'une chasse aux menaces de classe mondiale en tant que service.

En savoir plus

apprentissage automatique

Pourquoi l'apprentissage machine est-il important ?

Pourquoi utiliser l'apprentissage machine ? L'apprentissage machine prend une importance croissante en raison des volumes et de la variété toujours plus importants des données, de l'accès et du coût abordable de la puissance de calcul, et de la disponibilité d'Internet à haut débit. Ces facteurs de transformation numérique permettent de développer rapidement et automatiquement des modèles capables d'analyser rapidement et avec précision des ensembles de données extrêmement volumineux et complexes.

L'apprentissage machine peut être appliqué à une multitude de cas d'utilisation afin de réduire les coûts, d'atténuer les risques et d'améliorer la qualité de vie globale, notamment en recommandant des produits/services, en détectant les failles de cybersécurité et en permettant le développement de voitures autonomes. Grâce à un accès accru aux données et à la puissance de calcul, l'apprentissage machine devient chaque jour plus omniprésent et sera bientôt intégré à de nombreux aspects de la vie humaine.


Comment fonctionne l'apprentissage machine ?

Il y a quatre étapes clés à suivre lors de la création d'un modèle d'apprentissage automatique.

  1. Choisir et préparer un ensemble de données d'entraînement

    Les données d'entraînement sont des informations représentatives des données que l'application d'apprentissage automatique ingérera pour ajuster les paramètres du modèle. Les données d'entraînement sont parfois étiquetées, c'est-à-dire qu'elles ont été marquées pour indiquer les classifications ou les valeurs attendues que le modèle d'apprentissage automatique doit prédire. D'autres données d'entraînement peuvent ne pas être étiquetées, le modèle devra donc extraire les caractéristiques et attribuer les grappes de manière autonome.

    Pour les données étiquetées, il faut les diviser en un sous-ensemble d'entraînement et un sous-ensemble de test. Le premier sert à entraîner le modèle et le second à évaluer son efficacité et à trouver des moyens de l'améliorer.

  2. Sélectionnez un algorithme à appliquer à l'ensemble de données d'entraînement.

    Le type d'algorithme d'apprentissage machine que vous choisirez dépendra principalement de quelques aspects :

    • Que le cas d'utilisation soit la prédiction d'une valeur ou la classification utilisant des données d'entraînement étiquetées, ou le cas d'utilisation est le regroupement ou la réduction de dimensionnalité utilisant des données d'entraînement non étiquetées.
    • Quelle quantité de données contient l'ensemble d'entraînement ?
    • La nature du problème que le modèle cherche à résoudre

    Pour les cas d'utilisation liés à la prédiction ou à la classification, on utilise généralement des algorithmes de régression tels que la régression linéaire par les moindres carrés ordinaires ou la régression logistique. Avec des données non étiquetées, vous aurez probablement recours à des algorithmes de regroupement tels que k-moyennes ou le plus proche voisin. Certains algorithmes, comme les réseaux neuronaux, peuvent être configurés pour fonctionner à la fois avec des cas d'utilisation de regroupement et de prédiction.

  3. Entraînez l'algorithme à bâtir le modèle

    La formation de l'algorithme est le processus d'ajustement des variables et des paramètres du modèle afin de prédire plus précisément les résultats attendus. L'entraînement de l'algorithme d'apprentissage machine est généralement itératif et utilise diverses méthodes d'optimisation en fonction du modèle choisi. Ces méthodes d'optimisation ne nécessitent pas d'intervention humaine, ce qui constitue l'un des points forts de l'apprentissage automatique. La machine apprend à partir des données que vous lui fournissez, avec peu ou pas d'instructions spécifiques de l'utilisateur.

  4. Utiliser et améliorer le modèle

    La dernière étape consiste à alimenter le modèle avec de nouvelles données afin d'améliorer son efficacité et sa précision au fil du temps. La provenance des nouvelles informations dépendra de la nature du problème à résoudre. Par exemple, un modèle d'apprentissage machine pour les voitures autonomes intégrera des informations du monde réel sur l'état des routes, les objets et le code de la route.


méthodes d'apprentissage machine

Qu'est-ce que l'apprentissage automatique supervisé ?

Les algorithmes d'apprentissage automatique supervisé utilisent des données étiquetées comme données d'entraînement, pour lesquelles les sorties appropriées aux données d'entrée sont connues. L'algorithme d'apprentissage machine ingère un ensemble d'entrées et les sorties correctes correspondantes. L'algorithme compare ses propres prédictions avec les résultats corrects pour calculer la précision du modèle, puis optimise les paramètres du modèle pour améliorer cette précision.

L'apprentissage automatique supervisé s'appuie sur des modèles pour prédire des valeurs à partir de données non étiquetées. Il est le plus souvent utilisé dans l'automatisation, pour le traitement de grandes quantités d'enregistrements de données ou dans les cas où il y a trop de données à traiter efficacement par l'homme. Par exemple, l'algorithme peut détecter les transactions par carte de crédit susceptibles d'être frauduleuses ou identifier le client d'assurance le plus susceptible de déposer une réclamation.

Qu'est-ce que l'apprentissage automatique non supervisé ?

L'apprentissage automatique non supervisé est particulièrement adapté aux données qui ne présentent pas de réponse structurée ou objective. Il n'existe aucune prédétermination de la sortie correcte pour une entrée donnée. L'algorithme doit plutôt comprendre les données d'entrée et prendre la décision appropriée. L'objectif est d' examiner l'information et d'en identifier la structure.

L'apprentissage automatique non supervisé fonctionne bien avec les informations transactionnelles. Par exemple, l'algorithme peut identifier des segments de clients ayant des attributs similaires. Les clients faisant partie de ces segments peuvent ensuite être ciblés par des campagnes marketing similaires. Les techniques populaires utilisées dans l'apprentissage non supervisé comprennent la cartographie des voisins les plus proches, les cartes auto-organisatrices, la décomposition en valeurs singulières et le regroupement k-means. Les algorithmes sont ensuite utilisés pour segmenter les sujets, identifier les valeurs aberrantes et recommander des éléments.


Quelle est la différence entre l'apprentissage automatique supervisé et non supervisé ?

Aspect

Apprentissage supervisé

Apprentissage non supervisé

Processus

Les variables d'entrée et de sortie sont fournies pour entraîner le modèle.

Seules les données d'entrée sont fournies pour entraîner le modèle. Aucune donnée de sortie n'est utilisée.

Données d'entrée

Utilise des données étiquetées.

Utilise des données non étiquetées.

Algorithmes pris en charge

Prend en charge les algorithmes de régression, les algorithmes basés sur les instances, les algorithmes de classification, les réseaux neuronaux et les arbres de décision.

Prend en charge les algorithmes de regroupement, les algorithmes d'association et les réseaux neuronaux.

Complexité

Simpler.

Plus complexe.

Subjectivité

Objectif.

Subjectif.

Nombre de classes

Le nombre de classes est connu.

Le nombre de classes est inconnu.

Principal inconvénient

La classification des mégadonnées par apprentissage supervisé est difficile.

Le choix du nombre de grappes peut être subjectif.

Objectif principal

Entraînez le modèle à prédire la sortie lorsqu'il reçoit de nouvelles entrées.

Découvrez des informations utiles et des tendances cachées.


Que peut faire l'apprentissage machine ? L'apprentissage machine dans le monde réel

Alors que les fonctionnalités d'apprentissage machine existent depuis des décennies, c'est la capacité plus récente d'appliquer et de calculer automatiquement des calculs mathématiques complexes impliquant des données massives qui lui a conféré une sophistication sans précédent. Le domaine d'application de l'apprentissage machine est aujourd'hui vaste, allant de l'AIOps d'entreprise au commerce de détail en ligne. Voici quelques exemples concrets d'applications de l'apprentissage machine :

  • La cybersécurité utilise l'analyse comportementale pour déterminer les événements suspects ou anormaux pouvant indiquer des menaces internes, des APT ou des attaques zero-day.
  • Les projets de voitures autonomes, comme Waymo (une filiale d'Alphabet Inc.) et l'Autopilot de Tesla, qui est un cran en dessous des véritables voitures autonomes.
  • Les assistants numériques comme Siri, Alexa et l'Assistant Google qui recherchent des informations sur le Web en réponse à nos commandes vocales.
  • Recommandations personnalisées pour l'utilisateur, générées par des algorithmes d'apprentissage machine, sur des sites Web et des applications comme Netflix, Amazon et YouTube.
  • Solutions de détection des fraudes et de cyberrésilience qui regroupent les données provenant de plusieurs systèmes, repèrent les clients présentant des comportements à haut risque et identifient les schémas d'activité suspecte. Ces solutions peuvent utiliser l'apprentissage automatique supervisé et non supervisé pour classer les transactions des organisations financières comme frauduleuses ou légitimes. C'est pourquoi un consommateur peut recevoir des textos de sa compagnie de carte de crédit vérifiant si un achat inhabituel effectué avec ses informations financières est légitime. L'apprentissage machine est devenu tellement avancé dans le domaine de la fraude que de nombreuses sociétés de cartes de crédit offrent aux consommateurs une garantie « sans faute » si les transactions frauduleuses ne sont pas détectées par les algorithmes de l'organisme financier.
  • La reconnaissance d'images a connu des progrès significatifs et peut être utilisée de manière fiable pour la reconnaissance faciale, la lecture de l'écriture manuscrite sur les chèques déposés, la surveillance du trafic et le comptage du nombre de personnes dans une pièce.
  • Filtres antipourriels qui détectent et bloquent les courriels indésirables dans les boîtes de réception.
  • Les services publics qui analysent les données des capteurs pour trouver des façons d'améliorer l'efficacité et de réduire les coûts.
  • Dispositifs médicaux portables qui captent en temps réel des données précieuses pour l'évaluation continue de la santé des patients.
  • Applications de taxi évaluant les conditions de circulation en temps réel et recommandant l'itinéraire le plus efficace.
  • L'analyse des sentiments détermine le ton d'une ligne de texte. L'analyse des sentiments trouve de bonnes applications sur Twitter, les avis des clients et les réponses aux sondages :
    • Twitter : une façon d’évaluer les marques consiste à détecter le ton des tweets adressés à une personne ou à une entreprise. Des compagnies comme Crimson Hexagon et Nuvi offrent ce service en temps réel.
    • Avis des clients : Vous pouvez analyser le ton des avis des clients pour évaluer le rendement de votre entreprise. Ceci est particulièrement utile en l'absence d'un système de notation associé aux avis clients en texte libre.
    • Sondages : L’analyse des sentiments exprimés dans les réponses libres aux sondages permet d’évaluer en un coup d’œil le ressenti des répondants. Qualtrics a mis cela en œuvre dans ses enquêtes.
  • L'analyse de segmentation du marché utilise l'apprentissage automatique non supervisé pour regrouper les clients en fonction de leurs habitudes d'achat afin de déterminer différents types ou profils de clients. Cela vous permet de mieux connaître vos clients les plus précieux ou ceux qui sont mal desservis.
  • Il est facile d'appuyer sur Ctrl+F pour chercher des mots et des expressions exacts dans un document, mais si vous ne connaissez pas la formulation exacte que vous recherchez, la recherche dans les documents peut s'avérer difficile. L'apprentissage machine peut utiliser des techniques telles que les méthodes floues et la modélisation thématique, ce qui peut grandement faciliter ce processus en vous permettant de rechercher des documents sans connaître la formulation exacte que vous recherchez.

Le rôle de l'apprentissage machine ne fera que croître.

À mesure que les volumes de données augmentent, que la puissance de calcul augmente, que la bande passante Internet se développe et que les scientifiques des données perfectionnent leur expertise, l'apprentissage automatique ne fera que continuer à générer une efficacité toujours plus grande et plus profonde, au travail comme à la maison.

Face à la multiplication des cybermenaces auxquelles les entreprises sont confrontées aujourd'hui, l'apprentissage machine est nécessaire pour sécuriser les données précieuses et empêcher les pirates informatiques d'accéder aux réseaux internes. Notre logiciel phare de sécurité UEBA, ArcSight Intelligence, utilise l'apprentissage automatique pour détecter les anomalies pouvant indiquer des actions malveillantes. Elle a fait ses preuves en matière de détection des menaces internes, des attaques zero-day et même des attaques agressives de type « équipe rouge ».

Comment pouvons-nous vous aider?

Notes de bas de page