Page d'accueil d'OpenText.
Thèmes techniques

Qu'est-ce que l'apprentissage automatique ?

Illustration des éléments informatiques avec un point d'interrogation en point de mire

Présentation

L'apprentissage automatique est un sous-ensemble de l'intelligence artificielle qui vise à construire des systèmes capables d'apprendre à partir de données historiques, d'identifier des modèles et de prendre des décisions logiques avec peu ou pas d'intervention humaine. Il s'agit d'une méthode d'analyse des données qui automatise la construction de modèles analytiques en utilisant des données qui englobent diverses formes d'informations numériques, notamment des nombres, des mots, des clics et des images.

Les applications d'apprentissage automatique apprennent à partir des données d'entrée et améliorent continuellement la précision des résultats à l'aide de méthodes d'optimisation automatisées. La qualité d'un modèle d'apprentissage automatique dépend de deux aspects principaux :

  1. La qualité des données d'entrée. Une expression courante dans le développement d'algorithmes d'apprentissage automatique est "garbage in, garbage out". Cela signifie que si vous introduisez des données de mauvaise qualité ou désordonnées, le résultat de votre modèle sera largement inexact.
  2. Le choix du modèle lui-même. Dans le domaine de l'apprentissage automatique, il existe une pléthore d'algorithmes qu'un scientifique des données peut choisir, chacun ayant ses propres utilisations spécifiques. Il est essentiel de choisir l'algorithme approprié pour chaque cas d'utilisation. Les réseaux neuronaux sont un type d'algorithme qui fait l'objet d'un grand battage médiatique en raison de la grande précision et de la polyvalence qu'ils peuvent offrir. Cependant, pour de faibles quantités de données, le choix d'un modèle plus simple est souvent plus efficace.

Plus le modèle d'apprentissage automatique est performant, plus il est capable de trouver avec précision des caractéristiques et des modèles dans les données. Cela signifie que ses décisions et ses prévisions seront d'autant plus précises.

OpenText ArcSight Intelligence pour CrowdStrike

Une protection sans précédent combinant l'apprentissage automatique et la sécurité des points d'extrémité, ainsi qu'une chasse aux menaces de classe mondiale en tant que service.

En savoir plus

Machine learning

Pourquoi l'apprentissage automatique est-il important ?

Pourquoi utiliser l'apprentissage automatique ? L'apprentissage automatique gagne en importance en raison des volumes et de la variété de plus en plus importants de données, de l'accès à la puissance de calcul et de son coût, ainsi que de la disponibilité de l'internet à haut débit. Ces facteurs de transformation numérique permettent de développer rapidement et automatiquement des modèles capables d'analyser rapidement et avec précision des ensembles de données extraordinairement vastes et complexes.

L'apprentissage automatique peut être appliqué à une multitude de cas d'utilisation afin de réduire les coûts, d'atténuer les risques et d'améliorer la qualité de vie en général, notamment en recommandant des produits/services, en détectant les failles de cybersécurité et en permettant la conduite autonome des voitures. Avec un accès plus large aux données et à la puissance de calcul, l'apprentissage automatique devient chaque jour plus omniprésent et sera bientôt intégré dans de nombreuses facettes de la vie humaine.


Comment fonctionne l'apprentissage automatique ?

La création d'un modèle d'apprentissage automatique comporte quatre étapes clés.

  1. Choisir et préparer un ensemble de données d'entraînement

    Les données d'apprentissage sont des informations représentatives des données que l'application d'apprentissage automatique ingérera pour ajuster les paramètres du modèle. Les données d'apprentissage sont parfois étiquetées, c'est-à-dire qu'elles ont été marquées pour indiquer les classifications ou les valeurs attendues que le mode d'apprentissage automatique doit prédire. D'autres données d'apprentissage peuvent être non étiquetées, de sorte que le modèle devra extraire des caractéristiques et attribuer des groupes de manière autonome.

    Pour la labellisation, les données doivent être divisées en un sous-ensemble de formation et un sous-ensemble de test. La première sert à former le modèle et la seconde à évaluer l'efficacité du modèle et à trouver des moyens de l'améliorer.

  2. Sélectionner un algorithme à appliquer à l'ensemble des données d'apprentissage

    Le type d'algorithme d'apprentissage automatique que vous choisirez dépendra principalement de quelques aspects :

    • Si le cas d'utilisation est la prédiction d'une valeur ou la classification qui utilise des données d'apprentissage étiquetées ou si le cas d'utilisation est le regroupement ou la réduction de la dimensionnalité qui utilise des données d'apprentissage non étiquetées.
    • Quantité de données dans l'ensemble d'apprentissage
    • La nature du problème que le modèle cherche à résoudre

    Pour les cas d'utilisation de prédiction ou de classification, vous utiliserez généralement des algorithmes de régression tels que la régression des moindres carrés ordinaires ou la régression logistique. Avec des données non étiquetées, il est probable que vous utilisiez des algorithmes de regroupement tels que les k-moyennes ou le plus proche voisin. Certains algorithmes, comme les réseaux neuronaux, peuvent être configurés pour fonctionner à la fois avec les cas d'utilisation de regroupement et de prédiction.

  3. Entraîner l'algorithme à construire le modèle

    L'entraînement de l'algorithme consiste à ajuster les variables et les paramètres du modèle afin de prédire avec plus de précision les résultats appropriés. La formation de l'algorithme d'apprentissage automatique est généralement itérative et utilise une variété de méthodes d'optimisation en fonction du modèle choisi. Ces méthodes d'optimisation ne nécessitent pas d'intervention humaine, ce qui fait partie de la puissance de l'apprentissage automatique. La machine apprend à partir des données que vous lui fournissez, avec peu ou pas d'instructions spécifiques de la part de l'utilisateur.

  4. Utiliser et améliorer le modèle

    La dernière étape consiste à introduire de nouvelles données dans le modèle afin d'améliorer son efficacité et sa précision au fil du temps. L'origine des nouvelles informations dépend de la nature du problème à résoudre. Par exemple, un modèle d'apprentissage automatique pour les voitures auto-conduites ingérera des informations du monde réel sur l'état des routes, les objets et le code de la route.


Méthodes d'apprentissage automatique

Qu'est-ce que l'apprentissage automatique supervisé ?

Les algorithmes d'apprentissage automatique supervisé utilisent des données étiquetées comme données d'apprentissage où les sorties appropriées aux données d'entrée sont connues. L'algorithme d'apprentissage automatique reçoit un ensemble d'entrées et de sorties correctes correspondantes. L'algorithme compare ses propres sorties prédites avec les sorties correctes pour calculer la précision du modèle et optimise ensuite les paramètres du modèle pour améliorer la précision.

L'apprentissage automatique supervisé s'appuie sur des modèles pour prédire des valeurs sur des données non étiquetées. Il est le plus souvent utilisé dans le cadre de l'automatisation, sur de grandes quantités de données ou dans les cas où il y a trop d'entrées de données pour que les humains puissent les traiter efficacement. Par exemple, l'algorithme peut repérer les transactions par carte de crédit qui sont susceptibles d'être frauduleuses ou identifier le client de l'assurance qui déposera probablement une demande d'indemnisation.

Qu'est-ce que l'apprentissage automatique non supervisé ?

L'apprentissage automatique non supervisé s'applique le mieux aux données qui n'ont pas de réponse structurée ou objective. Il n'y a pas de prédétermination de la sortie correcte pour une entrée donnée. Au lieu de cela, l'algorithme doit comprendre les données d'entrée et prendre la décision appropriée. L'objectif est d'examiner les informations et d'en identifier la structure.

L'apprentissage automatique non supervisé fonctionne bien sur les informations transactionnelles. Par exemple, l'algorithme peut identifier des segments de clientèle qui possèdent des attributs similaires. Les clients de ces segments peuvent ensuite être ciblés par des campagnes de marketing similaires. Les techniques populaires utilisées dans l'apprentissage non supervisé comprennent la cartographie du plus proche voisin, les cartes auto-organisatrices, la décomposition de la valeur singulière et le regroupement par k-moyennes. Les algorithmes sont ensuite utilisés pour segmenter les sujets, identifier les valeurs aberrantes et recommander des articles.


Quelle est la différence entre l'apprentissage automatique supervisé et non supervisé ?

Aspect

Apprentissage supervisé

Apprentissage non supervisé

Processus

Les variables d'entrée et de sortie sont fournies au modèle de formation.

Seules les données d'entrée sont fournies pour former le modèle. Aucune donnée de sortie n'est utilisée.

Données d'entrée

Utilise des données étiquetées.

Utilise des données non étiquetées.

Algorithmes pris en charge

Il prend en charge les algorithmes de régression, les algorithmes basés sur les instances, les algorithmes de classification, les réseaux neuronaux et les arbres de décision.

Il prend en charge les algorithmes de regroupement, les algorithmes d'association et les réseaux neuronaux.

Complexité

Plus simple.

Plus complexe.

Subjectivité

Objectif.

Subjectif.

Nombre de classes

Le nombre de classes est connu.

Le nombre de classes est inconnu.

Principal inconvénient

La classification de données massives par apprentissage supervisé est difficile.

Le choix du nombre de grappes peut être subjectif.

Objectif principal

Entraîner le modèle à prédire les résultats lorsqu'il est soumis à de nouvelles entrées.

Trouver des informations utiles et des modèles cachés.


Que peut faire l'apprentissage automatique ? L'apprentissage automatique dans le monde réel

Si la fonctionnalité de l'apprentissage automatique existe depuis des décennies, c'est la capacité plus récente d'appliquer et de calculer automatiquement des calculs mathématiques complexes impliquant des données volumineuses qui lui a conféré une sophistication sans précédent. Le champ d'application de l'apprentissage automatique est aujourd'hui très vaste, allant de l' AIOps de l'entreprise à la vente au détail en ligne. Voici quelques exemples concrets de capacités d'apprentissage automatique :

  • La cybersécurité utilise l'analyse comportementale pour déterminer les événements suspects ou anormaux qui peuvent indiquer des menaces internes, des APT ou des attaques de type "zero-day".
  • Les projets de voitures auto-conduites, tels que Waymo (filiale d'Alphabet Inc.) et Autopilot de Tesla, qui se situent un peu en dessous des voitures auto-conduites proprement dites.
  • Les assistants numériques tels que Siri, Alexa et Google Assistant qui recherchent des informations sur le web en réponse à nos commandes vocales.
  • Recommandations adaptées à l'utilisateur et basées sur des algorithmes d'apprentissage automatique sur des sites web et des applications tels que Netflix, Amazon et YouTube.
  • Des solutions de détection des fraudes et de cyber-résilience qui regroupent des données provenant de plusieurs systèmes, détectent les clients présentant un comportement à haut risque et identifient les schémas d'activités suspectes. Ces solutions peuvent utiliser l'apprentissage automatique supervisé et non supervisé pour classer les transactions des organisations financières comme frauduleuses ou légitimes. C'est la raison pour laquelle un consommateur peut recevoir des textes de la société émettrice de sa carte de crédit vérifiant la légitimité d'un achat inhabituel effectué à l'aide des données financières du consommateur. L'apprentissage automatique a tellement progressé dans le domaine de la fraude que de nombreuses sociétés de cartes de crédit annoncent que les consommateurs ne sont pas tenus responsables si les algorithmes de l'organisme financier ne détectent pas les transactions frauduleuses.
  • La reconnaissance d'images a connu des avancées significatives et peut être utilisée de manière fiable pour la reconnaissance faciale, la lecture de l'écriture manuscrite sur les chèques déposés, la surveillance du trafic et le comptage du nombre de personnes dans une pièce.
  • Filtres anti-spam qui détectent et bloquent les courriers indésirables dans les boîtes de réception.
  • Les services publics qui analysent les données des capteurs pour trouver des moyens d'améliorer l'efficacité et de réduire les coûts.
  • Dispositifs médicaux portables qui saisissent en temps réel des données précieuses permettant d'évaluer en permanence l'état de santé des patients.
  • Les applications de taxi évaluent les conditions de circulation en temps réel et recommandent l'itinéraire le plus efficace.
  • L'analyse des sentiments détermine le ton d'une ligne de texte. Twitter, les commentaires des clients et les réponses aux enquêtes sont de bonnes applications de l'analyse des sentiments :
    • Twitter : une façon d'évaluer les marques est de détecter le ton des tweets dirigés vers une personne ou une entreprise. Des sociétés telles que Crimson Hexagon et Nuvi fournissent ces informations en temps réel.
    • Les commentaires des clients : Vous pouvez détecter le ton des commentaires des clients pour évaluer la performance de votre entreprise. Ceci est particulièrement utile s'il n'y a pas de système d'évaluation associé à des commentaires de clients en texte libre.
    • Enquêtes : L'utilisation de l'analyse des sentiments sur des réponses à des enquêtes en texte libre peut vous permettre d'évaluer d'un coup d'œil les sentiments des personnes interrogées. Qualtrics a mis en place ce système pour ses enquêtes.
  • L'analyse de la segmentation du marché utilise l'apprentissage automatique non supervisé pour regrouper les clients en fonction de leurs habitudes d'achat afin de déterminer différents types ou personas de clients. Cela vous permet de mieux connaître vos clients les plus précieux ou les moins bien servis.
  • Il est facile d'appuyer sur ctrl+F pour rechercher des mots et des phrases exacts dans un document, mais si vous ne connaissez pas la formulation exacte que vous recherchez, il peut être difficile d'effectuer une recherche dans les documents. L'apprentissage automatique peut utiliser des techniques telles que les méthodes floues et la modélisation des sujets pour faciliter ce processus en vous permettant de rechercher des documents sans connaître la formulation exacte que vous recherchez.

Le rôle de l'apprentissage automatique ne cessera de croître

À mesure que les volumes de données augmentent, que la puissance de calcul s'accroît, que la bande passante de l'internet s'élargit et que les scientifiques des données améliorent leur expertise, l'apprentissage automatique continuera à favoriser une efficacité accrue et plus profonde au travail et à la maison.

Face à l'augmentation constante des cybermenaces auxquelles les entreprises sont confrontées aujourd'hui, l'apprentissage automatique est nécessaire pour sécuriser les données précieuses et empêcher les pirates de pénétrer dans les réseaux internes. Notre premier logiciel SecOps UEBA, ArcSight Intelligence, utilise l'apprentissage automatique pour détecter les anomalies susceptibles d'indiquer des actions malveillantes. Il a fait ses preuves en matière de détection des menaces internes, des attaques de type "zero-day" et même des attaques agressives de type "red team".

Comment pouvons-nous vous aider ?

Notes de bas de page