Page d'accueil d'OpenText.
Sujets techniques

Qu'est-ce que l'observabilité dans les opérations informatiques ?

Illustration de matériel informatique, avec un ordinateur portable en particulier.

Aperçu

Découvrez comment utiliser l'observabilité pilotée par OpenTelemetry pour accéder à des informations modernes.

L'observabilité des systèmes d'entreprise est assurée lorsque les opérateurs, les développeurs et les ingénieurs en fiabilité des systèmes (SRE) peuvent rapidement comprendre et réagir aux changements de performance du système informatique. S'appuyant sur une compréhension approfondie des communications entre les applications et les microservices, il permet aux ingénieurs et aux administrateurs de détecter immédiatement les défauts et les ralentissements sans avoir recours aux salles de crise coûteuses et gourmandes en main-d'œuvre qui affectent les grandes organisations. Le gain de vitesse est particulièrement utile lorsque des applications complexes s'étendent sur des nuages publics, des centres de données propriétaires et des processeurs tiers, ce qui rend plus difficile l'identification de la cause première des dégradations de service.

L'observabilité avancée diffère de la surveillance traditionnelle par un point essentiel : elle ne se contente pas de collecter les données métriques courantes en matière de surveillance, mais capture également le flux et le minutage des transactions, en les associant à des événements et des journaux corrélés afin de fournir des informations exploitables. Ces informations permettent de mieux comprendre le comportement du système/de l'application et aident à identifier des problèmes qui seraient autrement difficiles à détecter.

L'observabilité n'est pas un terme nouveau. Apparue en 1960 en lien avec la théorie du contrôle, l'observabilité s'est désormais étendue à d'autres disciplines, notamment l'informatique. En raison de la complexité du nuage hybride, le terme « observabilité du nuage » est également devenu populaire.

Observabilité

Quelle est la différence entre la surveillance et l'observabilité ?

L'observabilité est souvent confondue avec la surveillance, mais les deux sont bien différentes.

La surveillance consiste à observer la performance d'un système au fil du temps. Les outils de surveillance recueillent généralement les données de performance à partir de sources spécifiques, comme les fichiers journaux ou les compteurs de performance. Par exemple, la surveillance peut vous indiquer le nombre d'utilisateurs connectés au système, mais elle ne vous avertit pas de manière proactive lorsque vous atteignez une limite de capacité. La surveillance est une approche réactive qui nécessite de savoir à l'avance ce qu'il est important de surveiller. Une de ses limites est qu'elle se concentre sur la collecte de données à un moment précis.

L'observabilité remplit une fonction plus large que la simple surveillance. Les outils d'observabilité recueillent des données de toutes les sources disponibles, comme les journaux, les compteurs de rendement et le code de l'application. Ils analysent ensuite ces données pour mieux comprendre le fonctionnement interne d'un système et son comportement. Ces données peuvent être utilisées pour détecter les problèmes avant qu'ils ne surviennent, en identifiant les tendances et en fournissant des informations sur la manière d'améliorer le système.

L'observabilité résulte d'une surveillance étendue et d'une analyse au niveau des transactions, tout comme la vue résulte du fonctionnement de vos yeux et du traitement visuel de votre cerveau. Les solutions d'observabilité OpenText ™, associées à la plateforme OpenText AIOps, peuvent fournir à la fois les informations d'observabilité et les capacités étendues de gestion des événements, des systèmes et de correction nécessaires au maintien de services informatiques complexes.


Quels sont les types de données qui sont importants pour l'observabilité ?

Il existe deux écoles de pensée concernant les solutions d'observabilité :

  1. FONDRE. Cet acronyme identifie les types de données recueillies dans le cadre de l'observabilité.
    • Métriques : Il s’agit d’une surveillance classique — des mesures d’activités au fil du temps, allant des temps de réponse du réseau en microsecondes aux transactions synthétiques complètes.
    • Événements : Les événements générés par le système qui se produisent pendant la période de mesure.
    • Journaux : Données non structurées fournissant des renseignements sur les activités du système.
    • Tracésde requêtes : représentation visuelle enregistrée de l’intégralité du parcours d’une requête à travers les nœuds d’un système distribué, fournissant une analyse temporelle avec un contexte sur la connexion entre les services.
  2. Signaux dorés. Popularisés par Google dans le cadre de son manuel SRE, les signaux d'or représentent une approche de résolution de problèmes davantage axée sur la performance.
    • Latence : le temps nécessaire à votre application pour traiter une requête.
    • Trafic : Le nombre de requêtes que votre système reçoit.
    • Erreurs : Le taux de requêtes qui échouent.
    • Saturation : L'état de la capacité de votre service.

Notez que les données recueillies présentent des similitudes importantes, mais qu'elles sont décrites différemment selon le contexte (type vs performance). Que vous utilisiez MELT ou des signaux d'or, l'essentiel est de se concentrer sur les résultats anormaux pour détecter les problèmes et identifier où ils se produisent. Dans la section suivante, intitulée « Comment OpenTelemetry contribue-t-il à l'observabilité ? », vous pourrez en apprendre davantage sur la manière dont OpenTelemetry utilise ces données pour offrir une observabilité exceptionnelle.


Comment OpenTelemetry contribue-t-il à l'observabilité ?

OpenTelemetry est un projet open source géré par la Cloud Native Computing Foundation. Il fournit un protocole d'instrumentation indépendant des fournisseurs pour la collecte de données de télémétrie, notamment les métriques, les traces et les journaux. Le protocole fonctionne avec tous les langages de programmation et toutes les plateformes, vous permettant d'analyser toutes les données dans une vue unique. Cette approche standardisée simplifie l'instrumentation tout en définissant et en corrélant les données de télémétrie. Le principal avantage d'OpenTelemetry est sa portabilité, qui permet aux développeurs et aux équipes informatiques centrales de sélectionner les outils les mieux adaptés à leurs rôles.


Observabilité et opérations informatiques

Les équipes d'exploitation informatique surveillent généralement leurs centres de données afin de maintenir la disponibilité et la performance des services. Lorsque des problèmes non liés à des défaillances matérielles ou logicielles surviennent, le service des opérations informatiques ouvre des tickets pour que les développeurs puissent rechercher les problèmes sous-jacents à l'aide d'outils d'observabilité. Les développeurs effectuent souvent des requêtes complexes dans Promotheus, créant des flux de données pour l'analyse et accédant aux journaux pour enquêter sur les défaillances.

Avec l'avènement d'OpenTelemetry, les équipes d'exploitation informatique peuvent simplifier la collecte et l'analyse des données grâce à des traces incluant des métriques et des journaux corrélés. Les capacités de corrélation du protocole OpenTelemetry éliminent la nécessité pour les opérateurs d'utiliser des langages de programmation complexes comme PromQL ou d'effectuer des requêtes de journalisation pour initier et comprendre les données d'observabilité.

Ils peuvent par contre accéder à des données corrélées en toute simplicité, d'un simple clic. Même si les opérateurs ne peuvent pas suggérer de mises à jour de code, ils peuvent identifier les goulots d'étranglement en matière de performances et acheminer les tickets directement vers la partie responsable, qu'il s'agisse d'un développeur interne ou d'un fournisseur tiers rencontrant des ralentissements dans son application.


Quels sont les avantages de l'observabilité ?

Les organisations peuvent bénéficier d'une visibilité informatique complète grâce à ces avantages clés :

  • Amélioration de la qualité : plus vous observez, plus vous pouvez identifier les problèmes critiques, ce qui permet d'offrir de meilleurs produits répondant aux attentes des parties prenantes et des clients.
  • Amélioration de l'efficacité : grâce à l'observabilité, les entreprises peuvent rapidement déboguer leurs systèmes et logiciels.
  • Réduction des coûts : les périodes de débogage prolongées coûtent beaucoup de temps et d’argent, coûts que l’observabilité peut réduire à long terme.
  • Délai de mise en marché plus court : grâce à l’observabilité, vous pouvez fournir des services informatiques tels que de nouvelles applications ou des applications mises à jour dans les délais impartis.
  • Surveillance du rendement des applications : une observabilité complète permet aux organisations de diagnostiquer immédiatement les problèmes logiciels critiques et d’améliorer les indicateurs de performance.
  • Analyses commerciales utiles : L’observabilité étant un processus gourmand en données, vous pouvez en apprendre davantage sur les indicateurs clés de performance (KPI), tels que le rendement du capital investi (RCI) et vos résultats financiers.
  • Expérience utilisateur exceptionnelle : détecter les problèmes avant qu’ils ne deviennent problématiques permet d’offrir une expérience utilisateur exceptionnelle, ce qui peut améliorer la réputation et la rentabilité d’une organisation.
  • Surveillance de l'infrastructure, du cloud et de Kubernetes : l'observabilité peut aider à détecter les problèmes logiciels au sein des équipes d'infrastructure et d'exploitation (I&O), des environnements Kubernetes et du cloud. Il en résulte une meilleure couverture de tous les composants nécessaires au succès d'une application.
  • Amélioration de l'analyse des causes profondes : la combinaison de métriques, de journaux et de traces permet une analyse des causes profondes plus rapide et plus précise. Les équipes peuvent rapidement corréler les données provenant de différents systèmes et services afin d'identifier la source des problèmes.
  • Collaboration accrue : l’observabilité permet une compréhension partagée du comportement du système entre les équipes de développement, d’exploitation et commerciales. Ce terrain d'entente améliore la communication et accélère la résolution des problèmes.
  • Résolution prédictive des problèmes : grâce à des données d’observabilité complètes et à des analyses avancées, les organisations peuvent identifier les problèmes potentiels avant qu’ils n’affectent les utilisateurs. Cette approche proactive réduit les temps d'arrêt et améliore la fiabilité du service.
  • Gestion de l'évolutivité : l'observabilité fournit des informations cruciales pour la gestion de l'évolutivité du système, aidant les organisations à optimiser leurs ressources et à planifier efficacement leur croissance.

Lorsqu'elle est correctement mise en œuvre, l'observabilité peut être un outil puissant pour obtenir une visibilité complète sur le système d'information, ce qui se traduit par des impacts positifs sur la qualité du rendement informatique, l'efficacité, le délai de mise en marché et la rentabilité d'une organisation.


Comment l'AIOps fonctionne-t-elle avec l'observabilité ?

L'AIOps améliore l'observabilité en traduisant les informations en actions. Par exemple, alors que l'observabilité aide les développeurs à comprendre comment des segments de code spécifiques affectent le comportement de l'application, l'AIOps permet aux équipes d'exploitation de réagir automatiquement aux pannes et aux ralentissements avec un minimum d'efforts. Ensemble, ces outils offrent aux équipes une visibilité maximale et une compréhension approfondie des problèmes et de leurs impacts.

Cette combinaison est essentielle au bon fonctionnement des opérations, surtout si vous avez des équipes multidisciplinaires et un environnement informatique hautement distribué. L'AIOP associée à l'observabilité améliore les opérations informatiques quotidiennes critiques, notamment :

  • Débogage précis : utilisez les données provenant d’événements, de métriques, de journaux, de traces et d’autres sources disponibles pour identifier et résoudre rapidement les problèmes.
  • Détection proactive : Détectez les problèmes avant qu’ils ne causent des difficultés en utilisant des tendances visuelles et algorithmiques pour identifier les problèmes potentiels.
  • Entretien rentable : Donnez aux gestionnaires d’applications et aux équipes informatiques centrales la possibilité de surveiller les systèmes à l’échelle de l’entreprise pour obtenir une vue d’ensemble des pannes et des performances des logiciels et du matériel sans avoir recours à des ressources coûteuses de développement ou d’ingénierie SRE.
  • Amélioration de l'efficacité : obtenez des renseignements précieux sur la façon d'améliorer un système et apportez les modifications nécessaires.
  • Couverture plus large de plusieurs architectures infonuagiques natives : utiliser un outil tiers pour obtenir une vue d’ensemble de plusieurs architectures cloud-native plutôt que de s’appuyer sur les outils de performance des fournisseurs de cloud public.
  • Accélération des opérations informatiques basée sur GenAI : permet aux opérateurs expérimentés comme aux nouveaux venus de comprendre et de corriger rapidement les problèmes détectés grâce à des suggestions de remédiation basées sur les événements et à une interrogation intelligente de la documentation basée sur GenAI.
  • Remédiation intégrée : Fournir une remédiation automatisée ou mise en œuvre par l’utilisateur grâce à une plateforme AIOps robuste afin d’assurer des opérations efficaces et efficientes.

L'AIOps et l'observabilité ont de nombreuses applications, allant de l'optimisation des transactions Web à la garantie que les performances informatiques répondent aux attentes des clients. Voici un cas d'utilisation qui met en évidence leur valeur :

Imaginons que vous soyez un développeur essayant d'identifier la cause d'un plantage système. Avec un système de surveillance, il faudrait s'assurer que tous les systèmes concernés ont été surveillés, recueillir manuellement les données qu'ils contiennent, puis essayer de reconstituer le déroulement des événements. Ce processus serait difficile et long parce que vos données seraient postérieures à l'accident.

Grâce à l'AIOps et à l'observabilité, vous avez un accès automatique aux données provenant de toutes les sources disponibles, y compris les métriques corrélées, les journaux et les traces. Vous avez également accès aux recommandations de correction de GenAI issues de la documentation publique et privée, ainsi qu'à la correction automatisée. Plus important encore, vous bénéficiez de l'aide d'outils analytiques pour détecter les anomalies qui pourraient vous indiquer le problème avant qu'il ne cause une panne du système.


Outils et coûts d'observabilité

Le coût est un inconvénient majeur des outils d'observabilité. Une enquête récente a révélé que la quasi-totalité des répondants (98 %) ont connu des dépassements ou des pics de coûts inattendus au moins quelques fois par année, 51 % d’entre eux constatant des dépassements ou des pics de dépenses inattendus au moins mensuellement.

Ces pics sont principalement dus aux coûts d'ingestion facturés par les fournisseurs d'outils d'observabilité capables d'extraire de vastes quantités de données relatives aux transactions applicatives. Ces coûts ont deux conséquences :

  1. Un ensemble incomplet d'applications utilisant l'observabilité (seulement celles jugées essentielles au fonctionnement de l'entreprise).
  2. Aucune extension des outils d'observabilité au-delà des SRE et des développeurs.

Dans les deux cas, l'arrivée d'OpenTelemetry et les tarifs plus avantageux proposés par des fournisseurs comme OpenText permettent d'étendre la surveillance à tous les services informatiques et de permettre aux équipes d'exploitation informatique d'accéder aux outils.


Quelles sont les meilleures pratiques en matière d'observabilité ?

Pour maximiser la valeur de l'observabilité au sein de votre organisation, tenez compte de ces bonnes pratiques essentielles :

Commencez par établir des objectifs clairs.

  • Définissez des objectifs spécifiques pour votre mise en œuvre de l'observabilité.
  • Identifier les systèmes et services critiques qui nécessitent une surveillance détaillée.
  • Établir des indicateurs de référence pour le comportement normal du système.

Définir des indicateurs pertinents

  • Concentrez-vous sur les indicateurs qui ont une incidence directe sur les résultats de l'entreprise.
  • Implémentez la méthode USE (Utilisation, Saturation, Erreurs).
  • Créez des indicateurs personnalisés pour les processus propres à l'entreprise.

Mettre en place une instrumentation appropriée

  • Mettre en œuvre une instrumentation automatisée lorsque c'est possible.
  • Assurer un étiquetage et un marquage cohérents dans tous les systèmes.
  • Trouver le juste équilibre entre la granularité des données et les coûts de stockage et de performance.

Créer des tableaux de bord efficaces

  • Concevez des tableaux de bord qui présentent clairement l'état du système.
  • Inclure à la fois des aperçus généraux et des fonctionnalités d'exploration détaillée.
  • Personnalisez les points de vue en fonction des besoins des différentes parties prenantes.

Solutions d'observabilité OpenText

OpenText offre des solutions d'observabilité complètes, conçues pour répondre aux besoins complexes des environnements informatiques modernes. Notre approche intégrée assure une visibilité complète sur l'ensemble de votre parc informatique :

Observabilité du cloud : les solutions d’observabilité du cloud d’OpenText offrent une visibilité approfondie sur les applications et l’infrastructure natives du cloud, et ce, sur plusieurs fournisseurs de cloud. Ces solutions permettent aux organisations de surveiller l'utilisation, les coûts et les performances des ressources infonuagiques tout en assurant une prestation de services optimale. Les équipes peuvent rapidement identifier et résoudre les problèmes propres aux environnements infonuagiques, comme les services mal configurés ou les contraintes de ressources.

Observabilité de l’application Nos fonctionnalités d'observabilité des applications fournissent des renseignements détaillés sur les performances des applications, l'expérience utilisateur et les transactions commerciales. Cette solution aide les équipes de développement et d'exploitation à comprendre le comportement des applications, à suivre les parcours des utilisateurs et à optimiser les performances des applications. Il comprend des fonctionnalités de surveillance en temps réel, de diagnostic au niveau du code et d'analyse de l'expérience utilisateur.
Quelles sont les dernières nouvelles en matière d'observabilité des applications OpenText ?

observabilité de l'infrastructure La solution d'observabilité de l'infrastructure d'OpenText assure une surveillance et une analyse complètes de l'ensemble de votre infrastructure informatique, y compris les serveurs, le stockage et les environnements virtualisés. Cette solution permet aux équipes de suivre l'utilisation des ressources, les tendances de capacité et l'état de l'infrastructure dans les environnements hybrides, garantissant ainsi des performances optimales et une allocation optimale des ressources.
Quelles sont les dernières nouvelles en matière d'observabilité de l'infrastructure OpenText ?

Observabilité du réseau Nos solutions d'observabilité réseau offrent une visibilité de bout en bout sur les performances du réseau, les tendances du trafic et les problèmes de connectivité. Il aide les organisations à maintenir des performances réseau optimales, à identifier les menaces potentielles à la sécurité et à assurer une prestation de services fiable. La solution comprend des analyses avancées pour le dépannage du réseau, la planification de la capacité et l'optimisation des performances.


En résumé, l'observabilité : une meilleure visibilité sur votre infrastructure informatique.

L'observabilité est un élément important pour comprendre l'état global de votre infrastructure. L'afflux d'outils mis en œuvre avec de bonnes intentions a semé le chaos dans votre parc informatique, rendant vos systèmes plus complexes que jamais.

Cette complexité nuit considérablement au dépannage et à la gestion du système. Plus d'outils créent plus de problèmes, surtout lorsque les outils fréquemment utilisés cessent de fonctionner, ce qui rend les problèmes encore plus difficiles à trouver et à résoudre.

Les outils d'observabilité efficaces offrent une approche de remédiation proactive permettant de détecter plus rapidement les problèmes.

Produits connexes

OpenText AI Operations Management

Renforcez la fiabilité de votre entreprise avec des AIOps complètes sur les nuages.

OpenText Core Application Observability

Surveillez et gérez les applications de manière rentable avec OpenTelemetry.

OpenText Core Infrastructure Observability

Améliorez les performances de votre infrastructure sur le nuage et sur site.

OpenText Network Operations Management

Optimisez votre réseau en évolution

OpenText Core Cloud Network Observability

Comblez l'écart d'observabilité entre les réseaux infonuagiques et les réseaux hors nuage.

Comment pouvons-nous vous aider?

Notes de bas de page