Page d'accueil d'OpenText.
Thèmes techniques

Qu'est-ce que l'observabilité dans les opérations informatiques ?

Illustration d'articles informatiques avec un ordinateur portable en point de mire

Présentation

Découvrez comment vous pouvez utiliser l'observabilité pilotée par OpenTelemetry pour obtenir des informations modernes.

L'observabilité des systèmes d'entreprise est assurée lorsque les opérateurs, les développeurs et les ingénieurs de fiabilité des systèmes (SRE) peuvent comprendre et réagir rapidement aux changements de performance des systèmes informatiques. S'appuyant sur une compréhension approfondie des communications entre les applications et les microservices, il permet aux ingénieurs et aux administrateurs de trouver immédiatement les défauts et les ralentissements sans avoir recours aux salles de crise coûteuses et gourmandes en main-d'œuvre qui affligent les grandes organisations. La vitesse que vous gagnez est particulièrement utile lorsque des applications complexes s'étendent sur des nuages publics, des centres de données propres et des processeurs tiers, ce qui rend plus difficile l'identification de la cause première des dégradations de service.

L'observabilité avancée diffère de la surveillance traditionnelle sur un point essentiel : L'observabilité avancée ne se contente pas de recueillir les données métriques courantes dans le cadre de la surveillance, mais capture également le flux et la chronologie des transactions, en les associant à des événements corrélés et à des journaux afin de fournir des informations exploitables. Ces informations permettent de mieux comprendre le comportement du système et de l'application et d'identifier des problèmes qui seraient autrement difficiles à détecter.

L'observabilité n'est pas un terme nouveau. Créée en 1960 dans le cadre de la théorie du contrôle, l'observabilité s'est maintenant étendue à d'autres disciplines, y compris les technologies de l'information. En raison de la complexité du nuage hybride, le terme "observabilité du nuage" est également devenu populaire.

Observabilité

Quelle est la différence entre le suivi et l'observabilité ?

L'observabilité est souvent confondue avec le contrôle, mais les deux sont très différents.

La surveillance consiste à observer les performances d'un système au fil du temps. Les outils de surveillance collectent généralement des données sur les performances à partir de sources spécifiques, telles que des fichiers journaux ou des compteurs de performances. Par exemple, la surveillance peut vous indiquer le nombre d'utilisateurs sur le système, mais elle ne vous indique pas de manière proactive lorsque vous atteignez une limite de capacité. La surveillance est une approche réactive qui exige que vous sachiez à l'avance ce qu'il est important de surveiller. L'une de ses limites est qu'il se concentre sur la collecte de données à un moment précis.

L'observabilité a une fonction plus large que le contrôle. Les outils d'observabilité collectent des données à partir de toutes les sources disponibles, telles que les journaux, les compteurs de performance et le code de l'application. Ils analysent ensuite ces données afin d'obtenir une visibilité sur les rouages d'un système et de comprendre son comportement. Ces données peuvent être utilisées pour détecter les problèmes avant qu'ils ne surviennent, en identifiant les tendances et en fournissant des indications sur la manière dont le système peut être amélioré.

L'observabilité est le résultat d'un large suivi et d'une analyse au niveau des transactions, tout comme la vue est le résultat de vos yeux et du traitement visuel de votre cerveau. Les solutions d'observabilité OpenText™, associées à la plateforme OpenText AIOps, peuvent fournir à la fois des informations d'observabilité et des capacités étendues de gestion des événements, des systèmes et de remédiation nécessaires à la maintenance de services informatiques complexes.


Quels sont les types de données importants pour l'observabilité ?

Il existe deux écoles de pensée pour les solutions d'observabilité :

  1. FONDRE. Cet acronyme identifie les types de données collectées dans le cadre de l'observabilité.
    • Mesures: Il s'agit d'un suivi classique : mesures des activités dans le temps, depuis les temps de réponse des réseaux à la microseconde jusqu'aux transactions synthétiques complètes.
    • Événements: Les événements générés par le système survenant pendant la période de mesure.
    • Journaux: Données non structurées qui fournissent des informations sur les activités du système.
    • Traces: Représentation visuelle enregistrée de l'ensemble du parcours d'une demande au fur et à mesure qu'elle se déplace à travers les nœuds d'un système distribué, fournissant une ventilation temporelle avec le contexte de la connexion entre les services.
  2. Signaux d'or. Popularisés par Google dans le cadre de son manuel SRE, les signaux d'or représentent une approche de la résolution des problèmes davantage axée sur les performances.
    • Latence : Le temps nécessaire à votre application pour répondre à une demande.
    • Trafic : Le nombre de requêtes que votre système reçoit.
    • Erreurs : Le taux de demandes qui échouent.
    • Saturation : L'état de la capacité au sein de votre service.

Il convient de noter que les données collectées présentent des similitudes importantes, mais qu'elles sont décrites différemment en fonction du contexte (type ou performance). Que vous utilisiez MELT ou des signaux dorés, l'essentiel est de se concentrer sur les résultats anormaux afin de détecter les problèmes et d'identifier leur origine. Dans la section suivante, intitulée Comment OpenTelemetry aide à l'observabilité, vous pouvez en savoir plus sur la façon dont OpenTelemetry utilise ces données pour fournir une observabilité extraordinaire.


Comment OpenTelemetry contribue-t-il à l'observabilité ?

OpenTelemetry est un projet ouvert géré par la Cloud Native Computing Foundation. Il fournit un protocole d'instrumentation neutre pour la collecte de données de télémétrie, y compris des mesures, des traces et des journaux. Le protocole fonctionne avec tous les langages de programmation et toutes les plateformes, ce qui vous permet d'analyser toutes les données en une seule fois. Cette approche normalisée permet de rationaliser l'instrumentation tout en définissant et en corrélant les données télémétriques. Le principal avantage d'OpenTelemetry est sa portabilité, qui permet aux développeurs et aux services informatiques centraux de choisir les ensembles d'outils les mieux adaptés à leur rôle.


Observabilité et opérations informatiques

Les opérations informatiques surveillent généralement leurs centres de données afin de maintenir la disponibilité et la performance des services. Lorsque des problèmes non liés à des défaillances matérielles ou logicielles surviennent, les opérations informatiques ouvrent des tickets pour que les développeurs recherchent les problèmes sous-jacents à l'aide d'outils d'observabilité. Les développeurs effectuent souvent des requêtes complexes dans Promotheus, créant des flux de données pour l'analyse et accédant aux journaux pour enquêter sur les défaillances.

Avec l'arrivée d'OpenTelemetry, les équipes d'exploitation informatique peuvent simplifier la collecte et l'analyse des données grâce à des traces qui incluent des métriques et des journaux corrélés. Grâce aux capacités de corrélation du protocole OpenTelemetry, les opérateurs n'ont plus besoin d'utiliser des langages de programmation complexes tels que PromQL ou d'effectuer des recherches dans les journaux pour obtenir et comprendre les données d'observabilité.

Au lieu de cela, ils peuvent accéder à des données corrélées par simple pointer-cliquer. Bien que les opérateurs ne puissent pas suggérer de mises à jour du code, ils peuvent identifier les goulets d'étranglement en matière de performances et acheminer les tickets directement à la partie responsable, qu'il s'agisse d'un développeur interne ou d'un fournisseur tiers rencontrant des ralentissements dans son application.


Quels sont les avantages de l'observabilité ?

Les organisations peuvent bénéficier d'une observabilité complète de l'informatique grâce à ces avantages clés :

  • Amélioration de la qualité : Plus vous observez, plus vous pouvez trouver de problèmes critiques, ce qui permet d'obtenir de meilleurs produits qui répondent aux attentes des parties prenantes et des clients.
  • Efficacité accrue : Grâce à l'observabilité, les entreprises peuvent déboguer rapidement les systèmes et les logiciels.
  • Réduction des coûts : Les périodes de débogage prolongées coûtent beaucoup de temps et d'argent, ce que l'observabilité peut réduire à long terme.
  • Délai de mise sur le marché plus court : Grâce à l'observabilité, vous pouvez fournir des services informatiques tels que des applications nouvelles ou mises à jour dans les délais impartis.
  • Surveillance des performances des applications : L'observabilité complète permet aux organisations de diagnostiquer immédiatement les problèmes logiciels critiques et d'améliorer les mesures de performance.
  • Des analyses commerciales utiles : L'observabilité étant un processus riche en données, vous pouvez en apprendre davantage sur les indicateurs clés de performance (ICP), tels que le retour sur investissement (RSI) et votre résultat net.
  • Une expérience utilisateur exceptionnelle : La détection des problèmes avant qu'ils ne deviennent problématiques permet d'offrir une expérience utilisateur exceptionnelle, ce qui peut améliorer la réputation et la rentabilité d'une organisation.
  • Surveillance de l'infrastructure, du cloud et de Kubernetes : L'observabilité peut aider à détecter les problèmes logiciels au sein des équipes d'infrastructure et d'exploitation (I&O), des environnements Kubernetes et du cloud. Il en résulte une meilleure couverture de tous les éléments qui font la réussite d'une application.
  • Amélioration de l'analyse des causes profondes : La combinaison des mesures, des journaux et des traces permet une analyse plus rapide et plus précise des causes profondes. Les équipes peuvent rapidement corréler les données entre les différents systèmes et services afin d'identifier la source des problèmes.
  • Amélioration de la collaboration : L'observabilité permet de partager la compréhension du comportement du système entre les équipes de développement, d'exploitation et de gestion. Ce terrain d'entente améliore la communication et accélère la résolution des problèmes.
  • Résolution prédictive des problèmes : Grâce à des données d'observabilité complètes et à des analyses avancées, les entreprises peuvent identifier les problèmes potentiels avant qu'ils n'affectent les utilisateurs. Cette approche proactive permet de réduire les temps d'arrêt et d'améliorer la fiabilité des services.
  • Gestion de l'évolutivité : L'observabilité fournit des informations cruciales pour la gestion de l'évolutivité des systèmes, aidant ainsi les organisations à optimiser leurs ressources et à planifier efficacement leur croissance.

Lorsqu'elle est correctement mise en œuvre, l'observabilité peut être un outil puissant pour obtenir une visibilité complète de l'informatique, ce qui se traduit par des impacts positifs sur la qualité, l'efficacité, les délais de commercialisation et la rentabilité de l'informatique d'une organisation.


Comment l'AIOps fonctionne-t-il avec l'observabilité ?

L'AIOps améliore l'observabilité en traduisant les idées en actions. Par exemple, alors que l'observabilité aide les développeurs à comprendre comment des segments de code spécifiques affectent le comportement de l'application, l'AIOps permet aux équipes d'exploitation de répondre automatiquement aux pannes et aux ralentissements avec un minimum d'effort. Ensemble, ces outils offrent aux équipes une visibilité maximale et une compréhension approfondie des problèmes et de leur impact.

Cette combinaison est essentielle au bon déroulement des opérations, en particulier si vous disposez d'équipes interfonctionnelles et d'un environnement informatique hautement distribué. Les AIOP et l'observabilité améliorent les opérations informatiques quotidiennes essentielles, notamment

  • Débogage précis : Utilisez les données provenant d'événements, de mesures, de journaux, de traces et d'autres sources disponibles pour identifier et résoudre rapidement les problèmes.
  • Détection proactive : Détecter les problèmes avant qu'ils ne surviennent en utilisant des tendances visuelles et algorithmiques pour identifier les problèmes potentiels.
  • Maintenance rentable : Donnez aux propriétaires d'applications et aux équipes informatiques centrales la possibilité de surveiller les systèmes dans l'ensemble de l'entreprise afin d'obtenir des informations détaillées sur les défaillances et les performances des logiciels et du matériel, sans avoir recours à des développeurs ou à des ressources SRE onéreuses.
  • Amélioration de l'efficacité : Découvrez comment vous pouvez améliorer un système et apportez des changements en conséquence.
  • Couverture plus large de plusieurs architectures natives de l'informatique en nuage : Utilisez un outil tiers pour obtenir une vision holistique de plusieurs architectures natives du nuage plutôt que de vous fier aux outils de performance des fournisseurs de nuages publics.
  • Accélération des opérations informatiques basée sur la GenAI : Permettre aux opérateurs expérimentés et novices de comprendre et de résoudre rapidement les problèmes détectés grâce à des suggestions de remédiation basées sur les événements et à une interrogation intelligente de la documentation basée sur la GenAI.
  • Remédiation intégrée : Fournir une remédiation automatisée ou mise en œuvre par l'utilisateur avec une plateforme AIOps solide pour conduire des opérations efficaces et efficientes.

Les AIOps et l'observabilité ont des applications de grande envergure, allant de l'optimisation des transactions web à la garantie que les performances informatiques répondent aux attentes des clients. Voici un cas d'utilisation qui met en évidence leur valeur :

Supposons que vous soyez un développeur qui tente d'identifier la cause d'une panne du système. Dans le cas de la surveillance, il faut s'assurer que tous les systèmes concernés ont été surveillés, collecter manuellement les données et essayer ensuite de reconstituer ce qui s'est passé. Ce processus serait difficile et prendrait du temps car vos données seraient postérieures à l'accident.

Grâce à l'AIOps et à l'observabilité, vous disposez d'un accès automatique aux données provenant de toutes les sources disponibles, y compris les mesures corrélées, les journaux et les traces. Vous avez également accès aux recommandations de remédiation de GenAI à partir de la documentation publique et privée et de la remédiation automatisée. Plus important encore, vous disposez de l'aide de l'analyse pour trouver les anomalies qui pourraient vous indiquer le problème avant qu'il n'entraîne l'effondrement du système.


Outils et coûts d'observabilité

Le coût est un inconvénient majeur des outils d'observabilité. Une enquête récente a révélé que la quasi-totalité des personnes interrogées (98%) ont été confrontées à des dépassements ou à des hausses inattendues de coûts au moins quelques fois par an, et 51% ont constaté des dépassements ou des hausses inattendues de dépenses au moins une fois par mois.

Ces pics sont principalement dus aux coûts d'ingestion facturés par les fournisseurs d'outils d'observabilité qui peuvent extraire de grandes quantités de données liées aux transactions des applications. Ces coûts ont deux conséquences :

  1. Un ensemble incomplet d'applications qui utilisent l'observabilité (seulement celles qui sont jugées critiques pour le fonctionnement de l'entreprise).
  2. Pas d'extension des outils d'observabilité au-delà des SRE et des développeurs.

Dans les deux cas, l'avènement d'OpenTelemetry et la tarification plus avantageuse proposée par des fournisseurs tels qu'OpenText peuvent étendre la surveillance à tous les services informatiques et permettre aux opérations informatiques d'accéder aux outils.


Quelles sont les meilleures pratiques en matière d'observabilité ?

Pour maximiser la valeur de l'observabilité dans votre organisation, tenez compte de ces meilleures pratiques essentielles :

Commencer par des objectifs clairs

  • Définir des objectifs spécifiques pour la mise en œuvre de l'observabilité.
  • Identifier les systèmes et services critiques qui nécessitent une surveillance détaillée.
  • Établir des mesures de référence pour le comportement normal du système.

Définir des indicateurs significatifs

  • Se concentrer sur les mesures qui ont un impact direct sur les résultats de l'entreprise.
  • Mettre en œuvre la méthode USE (Utilization, Saturation, Errors).
  • Créer des mesures personnalisées pour des processus spécifiques à l'entreprise.

Mise en place d'une instrumentation appropriée

  • Mettre en place une instrumentation automatisée dans la mesure du possible.
  • Assurer un étiquetage et un marquage cohérents entre les systèmes.
  • Équilibrer la granularité des données avec les coûts de stockage et de performance.

Créer des tableaux de bord efficaces

  • Concevoir des tableaux de bord qui racontent clairement l'état de santé du système.
  • Inclure à la fois des aperçus de haut niveau et des possibilités d'analyse détaillée.
  • Personnaliser les vues en fonction des besoins des différentes parties prenantes.

Solutions d'observabilité OpenText

OpenText propose des solutions complètes d'observabilité conçues pour répondre aux besoins complexes des environnements informatiques modernes. Notre approche intégrée garantit une visibilité totale sur l'ensemble de votre parc informatique :

Observabilité du cloud Les solutions d'observabilité du cloud d'OpenText fournissent des informations approfondies sur les applications et l'infrastructure natives du cloud sur plusieurs fournisseurs de cloud. Ces solutions permettent aux entreprises de surveiller l'utilisation, les coûts et les performances des ressources en nuage, tout en garantissant une prestation de services optimale. Les équipes peuvent rapidement identifier et résoudre les problèmes spécifiques aux environnements en nuage, tels que les services mal configurés ou les contraintes de ressources.

Observabilité de l'application Nos capacités d'observation des applications permettent d'obtenir des informations détaillées sur les performances des applications, l'expérience des utilisateurs et les transactions commerciales. Cette solution aide les équipes de développement et d'exploitation à comprendre le comportement des applications, à suivre les parcours des utilisateurs et à optimiser les performances des applications. Il comprend des fonctions de surveillance en temps réel, de diagnostic au niveau du code et d'analyse de l'expérience utilisateur.
Quelles sont les nouveautés d'OpenText Application Observability ?

Observabilité de l'infrastructure La solution d'observabilité de l'infrastructure d'OpenText offre une surveillance et une analyse complètes de l'ensemble de votre infrastructure informatique, y compris les serveurs, le stockage et les environnements virtualisés. Cette solution permet aux équipes de suivre l'utilisation des ressources, les tendances en matière de capacité et l'état de l'infrastructure dans les environnements hybrides, garantissant ainsi une performance et une allocation des ressources optimales.
Quelles sont les nouveautés d'OpenText Infrastructure Observability ?

Observabilité du réseau Nos solutions d'observabilité des réseaux offrent une visibilité de bout en bout sur les performances du réseau, les modèles de trafic et les problèmes de connectivité. Il aide les organisations à maintenir une performance optimale du réseau, à identifier les menaces potentielles pour la sécurité et à garantir une prestation de services fiable. La solution comprend des analyses avancées pour le dépannage du réseau, la planification de la capacité et l'optimisation des performances.


L'essentiel sur l'observabilité : Une meilleure visibilité de votre parc informatique

L'observabilité est un élément important pour comprendre l'état de l'ensemble de votre infrastructure. L'afflux d'outils mis en œuvre avec de bonnes intentions a semé la pagaille dans votre parc informatique, rendant vos systèmes plus complexes qu'ils ne l'ont jamais été.

Cette complexité entrave considérablement le dépannage et la gestion du système. Un plus grand nombre d'outils entraîne davantage de problèmes, en particulier lorsque les outils fréquemment utilisés cessent de fonctionner, ce qui rend les problèmes encore plus difficiles à trouver et à résoudre.

Des outils d'observabilité efficaces fournissent une approche proactive de remédiation pour aider à découvrir les problèmes plus rapidement.

Produits associés

OpenText AI Operations Management

Renforcez la fiabilité de votre entreprise grâce à l'AIOps full stack pour tous vos environnements cloud

OpenText Core Application Observability

Surveillez et gérez vos applications de manière économique avec OpenTelemetry

OpenText Core Infrastructure Observability

Boostez les performances de votre infrastructure, sur le cloud et sur site

OpenText Network Operations Management

Optimisez l'évolution de votre réseau

OpenText Core Cloud Network Observability

Comblez les lacunes en matière d'observabilité entre les réseaux dans le cloud et hors cloud

Comment pouvons-nous vous aider ?

Notes de bas de page