AIOps sur la plateforme Cato SASE : Utiliser l’IA prédictive pour passer d’une approche réactive à une gestion proactive de l’infrastructure informatique
Lundi matin, tout allait bien. John, le responsable informatique, allume son ordinateur et découvre alors 424 nouveaux tickets d’assistance. Des utilisateurs de tout le bureau signalaient des problèmes du genre « Les applications ne se chargent pas », « Internet ne fonctionne pas ». Après des heures d’investigation qui se sont prolongées jusqu’au lendemain, l’équipe a fini par identifier la source du problème : le routeur d’une succursale était submergé par des requêtes DNS malformées provenant d’un appareil IoT défectueux. Le processeur du routeur fonctionnait à plein régime, ce qui retardait les résolutions DNS et finissait par affecter la connectivité de tous les utilisateurs. Au moment même où l’équipe pensait avoir résolu le problème, 45 nouveaux tickets ont été créé par l’équipe commerciale. Tous les ordinateurs du service étaient bloqués suite à l’installation d’une application bêta recommandée pour le CRM, ce qui provoquait des fuites de mémoire et une surutilisation du processeur sur tous les appareils, nécessitant encore plus de temps pour établir un diagnostic complet.
Ces exemples imaginaires, mais réalistes, montrent comment des actions quotidiennes, même sans intention malveillante, peuvent provoquer des perturbations majeures. L’AIOps aurait pu détecter les pics de bande passante et déclencher des alertes précoces. Les problèmes de CPU auraient ainsi pu être rapidement associés à l’application ou à l’appareil défectueux. Au lieu de réagir sous pression, l’équipe informatique aurait pu prévenir l’impact dans son intégralité dès le départ. C’est là toute la puissance de l’AIOps et des réseaux prédictifs basés sur l’IA : ils transforment le chaos en informations exploitables et permettent de prendre le contrôle avant l’aggravation des problèmes.
Qu’est-ce que l’AIOps ?
L’AIOps, ou « intelligence artificielle pour les opérations informatiques », utilise l’apprentissage automatique, l’automatisation et l’analyse de données pour aider les équipes informatiques à surveiller et à gérer plus efficacement les infrastructures modernes. En analysant les signaux complexes du système en temps réel, l’AIOps peut détecter des schémas, prévoir des problèmes tels que la surcharge du processeur, la congestion de la bande passante, la dégradation des performances des applications… Et prendre des mesures avant que les utilisateurs ne soient affectés. Au-delà de la détection précoce, l’AIOps aide également à évaluer l’ampleur et l’impact potentiel des problèmes. Elle peut remonter à la source des problèmes, identifier les applications ou les systèmes critiques affectés et prévoir l’évolution de la situation. Cette évolution permet aux équipes informatiques de passer d’un dépannage réactif à une prévention proactive des problèmes, en se basant sur des données. Diverses études sectorielles et analyses d’experts suggèrent que les solutions AIOps les plus efficaces peuvent détecter et résoudre les problèmes opérationnels avant qu’ils ne soient formellement identifiés par les équipes informatiques.
Pourquoi les équipes informatiques ont besoin de l’AIOps : principaux défis qu’elle permet de relever
- Gestion de la complexité : unifie les environnements cloud, hérités et hybrides.
- Réduction du bruit : filtre les alertes et met en évidence ce qui est important.
- Automatisation des tâches routinières : remplace le travail manuel lent et sujet aux erreurs.
- Prévention des problèmes : détecte rapidement les pics d’utilisation du processeur, les ralentissements des applications et les surcharges de la bande passante.
- Accélération de la résolution : combine la détection rapide des anomalies avec des prévisions basées sur les tendances et une analyse des causes profondes afin de réduire le MTTR et de résoudre les problèmes avant qu’ils n’affectent toute l’infrastructure.
- Garantie de la conformité : prend en charge les normes NIS2, DORA, ISO 22301 et ITIL 4 tout en identifiant les tendances, telles que l’utilisation croissante d’applications non autorisées, qui pourraient entraîner des violations de la conformité à long terme.
- Protection du SLA : prévoit les risques et aide les équipes à agir avant que les seuils ne soient dépassés.
Recherche AIOps : détection et réseau IA prédictif sur la plateforme Cato SASE
Informations prédictives grâce à la visibilité unifiée intégrée à l’architecture Cato
Notre recherche AIOps est profondément ancrée dans un avantage architectural clé : une visibilité totale. Grâce à notre architecture Cato SPACE (Single PAss Cloud Engine), nous maintenons un contexte unifié sur tous les appareils et tous les flux réseau au sein de la plateforme Cato SASE. Cette vue cohérente nous permet de surveiller en continu l’utilisation du processeur, la charge mémoire, la consommation de bande passante, le comportement au niveau des applications et bien plus encore, à grande échelle.
Ce riche ensemble de données alimente notre travail continu dans le domaine de la détection des anomalies et de l’analyse prédictive. En identifiant les tendances inhabituelles de l’utilisation des ressources, telles qu’une augmentation soudaine ou soutenue de l’utilisation du CPU ou de la bande passante, nous pouvons prévoir les problèmes potentiels avant qu’ils ne se transforment en perturbations réelles. Nos modèles ne se concentrent pas uniquement sur les valeurs brutes : ils étudient également la manière dont l’utilisation future pourrait dépasser les seuils critiques, ce qui permet d’intervenir à l’avance.
Par exemple, le graphique ci-dessous (figure 1) illustre comment le réseau prédictif basé sur l’IA détecte que l’utilisation prévue du processeur sur un système surveillé devrait dépasser un seuil prédéfini de 90 % dans les deux jours. Cette prédiction ne repose pas uniquement sur les données observées : elle est également contextualisée selon les limites qui importent sur le plan opérationnel. Ainsi, l’alerte est à la fois pertinente et exploitable.
La prévision d’un pic d’utilisation du processeur montre que les valeurs projetées dépassent le seuil prédéfini (ligne rouge en pointillés). La ligne bleue représente l’utilisation brute du processeur par heure, tandis que la ligne verte est la version lissée de ces données pour mettre en évidence les tendances sous-jacentes. Combinée à la modélisation prédictive (ligne violette), cette approche permet de générer des alertes précoces et dépendant du contexte afin de contribuer à prévenir la dégradation des performances.
Figure 1 : Prévision de l’utilisation du processeur par appareil
Corrélation entre le trafic des applications et la charge du processeur au niveau des appareils
Dans l’analyse des causes profondes, lorsque nous nous penchons sur un appareil spécifique, nous explorons la relation entre le trafic des applications et les performances du système. En analysant les corrélations entre le débit en amont et en aval et l’utilisation du processeur, nous découvrons des informations précieuses sur les applications qui utilisent le plus de ressources. Plusieurs facteurs opérationnels peuvent influencer cette relation.
En aval, certains types de trafic peuvent entraîner une utilisation élevée du CPU sur l’appareil. Citons par exemple le streaming vidéo en haute résolution, les tableaux de bord en temps réel et le trafic cloud crypté qui nécessite une analyse locale. Le téléchargement de fichiers volumineux, les mises à jour logicielles et le streaming déclenchent également un traitement intensif après le téléchargement, comme le déchiffrage, l’analyse ou le rendu. Ces activités transforment la consommation passive de données en une charge de travail importante au niveau de l’appareil.
En amont, le trafic sortant soutenu, tel que l’envoi de logs vers les systèmes de surveillance, les flux de vidéoconférence, la synchronisation de fichiers avec le cloud et les transmissions de données de capteurs IoT, peut entraîner une surcharge du processeur. Ces flux impliquent souvent le chiffrement des données, l’application de politiques, la gestion des sessions et une inspection approfondie. Tout cela consomme beaucoup de ressources.
Comme le montre la figure 2, ce type d’analyse de corrélation aide à orienter l’investigation des causes profondes et la planification des capacités sans nécessiter d’intervention manuelle. Une matrice de corrélation révèle une forte relation statistique (supérieure à 0,7 sur une échelle allant de -1 (corrélation linéaire négative parfaite) à 1 (corrélation linéaire positive parfaite) entre le débit de données d’une application et la charge CPU du système, ce qui suggère que l’application peut provoquer une augmentation de l’utilisation des ressources.
Figure 2 : Corrélation entre le réseau et le CPU
Parfois, le timing est révélateur. La figure 3 nous montre que lorsque la transmission de données d’une application client diminue, l’utilisation du CPU diminue également. Même si les données de charge du CPU sont perturbées par l’exécution simultanée de nombreux autres processus, on arrive à dégager des tendances claires. Ce type d’observations nous aide à identifier les applications qui ont le plus d’impact sur les performances.
Une baisse visible du trafic en amont et de l’utilisation du CPU au cours de la même période met en évidence l’influence de l’application sur la charge du système, fournissant ainsi des indices essentiels pour l’optimisation.
Figure 3 : Activité des applications / charge du CPU (en mégaoctets)
Au-delà du trafic : identification d’autres facteurs contribuant à augmenter l’utilisation du CPU
Au-delà de la direction du trafic, d’autres facteurs contribuent à augmenter la charge du CPU. Les pics dans le nombre d’hôtes connectés ou de flux simultanés, par exemple lors d’une avalanche de connexions ou de mises à jour logicielles massives, peuvent submerger les moteurs de suivi et d’application des sessions. Les applications gourmandes en ressources informatiques, notamment l’analyse des logiciels malveillants ou le transfert de fichiers volumineux, consomment également une puissance de traitement importante. Dans certains cas, les nouvelles versions de logiciels déployées peuvent entraîner une baisse des performances ou un excès d’enregistrement des logs. De plus, les modifications de configuration telles que l’activation de l’inspection approfondie des paquets, les politiques Zero Trust ou les fonctionnalités de prévention des intrusions augmentent les exigences de traitement par paquet.
Modélisation prédictive de la bande passante pour une gestion proactive des ressources
Nos recherches ne se limitent pas au CPU. L’utilisation de la bande passante est un autre domaine clé dans lequel les informations prédictives sont essentielles. La figure 4 montre comment les modèles de bande passante quotidiens peuvent aider à prévoir les dépassements potentiels des seuils de capacité. En combinant les tendances d’utilisation observées avec des modèles de prévision, nous pouvons émettre des alertes précoces afin d’éviter les surprises en matière de coûts et les interruptions de service avant qu’elles ne se produisent.
Un modèle de réseau prédictif basé sur l’IA identifie un dépassement de capacité imminent en fonction des tendances d’utilisation en semaine. La détection précoce donne à l’équipe informatique le temps d’ajuster les politiques ou l’utilisation avant d’atteindre les seuils critiques.
Figure 4 : Prévision des dépassements de seuil de bande passante
AIOps et réseau prédictif basé sur l’IA sur la plateforme cloud Cato SASE
Les connaissances que nous acquérons grâce à nos recherches continues sur l’AIOps améliorent la surveillance en temps réel, la détection des anomalies et les alertes proactives de la plateforme cloud Cato SASE. En intégrant des capacités prédictives à notre plateforme, nous permettons aux équipes informatiques et de sécurité de détecter et de résoudre les problèmes, tels que la saturation du CPU ou l’épuisement de la bande passante, avant qu’ils ne perturbent l’activité. Si l’AIOps excelle dans la détection des anomalies et la prévision des tendances, l’analyse des causes profondes joue un rôle complémentaire en aidant à découvrir la véritable source des problèmes.
Au final, cela permet aux équipes de se concentrer sur ce qui compte le plus : gérer l’activité avec confiance et efficacité.