AIOps sur la plateforme Cato SASE : Utiliser l’IA prĂ©dictive pour passer d’une approche rĂ©active Ă une gestion proactive de l’infrastructure informatique
- 1. Quâest-ce que lâAIOps ?
- 2. Pourquoi les Ă©quipes informatiques ont besoin de lâAIOps : principaux dĂ©fis quâelle permet de relever
- 3. Recherche AIOps : détection et réseau IA prédictif sur la plateforme Cato SASE
- 4. AIOps et rĂ©seau prĂ©dictif basĂ© sur lâIA sur la plateforme cloud Cato SASE
Lundi matin, tout allait bien. John, le responsable informatique, allume son ordinateur et dĂ©couvre alors 424 nouveaux tickets dâassistance. Des utilisateurs de tout le bureau signalaient des problĂšmes du genre « Les applications ne se chargent pas », « Internet ne fonctionne pas ». AprĂšs des heures dâinvestigation qui se sont prolongĂ©es jusquâau lendemain, lâĂ©quipe a fini par identifier la source du problĂšme : le routeur dâune succursale Ă©tait submergĂ© par des requĂȘtes DNS malformĂ©es provenant dâun appareil IoT dĂ©fectueux. Le processeur du routeur fonctionnait Ă plein rĂ©gime, ce qui retardait les rĂ©solutions DNS et finissait par affecter la connectivitĂ© de tous les utilisateurs. Au moment mĂȘme oĂč lâĂ©quipe pensait avoir rĂ©solu le problĂšme, 45 nouveaux tickets ont Ă©tĂ© créé par lâĂ©quipe commerciale. Tous les ordinateurs du service Ă©taient bloquĂ©s suite Ă lâinstallation dâune application bĂȘta recommandĂ©e pour le CRM, ce qui provoquait des fuites de mĂ©moire et une surutilisation du processeur sur tous les appareils, nĂ©cessitant encore plus de temps pour Ă©tablir un diagnostic complet.
Ces exemples imaginaires, mais rĂ©alistes, montrent comment des actions quotidiennes, mĂȘme sans intention malveillante, peuvent provoquer des perturbations majeures. LâAIOps aurait pu dĂ©tecter les pics de bande passante et dĂ©clencher des alertes prĂ©coces. Les problĂšmes de CPU auraient ainsi pu ĂȘtre rapidement associĂ©s Ă lâapplication ou Ă lâappareil dĂ©fectueux. Au lieu de rĂ©agir sous pression, lâĂ©quipe informatique aurait pu prĂ©venir lâimpact dans son intĂ©gralitĂ© dĂšs le dĂ©part. Câest lĂ toute la puissance de lâAIOps et des rĂ©seaux prĂ©dictifs basĂ©s sur lâIA : ils transforment le chaos en informations exploitables et permettent de prendre le contrĂŽle avant lâaggravation des problĂšmes.
Quâest-ce que lâAIOps ?
LâAIOps, ou « intelligence artificielle pour les opĂ©rations informatiques », utilise lâapprentissage automatique, lâautomatisation et lâanalyse de donnĂ©es pour aider les Ă©quipes informatiques Ă surveiller et Ă gĂ©rer plus efficacement les infrastructures modernes. En analysant les signaux complexes du systĂšme en temps rĂ©el, lâAIOps peut dĂ©tecter des schĂ©mas, prĂ©voir des problĂšmes tels que la surcharge du processeur, la congestion de la bande passante, la dĂ©gradation des performances des applications⊠Et prendre des mesures avant que les utilisateurs ne soient affectĂ©s. Au-delĂ de la dĂ©tection prĂ©coce, lâAIOps aide Ă©galement Ă Ă©valuer lâampleur et lâimpact potentiel des problĂšmes. Elle peut remonter Ă la source des problĂšmes, identifier les applications ou les systĂšmes critiques affectĂ©s et prĂ©voir lâĂ©volution de la situation. Cette Ă©volution permet aux Ă©quipes informatiques de passer dâun dĂ©pannage rĂ©actif Ă une prĂ©vention proactive des problĂšmes, en se basant sur des donnĂ©es. Diverses Ă©tudes sectorielles et analyses dâexperts suggĂšrent que les solutions AIOps les plus efficaces peuvent dĂ©tecter et rĂ©soudre les problĂšmes opĂ©rationnels avant quâils ne soient formellement identifiĂ©s par les Ă©quipes informatiques.
Pourquoi les Ă©quipes informatiques ont besoin de lâAIOps : principaux dĂ©fis quâelle permet de relever
- Gestion de la complexité : unifie les environnements cloud, hérités et hybrides.
- Réduction du bruit : filtre les alertes et met en évidence ce qui est important.
- Automatisation des tĂąches routiniĂšres : remplace le travail manuel lent et sujet aux erreurs.
- PrĂ©vention des problĂšmes : dĂ©tecte rapidement les pics dâutilisation du processeur, les ralentissements des applications et les surcharges de la bande passante.
- AccĂ©lĂ©ration de la rĂ©solution : combine la dĂ©tection rapide des anomalies avec des prĂ©visions basĂ©es sur les tendances et une analyse des causes profondes afin de rĂ©duire le MTTR et de rĂ©soudre les problĂšmes avant quâils nâaffectent toute lâinfrastructure.
- Garantie de la conformitĂ© : prend en charge les normes NIS2, DORA, ISO 22301 et ITIL 4 tout en identifiant les tendances, telles que lâutilisation croissante dâapplications non autorisĂ©es, qui pourraient entraĂźner des violations de la conformitĂ© Ă long terme.
- Protection du SLA : prévoit les risques et aide les équipes à agir avant que les seuils ne soient dépassés.
Recherche AIOps : détection et réseau IA prédictif sur la plateforme Cato SASE
Informations prĂ©dictives grĂące Ă la visibilitĂ© unifiĂ©e intĂ©grĂ©e Ă lâarchitecture Cato
Notre recherche AIOps est profondĂ©ment ancrĂ©e dans un avantage architectural clĂ© : une visibilitĂ© totale. GrĂące Ă notre architecture Cato SPACE (Single PAss Cloud Engine), nous maintenons un contexte unifiĂ© sur tous les appareils et tous les flux rĂ©seau au sein de la plateforme Cato SASE. Cette vue cohĂ©rente nous permet de surveiller en continu lâutilisation du processeur, la charge mĂ©moire, la consommation de bande passante, le comportement au niveau des applications et bien plus encore, Ă grande Ă©chelle.
Ce riche ensemble de donnĂ©es alimente notre travail continu dans le domaine de la dĂ©tection des anomalies et de lâanalyse prĂ©dictive. En identifiant les tendances inhabituelles de lâutilisation des ressources, telles quâune augmentation soudaine ou soutenue de lâutilisation du CPU ou de la bande passante, nous pouvons prĂ©voir les problĂšmes potentiels avant quâils ne se transforment en perturbations rĂ©elles. Nos modĂšles ne se concentrent pas uniquement sur les valeurs brutes : ils Ă©tudient Ă©galement la maniĂšre dont lâutilisation future pourrait dĂ©passer les seuils critiques, ce qui permet dâintervenir Ă lâavance.
Par exemple, le graphique ci-dessous (figure 1) illustre comment le rĂ©seau prĂ©dictif basĂ© sur lâIA dĂ©tecte que lâutilisation prĂ©vue du processeur sur un systĂšme surveillĂ© devrait dĂ©passer un seuil prĂ©dĂ©fini de 90 % dans les deux jours. Cette prĂ©diction ne repose pas uniquement sur les donnĂ©es observĂ©es : elle est Ă©galement contextualisĂ©e selon les limites qui importent sur le plan opĂ©rationnel. Ainsi, lâalerte est Ă la fois pertinente et exploitable.
La prĂ©vision dâun pic dâutilisation du processeur montre que les valeurs projetĂ©es dĂ©passent le seuil prĂ©dĂ©fini (ligne rouge en pointillĂ©s). La ligne bleue reprĂ©sente lâutilisation brute du processeur par heure, tandis que la ligne verte est la version lissĂ©e de ces donnĂ©es pour mettre en Ă©vidence les tendances sous-jacentes. CombinĂ©e Ă la modĂ©lisation prĂ©dictive (ligne violette), cette approche permet de gĂ©nĂ©rer des alertes prĂ©coces et dĂ©pendant du contexte afin de contribuer Ă prĂ©venir la dĂ©gradation des performances.
Figure 1 : PrĂ©vision de lâutilisation du processeur par appareilÂ
CorrĂ©lation entre le trafic des applications et la charge du processeur au niveau des appareilsÂ
Dans lâanalyse des causes profondes, lorsque nous nous penchons sur un appareil spĂ©cifique, nous explorons la relation entre le trafic des applications et les performances du systĂšme. En analysant les corrĂ©lations entre le dĂ©bit en amont et en aval et lâutilisation du processeur, nous dĂ©couvrons des informations prĂ©cieuses sur les applications qui utilisent le plus de ressources. Plusieurs facteurs opĂ©rationnels peuvent influencer cette relation.
En aval, certains types de trafic peuvent entraĂźner une utilisation Ă©levĂ©e du CPU sur lâappareil. Citons par exemple le streaming vidĂ©o en haute rĂ©solution, les tableaux de bord en temps rĂ©el et le trafic cloud cryptĂ© qui nĂ©cessite une analyse locale. Le tĂ©lĂ©chargement de fichiers volumineux, les mises Ă jour logicielles et le streaming dĂ©clenchent Ă©galement un traitement intensif aprĂšs le tĂ©lĂ©chargement, comme le dĂ©chiffrage, lâanalyse ou le rendu. Ces activitĂ©s transforment la consommation passive de donnĂ©es en une charge de travail importante au niveau de lâappareil.
En amont, le trafic sortant soutenu, tel que lâenvoi de logs vers les systĂšmes de surveillance, les flux de vidĂ©oconfĂ©rence, la synchronisation de fichiers avec le cloud et les transmissions de donnĂ©es de capteurs IoT, peut entraĂźner une surcharge du processeur. Ces flux impliquent souvent le chiffrement des donnĂ©es, lâapplication de politiques, la gestion des sessions et une inspection approfondie. Tout cela consomme beaucoup de ressources.
Comme le montre la figure 2, ce type dâanalyse de corrĂ©lation aide Ă orienter lâinvestigation des causes profondes et la planification des capacitĂ©s sans nĂ©cessiter dâintervention manuelle. Une matrice de corrĂ©lation rĂ©vĂšle une forte relation statistique (supĂ©rieure Ă 0,7 sur une Ă©chelle allant de -1 (corrĂ©lation linĂ©aire nĂ©gative parfaite) Ă 1 (corrĂ©lation linĂ©aire positive parfaite) entre le dĂ©bit de donnĂ©es dâune application et la charge CPU du systĂšme, ce qui suggĂšre que lâapplication peut provoquer une augmentation de lâutilisation des ressources.
Figure 2 : Corrélation entre le réseau et le CPU
Parfois, le timing est rĂ©vĂ©lateur. La figure 3 nous montre que lorsque la transmission de donnĂ©es dâune application client diminue, lâutilisation du CPU diminue Ă©galement. MĂȘme si les donnĂ©es de charge du CPU sont perturbĂ©es par lâexĂ©cution simultanĂ©e de nombreux autres processus, on arrive Ă dĂ©gager des tendances claires. Ce type dâobservations nous aide Ă identifier les applications qui ont le plus dâimpact sur les performances.
Une baisse visible du trafic en amont et de lâutilisation du CPU au cours de la mĂȘme pĂ©riode met en Ă©vidence lâinfluence de lâapplication sur la charge du systĂšme, fournissant ainsi des indices essentiels pour lâoptimisation.
Figure 3 : Activité des applications / charge du CPU (en mégaoctets)
Au-delĂ du trafic : identification dâautres facteurs contribuant Ă augmenter lâutilisation du CPU
Au-delĂ de la direction du trafic, dâautres facteurs contribuent Ă augmenter la charge du CPU. Les pics dans le nombre dâhĂŽtes connectĂ©s ou de flux simultanĂ©s, par exemple lors dâune avalanche de connexions ou de mises Ă jour logicielles massives, peuvent submerger les moteurs de suivi et dâapplication des sessions. Les applications gourmandes en ressources informatiques, notamment lâanalyse des logiciels malveillants ou le transfert de fichiers volumineux, consomment Ă©galement une puissance de traitement importante. Dans certains cas, les nouvelles versions de logiciels dĂ©ployĂ©es peuvent entraĂźner une baisse des performances ou un excĂšs dâenregistrement des logs. De plus, les modifications de configuration telles que lâactivation de lâinspection approfondie des paquets, les politiques Zero Trust ou les fonctionnalitĂ©s de prĂ©vention des intrusions augmentent les exigences de traitement par paquet.
Modélisation prédictive de la bande passante pour une gestion proactive des ressources
Nos recherches ne se limitent pas au CPU. Lâutilisation de la bande passante est un autre domaine clĂ© dans lequel les informations prĂ©dictives sont essentielles. La figure 4 montre comment les modĂšles de bande passante quotidiens peuvent aider Ă prĂ©voir les dĂ©passements potentiels des seuils de capacitĂ©. En combinant les tendances dâutilisation observĂ©es avec des modĂšles de prĂ©vision, nous pouvons Ă©mettre des alertes prĂ©coces afin dâĂ©viter les surprises en matiĂšre de coĂ»ts et les interruptions de service avant quâelles ne se produisent.
Un modĂšle de rĂ©seau prĂ©dictif basĂ© sur lâIA identifie un dĂ©passement de capacitĂ© imminent en fonction des tendances dâutilisation en semaine. La dĂ©tection prĂ©coce donne Ă lâĂ©quipe informatique le temps dâajuster les politiques ou lâutilisation avant dâatteindre les seuils critiques.
Figure 4 : PrĂ©vision des dĂ©passements de seuil de bande passante Â
AIOps et rĂ©seau prĂ©dictif basĂ© sur lâIA sur la plateforme cloud Cato SASE
Les connaissances que nous acquĂ©rons grĂące Ă nos recherches continues sur lâAIOps amĂ©liorent la surveillance en temps rĂ©el, la dĂ©tection des anomalies et les alertes proactives de la plateforme cloud Cato SASE. En intĂ©grant des capacitĂ©s prĂ©dictives Ă notre plateforme, nous permettons aux Ă©quipes informatiques et de sĂ©curitĂ© de dĂ©tecter et de rĂ©soudre les problĂšmes, tels que la saturation du CPU ou lâĂ©puisement de la bande passante, avant quâils ne perturbent lâactivitĂ©. Si lâAIOps excelle dans la dĂ©tection des anomalies et la prĂ©vision des tendances, lâanalyse des causes profondes joue un rĂŽle complĂ©mentaire en aidant Ă dĂ©couvrir la vĂ©ritable source des problĂšmes.
Au final, cela permet aux Ă©quipes de se concentrer sur ce qui compte le plus : gĂ©rer lâactivitĂ© avec confiance et efficacitĂ©.