OCI
allarmistica
Un importante operatore IT italiano, specializzato nella gestione di servizi mission-critical su Oracle Cloud Infrastructure (OCI), necessitava di un sistema avanzato per monitorare e prevenire anomalie sulle proprie risorse IT fondamentali. La necessità di un monitoraggio continuo di un ambiente di produzione H24 derivava dall’urgenza di evitare interruzioni nella fornitura di servizi critici in caso di indisponibilità. Il cliente si trovava a dover affrontare rischi significativi di downtime; pertanto, il suo obiettivo era ridurre tali rischi, garantire la continuità operativa e ottimizzare l’efficienza nella gestione IT.
Il progetto ha coinvolto il team Oracle Cloud Architect e Operations in tutte le fasi, dall’analisi dettagliata dell’infrastruttura alla progettazione di metriche personalizzate. Il progetto è iniziato con un’analisi dettagliata dell’infrastruttura del cliente, mappando le criticità in servizi come rete (monitoraggio di eventuali punti di congestione e vulnerabilità), macchine virtuali (analisi delle prestazioni delle VM con sistemi operativi diversi), database (controllo costante delle performance e disponibilità per prevenire downtime), piattaforme di front-end (assicurazione della reattività e continuità dei servizi) e soluzioni di business intelligence come Qlik (monitoraggio delle risorse legate alla piattaforma di BI per analisi dati in tempo reale). Questo processo ha consentito di identificare possibili vulnerabilità e migliorare le prestazioni operative.
Successivamente, sono state implementate metriche personalizzate per ciascun componente e sviluppato un sistema di allarmistica proattiva e dashboard di monitoraggio. Questo approccio ha permesso la visualizzazione in tempo reale dello stato delle risorse e ha abilitato l’invio tempestivo di allarmi in caso di anomalie.
l team ha avviato così una serie di attività chiave, a partire da raccolta e valutazione dettagliata dell’infrastruttura esistente, con lo scopo di identificare le esigenze specifiche di monitoraggio. In base a queste esigenze, è stato progettato un nuovo schema infrastrutturale per gestire in modo ottimale le risorse critiche, con particolare attenzione all’allarmistica.
Una volta definite le componenti chiave, sono stati sviluppati e configurati sistemi di Notification, Event, Alarm, Custom Metrics e Dashboard, sfruttando al massimo le capacità di OCI per ottimizzare i costi. L’utilizzo di Infrastructure as Code ha garantito una rapida gestione delle modifiche alle configurazioni, permettendo di aggiungere o rimuovere risorse in modo flessibile. Il sistema è stato ulteriormente migliorato con il tuning delle soglie di allarme, garantendo un monitoraggio tempestivo e preciso delle risorse.
Infine, il team di Operations ha fornito un supporto operativo continuo per monitorare gli ambienti del cliente e assicurare la piena funzionalità delle risorse.
I risultati sono stati significativi: il cliente ha ottenuto un monitoraggio continuo 24/7, che ha ridotto drasticamente i rischi di downtime, migliorato l’efficienza operativa e ottimizzato i costi dell’infrastruttura. Le soglie di allarme e le configurazioni sono state continuamente ottimizzate per garantire un monitoraggio tempestivo e preciso delle risorse critiche, contribuendo a mantenere operativi i servizi strategici e mission-critical dell’azienda.
Grazie a questa soluzione, l’operatore IT ha potuto assicurare una gestione efficace e sicura della propria infrastruttura, prevenendo interruzioni e garantendo la massima affidabilità dei propri servizi.