Processo di gestione degli incidenti, per trasformare le crisi in opportunità di miglioramento continuo.
Dall'uscita di una stampante bloccata a un'applicazione fuori uso, sono molti gli incidenti, più o meno critici, che si verificano nel vostro sistema IT. Da qui l'importanza di mettere in atto un processo di gestione degli incidenti efficace.
Ma come potete assicurarvi che la vostra procedura di gestione degli incidenti sia efficace? Quali sono le fasi di risoluzione da definire? È possibile fornire una soluzione soddisfacente per l'utente, in linea con il vostro SLA e in tempi ragionevoli?
Per aiutarvi a raggiungere una maggiore efficienza e coerenza, Appvizer spiega in questo articolo i principi e le fasi da seguire, basati sul framework ITIL, e vi ricorda i vantaggi che si possono ottenere da questo metodo di lavoro.
Che cos'è la gestione degli incidenti informatici?
Definizione di gestione degli incidenti
La maggior parte degli incidenti informatici viene gestita secondo lo standard ITIL (Information Technology Infrastructure Library).
Questo progetto, sviluppato negli anni '80 dall'Office of Government Commerce britannico, è un insieme di documenti che elencano le migliori pratiche da applicare nella gestione dei servizi IT su larga scala. L'obiettivo è fornire un supporto metodologico ai professionisti, in un'ottica di miglioramento continuo.
Il processo ITIL copre una serie di temi (organizzazione del sistema informativo, gestione della configurazione, gestione delle modifiche, ecc:
Per incidente si intende qualsiasi evento che non rientra nel funzionamento standard di un servizio e che causa, o può causare, un'interruzione o una riduzione della qualità di tale servizio.
I diversi tipi di incidente
La definizione di cui sopra comprende diversi tipi di incidenti:
- Incidenti software o applicativi. Gli esempi includono
- errore di programma che rallenta l'utente ;
- rallentamento dell'applicazione, ecc.
- Incidenti hardware. Ad esempio
- uscita della stampante bloccata ;
- disco rigido quasi pieno, ecc.
- Richieste di assistenza. Esempi: password dimenticata
- password dimenticata ;
- richiesta di documentazione specifica, ecc.
Gestione degli incidenti VS gestione dei problemi
La gestione degli incidenti viene spesso confusa con la gestione dei problemi. Tuttavia, si tratta di procedure diverse.
Secondo ITIL, la gestione dei problemi viene utilizzata per :
Ridurre al minimo l'impatto negativo sulle attività dell'azienda di incidenti e problemi causati da errori nell'infrastruttura IT e prevenire il ripetersi di incidenti indotti da tali errori.
➡️ In altre parole, la gestione dei problemi è più proattiva, mentre la gestione degli incidenti è più reattiva.
Tuttavia, i due processi lavorano in parallelo, con la gestione dei problemi che opera attraverso l'identificazione degli incidenti ricorrenti.
Perché è importante la gestione degli incidenti?
Un processo standardizzato per la gestione degli incidenti genera numerosi vantaggi per l'azienda 🤩 :
- riduce l'impatto, a volte critico, degli incidenti sull'azienda e sul business in modo più rapido;
- semplifica notevolmente la procedura evitando, ad esempio, di inviare e-mail in continuazione;
- Permette di identificare gli incidenti ricorrenti, consentendo l'implementazione del processo di gestione dei problemi di cui sopra;
- Migliora la qualità della base di conoscenze aziendali grazie alla creazione di database per la gestione degli incidenti;
- Fornisce trasparenza all'interno dell'organizzazione per quanto riguarda la risoluzione degli incidenti;
- aumenta la soddisfazione degli utenti e dei clienti, nonché la produttività di tutti i dipendenti dell'azienda.
☝️ Tenete presente che un processo di gestione degli incidenti va oltre la semplice risoluzione di un problema informatico. Fornisce un solido supporto alle funzioni aziendali, riducendo il numero di rallentamenti o interruzioni delle attività che avrebbero un impatto sul fatturato.
Esempio di una procedura di gestione degli incidenti IT in 7 fasi
#1 Identificazione e registrazione dell'incidente
Per cominciare, è necessario identificare l'incidente, specificando :
- il nome e il numero di identificazione
- l'identità della persona responsabile
- la data ;
- e soprattutto le sue caratteristiche (natura, gravità e impatto sulle operazioni).
Ad esempio: un guasto al server che interessa più reparti sarà considerato un incidente grave, mentre un problema di connessione a una singola postazione di lavoro sarà considerato meno critico.
Spetta al reparto responsabile registrare questi dettagli sul supporto prescelto (software, foglio di calcolo, modulo, ecc.) e segnalarli ai team di supporto incaricati di gestirli secondo la procedura.
#2 Classificazione e analisi dell'incidente
L'incidente viene quindi classificato in base all' ordine di priorità definito a monte e specifico per la vostra organizzazione, ad esempio in base all'impatto sull'azienda e all'urgenza della situazione.
Ad esempio, un guasto alla rete potrebbe essere classificato come incidente di "connettività", con un livello di gravità "alto" se paralizza l'intera azienda.
Allo stesso tempo, viene effettuata un' analisi iniziale per determinare le possibili cause dell'incidente. Per questa valutazione si possono utilizzare strumenti diagnostici o anche esperienze precedenti .
☝️ Si noti che se si tratta di una richiesta di assistenza, è necessario seguire la procedura associata a tale servizio.
#3 Raccolta delle prove
Il passo successivo consiste nel raccogliere quante più prove possibili. L'obiettivo? Capire cosa è successo, quando, come e perché.
Ad esempio, si tratta di :
- registri di sistema o delle applicazioni ;
- screenshot o video
- messaggi di errore visualizzati;
- dati di rete o metriche provenienti da strumenti di monitoraggio;
- qualsiasi altro elemento che possa supportare l' analisi tecnica.
☝️ Non trascurate questa fase, perché determina la qualità della diagnosi successiva e quindi la velocità di risoluzione.
#4 Indagine e diagnosi dell'incidente
Vengono analizzate tutte le informazioni relative all'incidente, con l'obiettivo di risolverlo e rimetterlo in servizio il più rapidamente possibile. I team incaricati di questo lavoro utilizzano diverse metodologie, dall'analisi dei log ai test in tempo reale.
Ad esempio, se un server si guasta, il team consulta i registri degli eventi alla ricerca di errori critici o utilizza strumenti di monitoraggio per verificare le prestazioni dell'hardware.
Tenete presente che a volte il primo livello di servizio non è in grado di risolvere l'incidente: ciò innesca un' escalation degli incidenti, ossia la loro risoluzione viene trasferita al livello successivo.
#5 Risoluzione degli incidenti e ripristino del servizio
La risoluzione degli incidenti assume varie forme:
- l'incidente viene riparato immediatamente. L'incidente è stato risolto e le operazioni riprendono normalmente;
- è stata trovata una soluzione. La gestione degli incidenti deve portare a un rapido ripristino dei servizi. Se il sistema non è perfetto, ma rende la situazione "accettabile", il processo viene rispettato.
☝️ Se le cause di un incidente sono sconosciute, ma sembrano avere la stessa origine, si raccomanda di avviare un processo di gestione dei problemi. Ricordate che i flussi di gestione degli incidenti e dei problemi spesso si incrociano.
#6 Verifica della risoluzione
Una volta applicata la soluzione, è necessario assicurarsi che tutto funzioni normalmente, verificando :
- che il servizio sia operativo
- che gli utenti possano riprendere le loro attività senza problemi;
- che non siano stati generati effetti collaterali.
Questa fase è fondamentale per convalidare l'efficacia dell'azione correttiva. Inoltre, evita gli incidenti "boomerang", ovvero quelli che si ripresentano senza preavviso.
#7 Chiusura dell'incidente
Per chiudere correttamente un incidente, i team responsabili del processo eseguono una serie di azioni:
- Si preoccupano di registrare tutti i dettagli dell'incidente e il tempo trascorso su di esso. ☝️ Questa documentazione serve a creare una cronologia consultabile per migliorare i protocolli di gestione degli incidenti;
- informano l'utente della risoluzione;
- Assicurano che tutti i dettagli della soluzione siano chiari e leggibili.
Questo livello di dettaglio riduce il rischio di conflitti tra le varie parti interessate.
Che dire del processo di gestione degli incidenti DevOps e SRE?
In un ambiente DevOps o SRE, la gestione degli incidenti assume una dimensione diversa. Non si tratta più solo di risolvere rapidamente i problemi, ma di garantire la resilienza continua dei sistemi, mantenendo un livello elevato di prestazioni.
In questo caso, non si "aspetta che gli incidenti accadano". Li si anticipa, li si documenta e soprattutto si impara da essi. In altre parole, ogni bug diventa un'opportunità di miglioramento.
Più concretamente, il processo DevOps/SRE si basa su strumenti e pratiche specifiche:
- monitoraggio proattivo tramite dashboard e avvisi intelligenti ;
- l'uso di strumenti di osservabilità (log, tracce, metriche, ecc.) per diagnosticare i problemi in tempo reale;
- canali di comunicazione asincroni (Slack, Teams, PagerDuty, ecc.) per coordinare la risposta;
- l'uso di runbook per garantire un'azione rapida e senza stress;
- la conduzione di analisi post-incidente per evitare che l'errore si ripeta.
Perché è così importante mettere in atto un solido processo di gestione degli incidenti? Perché in un ambiente cloud-native le interruzioni sono costose in termini di tempo, denaro e reputazione. Inoltre, i sistemi sono diventati sempre più complessi e interconnessi.
Il fattore umano: una questione strategica nella gestione degli incidenti
Nella maggior parte degli ambienti digitali, gli incidenti non sono causati solo da guasti tecnici. Il fattore umano è una delle cause principali. Secondo diversi studi, il fattore umano è coinvolto in oltre l'80% degli incidenti IT. Un errore di configurazione, un clic su un link dannoso, una procedura non seguita correttamente... l'errore umano rimane uno degli anelli più fragili della catena operativa.
Di conseguenza, è necessario incorporare questo parametro nel processo di gestione degli incidenti. Non si tratta solo di correggere un errore, ma di capire perché si è verificato e come evitare che si ripeta.
👉 L'implementazione di un approccio umano e sistemico consente di:
- rafforzare la cultura della prevenzione
- incoraggiare la segnalazione trasparente degli errori
- fornire una formazione mirata e continua
- instaurare un clima di fiducia reciproca.
La tecnologia può fallire, ma spesso è l'essere umano a lanciare l'allarme... o a ignorarlo. Trattandoli come attori chiave, è possibile trasformare la gestione degli incidenti in una leva per il miglioramento continuo e la resilienza.
Di quali strumenti avete bisogno per la gestione degli incidenti?
Avete un quadro più chiaro della gestione degli incidenti, ma forse vi state chiedendo come mettere in pratica tutte queste raccomandazioni? Riuscite già ad applicare la vostra procedura di gestione degli incidenti utilizzando un foglio Excel o uno strumento tradizionale di gestione dei progetti?
Fortunatamente, sono stati sviluppati software specifici per supportare i vostri team in ogni fase della procedura di gestione degli incidenti.
Per aiutarvi, date un'occhiata alla nostra selezione ✔️:
- Jira. Sviluppato da Atlassian, lo strumento di ticketing Jira standardizza l'elaborazione dei ticket aperti in seguito alla segnalazione di un incidente.
Perché Jira? - creare ticket con un livello preciso di informazioni (descrizioni, livello di gravità, ecc.) e seguire tutti i processi necessari per la loro gestione;
- classificare e dare priorità ai bug in modo semplice e assegnarli al dipendente o al reparto giusto;
- integrare i ticket in un flusso di lavoro già pronto o personalizzabile in base alle vostre esigenze e ai vostri processi.
- NinjaOne. NinjaOne è una soluzione completa per la gestione delle risorse IT per PMI, ETI e grandi imprese.
Perché NinjaOne? - Supervisionare in modo centralizzato e proattivo l'intera infrastruttura IT per rilevare gli incidenti il prima possibile;
- Applicare automaticamente le patch necessarie, in modo affidabile, a tutti gli endpoint;
- archiviare tutta la documentazione standardizzata e strutturata relativa ai vostri processi all'interno della piattaforma.
- Octopus. Octopus è un software ITSM (Information Technology Service Management), ossia di gestione dei servizi IT.
Perché Octopus? - beneficiate di uno strumento sviluppato in conformità con le best practice ITIL: i vostri team potranno applicarle in modo naturale senza doverle padroneggiare perfettamente in anticipo;
- gestire facilmente le richieste dei vostri utenti, sia per gli incidenti che per le richieste di servizio;
- migliorare l'azione preventiva grazie a un database che gestisce tutti gli aspetti della configurazione dei vostri sistemi informatici.
- Splunk Enterprise Security. Splunk Enterprise Security è un SIEM (Security information and event management) progettato per aiutarvi a rafforzare la sicurezza dei sistemi informatici e a gestire gli incidenti.
Perché Splunk Enterprise Security? - Approfittate di una soluzione incentrata sull'analisi e quindi sulla semplificazione delle attività legate alla cybersecurity;
- ottenere informazioni in tempo reale attraverso dashboard e visualizzazioni personalizzate; ;
- rilevare più rapidamente gli incidenti e intraprendere azioni preventive.
Quali sono i punti chiave della gestione degli incidenti IT?
La gestione degli incidenti, standardizzata da ITIL, è una procedura che dovrebbe essere incorporata nel sistema informativo il prima possibile, poiché promette di fornire una risposta chiara e rapida in caso di incidente.
Inoltre, consente di ridurre gradualmente il numero di incidenti, alimentando i processi di gestione dei problemi e, di conseguenza, le azioni preventive.
E la buona notizia è che tutti vincono quando si mette in pratica questo metodo di lavoro:
- i team tecnici lavorano in modo più efficiente e trasparente;
- gli utenti sono meno colpiti dai bug e più soddisfatti del vostro prodotto;
- l'azienda subisce meno perdite in caso di incidenti critici.
Infine, vale la pena ricordare che una buona gestione degli incidenti va di pari passo con l' uso di strumenti pertinenti, che supportano il processo e fanno risparmiare tempo prezioso ai team.

Attualmente responsabile editoriale, Jennifer Montérémal è entrata a far parte del team di Appvizer nel 2019. Da allora, mette a disposizione dell'azienda la sua esperienza in web copywriting, copywriting e ottimizzazione SEO, con l'obiettivo di soddisfare i lettori 😀 !
Medievista di formazione, Jennifer si è presa una breve pausa da castelli fortificati e altri manoscritti per scoprire la sua passione per il content marketing. Dai suoi studi ha tratto le competenze che ci si aspetta da un buon copywriter: capire e analizzare l'argomento, trasmettere le informazioni, con una vera padronanza della penna (senza ricorrere sistematicamente a una certa AI 🤫 ).
Un aneddoto su Jennifer? All'Appvizer si distingueva per le sue abilità nel karaoke e per la sua sconfinata conoscenza dei brani musicali di scarto 🎤.