I dati e le informazioni hanno un valore sempre più alto nelle aziende moderne. Sono strumenti indispensabili per poter operare e competere, sui quali esistono anche aspetti legali e normativi a cui attenersi per trattarli correttamente. La perdita, anche parziale, di queste informazioni può compromettere inesorabilmente la vita dell’azienda stessa. Abbiamo quindi pensato di realizzare questo documento con l’obiettivo di spiegare in modo più semplice possibile gli aspetti fondamentali di questa tematica e fornire gli strumenti di base per valutare come comportarsi in caso di una evenienza del genere.
I dispositivi di storage con cui abbiamo a che fare quotidianamente sono sempre più numerosi, usano tecnologie diverse e la loro capacità aumenta costantemente. La crescita dei dati è continua e, per quanto un utente dovrebbe sempre avere a disposizione almeno un sistema di backup efficiente, esistono dei casi limite dove anche il sistema di backup può fallire ed è necessario cercare soluzioni esterne in grado di operare a più basso livello per ripristinare i dati. 

Introduzione

Nell’era che stiamo vivendo, tutti i nostri dati risiedono su dispositivi di archiviazione (data storage) di natura meccanica o elettronica. Questi dispositivi, benché studiati per essere longevi e resilienti, a volte falliscono. Inoltre, alle possibili cause che possono portare una perdita di dati concorrono molti fattori, non ultimo l’errore umano. La probabilità di perdita dei dati può essere ridotta ma è un avvenimento, che per quanto spiacevole, è sempre da considerarsi ineluttabile.
Tutti i dati hanno un valore e proteggerli costa. A volte, quando si analizzano costi e benefici della loro protezione, si accettano dei compromessi introducendo un rischio legato alla probabilità che un avvenimento possa accadere a corrompere i dati. Questa “introduzione del rischio” limita lo scudo di protezione contro la potenziale perdita di dati e introduce due importanti incognite all’equazione: la capacità dell’azienda di valutare il significato della perdita del dato e i costi derivati dal ricreare i dati persi.
Semplificando, possiamo quindi dire che i dati si perdono per due motivi principali: sottovalutazione del rischio e fatto imprevisto. Esiste comunque una terza possibilità, cioè quando il cliente ha valutato correttamente il rischio ma decide comunque di correrlo! Il tutto in funzione di quanto denaro si è disposti a spendere per la protezione.
In ogni caso, quando si perde la capacità di accedere ai dati non è detto che le speranze di un recupero siano nulle. Se i dati sono fisicamente presenti, cioè non sono stati sovrascritti o il supporto fisico non è seriamente danneggiato esiste una concreta possibilità di recuperare tutto, o parte, dei contenuti.
Esistono diverse tecniche che permettono di analizzare il contenuto di un dispositivo, anche quando difettoso, e ricavarne dei dati. Ovviamente queste tecniche si differenziano in funzione del tipo di dispositivo o, come avviene in alcuni casi particolari, in funzione del contenuto. Le problematiche che stanno dietro a queste operazioni sono molteplici, sono necessari skill particolari, software sofisticati ed anche un buon magazzino di pezzi di ricambio. L’obiettivo comunque non è mai quello di riparare un dispositivo difettoso ma di ricavare i dati in esso contenuti.

Perdita e indisponibilità

Il significato di “perdere i dati” è abbastanza ampio e differisce di molto in funzione di dove questi dati risiedono e dal tipo di guasto: un disco guasto su un notebook è molto differente, ad esempio, da perdere un raid group in un array collegato ad una SAN o da un file system corrotto in cui erano presenti i data file di un DB. Di conseguenza, anche le tecniche di un potenziale recupero sono molto diverse fra loro.
Inoltre la stessa definizione di “perdere i dati” dovrebbe essere approfondita. La perdita del dato, da un punto di vista letterale, dovrebbe significare che il dato non esiste più e quindi non sia neanche più recuperabile. In realtà, sarebbe molto più preciso parlare di “indisponibilità del dato” e quindi della impossibilità di accedervi. I dati poi possono essere inaccessibili per due tipi di motivi: fisici o logici. Nel primo caso si parla di un vero e proprio guasto al dispositivo che contiene il dato, nell’altro si è verificato un problema alla struttura dei dati (es. un file system corrotto).
Per i motivi che ho appena descritto, il recupero dei dati è una operazione complicata e delicata. L’esperienza e la competenza di chi si impegna ad effettuare l’attività di recupero sono fondamentali proprio perchè ogni errore può portare ad una definitiva perdita di dati.
Prima di procedere oltre è importante fare almeno due puntualizzazioni, la prima è che molte aziende si rendono conto del valore di questi dati solo dopo averli persi. La seconda, forse la meno ovvia ma la più importante, è che il loro valore cala in funzione del passare del tempo.
L’impossibilità di accedere ad un dato per un tempo indeterminato può far si che quel dato diventi inutile e quindi senza valore. Nel caso si verifichi una perdita di dati è sempre importante dare un valore al dato relativamente al tempo necessario per recuperarlo. Questa è un’operazione difficile ma, soprattutto in caso di disastri gravi è decisamente importante dare la giusta priorità a cosa tentare di recuperare per primo. Una delle attività propedeutiche al recupero dei dati è stimare quanto tempo sarà necessario per il loro recupero e se quindi vale la pena aspettare.
Negli ultimi anni abbiamo assistito ad una evoluzione decisamente importante di tutto quello che riguarda l’information technology e anche nel campo dello storage sono state introdotte nuove tecnologie in affiancamento ad altre più vecchie ed ancora presenti. La virtualizzazione poi ha introdotto un ulteriore strato che rende le strutture di dati ancora più complesse e difficili da recuperare in caso di guasti (come ad esempio i clustered file system che distribuiscono i dati fra più nodi).
Nei capitoli successivi andremo a spiegare brevemente come funzionano i dispositivi più diffusi (Hard disk, memorie flash, Array di dischi) per capire dove risiedono i maggiori rischi di perdita di dati, ma anche come è possibile recuperare dati da strutture logiche complesse come DB o storage per infrastrutture virtualizzate.

Nel prossimo articolo della serie tratterò più in dettaglio le problematiche che riguardano i diversi tipi di dispositivo

Discalimer: L’azienda Kroll Ontrak ha sponsorizzato la realizzazione di un report sulla problematica del recupero dei dati. Il documento è diviso in due parti, nella prima viene presentata la problematica nei suoi aspetti più generali: introduzione, problematiche specifiche legate a diversi tipi di dispositivi, sistemi più complessi e virtualizzazione. La seconda parte di questa pubblicazione è dedicata alla presentazione di Kroll Ontrack. Il report sarà presto scaricabile dal sito dell’azienda e dall’area dei download del sito di Juku. In questo blog abbiamo deciso di pubblicare una serie di articoli che ripropongono la sezione indipendente del documento.