Affidabilità in archiviazione su disco di Azure

archiviazione su disco di Azure fornisce dischi gestiti per le macchine virtuali di Azure. Progettato per carichi di lavoro business critical, garantisce affidabilità e disponibilità di livello aziendale. I dati vengono replicati automaticamente per proteggersi dagli errori hardware, con più opzioni di ridondanza per soddisfare i requisiti di durabilità.

Quando si usa Azure, reliability è una responsabilità condivisa. Microsoft offre una gamma di funzionalità per supportare resilienza e ripristino. L'utente è responsabile della comprensione del funzionamento di tali funzionalità all'interno di tutti i servizi usati e della selezione delle funzionalità necessarie per soddisfare gli obiettivi aziendali e gli obiettivi di tempo di attività.

Questo articolo descrive come rendere archiviazione su disco di Azure resiliente a varie potenziali interruzioni e problemi, tra cui errori temporanei, errori della zona di disponibilità e errori a livello di area. Descrive anche le opzioni di backup e ripristino ed evidenzia le informazioni chiave sul contratto di servizio archiviazione su disco di Azure.

Importante

Quando si considera l'affidabilità di un disco, è necessario considerare anche l'affidabilità delle macchine virtuali, dell'infrastruttura di rete e delle applicazioni eseguite nelle macchine virtuali. Il miglioramento della resilienza del disco da solo potrebbe avere un impatto limitato se gli altri componenti non sono ugualmente resilienti. A seconda dei requisiti di resilienza, potrebbe essere necessario apportare modifiche alla configurazione in più aree.

Raccomandazioni per la distribuzione di produzione

Azure Well-Architected Framework offre raccomandazioni per affidabilità, prestazioni, sicurezza, costi e operazioni. Per comprendere in che modo queste aree influiscono tra loro e contribuiscono a una soluzione di archiviazione su disco di Azure affidabile, vedere Architecture consigliate per archiviazione su disco di Azure.

Panoramica dell'architettura di affidabilità

Ogni macchina virtuale usa dischi per scopi diversi:

  • Disco del sistema operativo: Un singolo disco del sistema operativo esegue il sistema operativo. Per impostazione predefinita, si tratta di un disco gestito che rende persistenti i dati. È anche possibile usare dischi temporanei del sistema operativo, che non sono gestiti. Evitare di usare il disco del sistema operativo per archiviare applicazioni o dati.
  • Dischi dati: Zero o più dischi gestiti per l'archiviazione di applicazioni e dati.
  • Disco temporaneo: Un disco non persistente non gestito incluso in ogni macchina virtuale.

Questa guida è in particolare incentrata sui dischi gestiti, che consentono di rendere persistenti i dati in modo affidabile. Per altre informazioni sui diversi ruoli del disco, vedere Ruoli del disco.

I dischi gestiti sono progettati per garantire una disponibilità delle macchine virtuali del 99,999% e offrono almeno il 99,99999999999% (11 9s) di durabilità. Quando si usano dischi gestiti, i dati vengono replicati tre volte. Se una delle tre copie diventa non disponibile, Azure crea automaticamente una nuova copia dei dati in background. Questo processo garantisce la persistenza dei dati e la tolleranza di errore elevata.

Per impostazione predefinita, i dischi gestiti usano l'archiviazione con ridondanza locale. LRS mantiene tre copie dei dati del disco all'interno di un singolo data center, proteggendo dai guasti hardware, ad esempio problemi alle unità o ai rack del server.

Anche se l'archiviazione con ridondanza locale (LRS) protegge i dischi da errori di rack e unità del server, non prende in considerazione disastri come incendi o allagamenti all'interno di un datacenter. Per livelli di protezione più elevati, usare Archiviazione con Ridondanza della Zona (ZRS), che replica i dischi in più zone di disponibilità.

Per le applicazioni in esecuzione in più macchine virtuali, più macchine virtuali hanno il contratto di servizio di disponibilità più elevato quando viene distribuito tra più zone di disponibilità. Per le macchine virtuali e i dischi distribuiti tra più zone di disponibilità, i dischi e le vm padre sono collocati rispettivamente nella stessa zona, impedendo l'arresto di più macchine virtuali anche in caso di interruzione di un'intera zona.

Quando le zone non sono disponibili o il carico di lavoro è sensibile alla latenza tra VM, distribuisci le VM e i dischi in più domini di errore. I domini di errore non forniscono ridondanza della zona, ma riducono l'impatto di errori hardware, interruzioni della rete o interruzioni dell'alimentazione. In questo modo si impedisce il guasto di più macchine virtuali in caso di malfunzionamento di un dominio di errore di archiviazione.

Resilienza a errori temporanei

Gli errori temporanei sono errori brevi e intermittenti nei componenti. Si verificano spesso in un ambiente distribuito come il cloud e fanno parte delle normali operazioni. Gli errori temporanei si correggono dopo un breve periodo di tempo. È importante che le applicazioni possano gestire gli errori temporanei, in genere ritentando le richieste interessate.

Tutte le applicazioni ospitate nel cloud devono seguire le linee guida per la gestione degli errori temporanei Azure quando comunicano con qualsiasi API, database e altri componenti ospitati nel cloud. Per altre informazioni, vedere Raccomandazioni per la gestione degli errori temporanei.

I dischi gestiti vengono ripristinati automaticamente da errori temporanei nell'infrastruttura di Azure.

Resilienza ai guasti delle zone di disponibilità

Zone di disponibilità sono gruppi fisicamente separati di data center all'interno di un'area Azure. In caso di guasto in una zona, i servizi possono passare a una delle zone restanti.

Esistono due modi per usare le zone di disponibilità con dischi gestiti:

  • È possibile distribuire un disco ZRS, archiviato in tre zone di disponibilità all'interno di un'area. Per la massima affidabilità, è consigliabile usare i dischi ZRS perché i dischi ZRS garantiscono la resilienza automatica della zona.
  • È possibile distribuire un disco LRS di zona, che si trova in un'unica zona. Quando usi dischi LRS zonali, sei responsabile della configurazione del carico di lavoro in modo che sia resiliente alle interruzioni di zona. Questa resilienza viene eseguita distribuendo più macchine virtuali e dischi e individuandoli tra le zone di disponibilità.

Se non si configura il supporto per la zona di disponibilità, il disco è non zonale o regionale e può essere posizionato in qualsiasi zona di disponibilità nella regione. Questi dischi sono considerati LRS perché vengono replicati all'interno dell'area.

Dischi con ridondanza zonale

ZRS replica in modo sincrono i dati in tre zone di disponibilità all'interno di un'area geografica. Quando si abilita la ridondanza della zona per un disco gestito, Azure garantisce che un errore in qualsiasi singola zona non influisca sulla disponibilità dei dati.

Diagramma di un disco con ridondanza della zona. Le repliche vengono distribuite in tre zone di disponibilità nell'area.

I dischi ZRS possono essere condivisi tra macchine virtuali per migliorare la disponibilità di applicazioni in cluster o distribuite, ad esempio SQL Server FCI, SAP ASCS/SCS o GFS2. È possibile collegare un disco ZRS condiviso a macchine virtuali primarie e secondarie in zone diverse, sfruttando sia i dischi ZRS che le macchine virtuali distribuite tra più zone di disponibilità. Se la zona primaria ha esito negativo, è possibile eseguire rapidamente il failover nella macchina virtuale secondaria usando una prenotazione permanente SCSI.

Se un disco ZRS è collegato come disco dati a una singola macchina virtuale in una zona che ha smesso di funzionare, puoi forzare lo scollegamento del disco dalla macchina virtuale guasta e connetterlo a un'altra macchina virtuale.

Requisiti

  • Supporto per le regioni: Per un elenco delle regioni che supportano i dischi gestiti ZRS, vedere le opzioni di ridondanza per i dischi gestiti.

  • Tipi di disco: I dischi con ridondanza della zona sono supportati con dischi gestiti SSD Premium e SSD Standard. La ZRS (Zone Redundant Storage) non è supportata con SSD Premium v2, Ultra Disks o dischi gestiti HDD Standard.

Cost

ZRS comporta un costo maggiore rispetto a LRS a causa dell'overhead di replica aggiuntivo e dell'infrastruttura necessari per mantenere i dati in più zone. La differenza esatta dei costi varia in base all'area e al tipo di disco. Per informazioni dettagliate sui prezzi, vedere Azure prezzi del disco gestito.

Configurare il supporto delle zone di disponibilità

  • Creare un nuovo disco ZRS: Per creare un nuovo disco ZRS gestito, consultare il Tutorial - Gestire i dischi Azure con l'interfaccia della riga di comando di Azure per le macchine virtuali Linux, oppure il Tutorial: Gestire i dischi con Azure PowerShell per le macchine virtuali Windows. Selezionare un livello disco ZRS alla creazione del disco.

    L'utente è responsabile del collegamento del disco alle macchine virtuali, inclusa la configurazione di dischi condivisi in più macchine virtuali in zone diverse, se appropriato per il carico di lavoro.

  • Modificare un disco esistente per usare l'archiviazione con ridondanza della zona: È possibile convertire un disco non a livello di area esistente in archiviazione con ridondanza della zona.

    Anche se non è possibile convertire un disco LRS a livello di zona in ZRS, è possibile creare un nuovo disco ZRS da uno snapshot. Vedere Convertire un disco dall'archiviazione con ridondanza locale all'archiviazione con ridondanza della zona per informazioni dettagliate sulle procedure e i requisiti di migrazione.

  • Disabilitare il supporto della zona di disponibilità: Non è possibile modificare la configurazione della zona di disponibilità di un disco ZRS esistente. È invece necessario creare un nuovo disco con la nuova configurazione usando uno snapshot del disco precedente e quindi eliminarlo.

Comportamento quando tutte le zone sono integre

Questa sezione descrive cosa è possibile aspettarsi quando si configurano i dischi gestiti per ZRS e tutte le zone di disponibilità sono operative.

  • Operazione tra zone: Azure gestisce automaticamente il routing del traffico tra le zone di disponibilità quando si usa una macchina virtuale con un disco a ridondanza di zona. Durante le normali operazioni, le richieste vengono distribuite in modo trasparente tra le zone.

  • Replica dei dati tra zone: I dischi ZRS replicano ogni scrittura in modo sincrono in più zone di disponibilità nella regione. Un'operazione di scrittura viene completata solo dopo che i dati vengono archiviati in cluster in più zone. Questo approccio offre coerenza assoluta e disponibilità elevata, ma può introdurre una latenza di scrittura leggermente superiore rispetto ai dischi con ridondanza locale.

Comportamento durante un errore di zona

Questa sezione descrive cosa aspettarsi quando si configura un disco gestito per ZRS e si verifica un'interruzione in una delle zone di disponibilità.

  • Rilevamento e risposta: Le interruzioni della zona possono influire solo sui dischi, solo sulle macchine virtuali o su entrambi. Il comportamento dipende dal fatto che l'interruzione della zona influisca sulla macchina virtuale collegata al disco.

    Se la macchina virtuale rimane integra ma il disco è interessato dall'interruzione, la macchina virtuale continua a funzionare. Microsoft reindirizza automaticamente le operazioni su disco per lavorare sui dati nelle zone di disponibilità integre e non è necessario eseguire alcuna operazione.

    Se la macchina virtuale è inattiva, è necessario passare il carico di lavoro a un'altra macchina virtuale in una zona di disponibilità diversa.

    • Dischi condivisi: Se la macchina virtuale secondaria è già stata creata in una zona diversa e sono stati configurati dischi condivisi, il disco è disponibile per l'uso della macchina virtuale secondaria. Non sono necessarie modifiche alla configurazione.

    • Dischi non condivisi: È possibile forzare lo scollegamento del disco dalla macchina virtuale con errore e quindi collegarlo a una macchina virtuale in una zona sana. Per eseguire un distacco forzato:

      • interfaccia della riga di comando di Azure: Usare il comando az vm disk detach con l'argomento --force-detach.
      • Azure PowerShell: usare il cmdlet Remove-AzVMDataDisk con l'argomento -ForceDetach.
  • Notification: Microsoft non invia automaticamente una notifica quando una zona è inattiva. È tuttavia possibile usare Azure Integrità risorse per monitorare l'integrità di una singola risorsa ed è possibile configurare Integrità risorse avvisi per segnalare eventuali problemi. È anche possibile usare integrità dei servizi di Azure per comprendere l'integrità complessiva del servizio, inclusi eventuali errori di zona, ed è possibile configurare gli avvisi di integrità Servizi per notificare i problemi.
  • Perdita di dati prevista: Non si verifica alcuna perdita di dati durante i guasti della zona.

  • Tempo di inattività previsto: Quando il disco viene condiviso tra più macchine virtuali, non è previsto alcun tempo di inattività.

  • Redistribution: Azure reindirizza automaticamente il traffico a un'altra copia del disco che si trova in una zona integra.

Ripristino della zona

Azure rileva automaticamente quando la zona precedentemente non riuscita è integra e ripristina la sincronizzazione dei dati nella zona ripristinata.

Dischi LRS zonali

I dischi LRS zonali risiedono in una zona di disponibilità specifica e si collegano solo alle VM in tale zona. Tutte le copie dei dati del disco si trovano nella stessa zona. Un singolo disco LRS a livello di zona e una singola VM non offrono resilienza a livello di zona. Se la zona che contiene il disco riscontra un'interruzione, il disco potrebbe non essere disponibile.

Diagramma di un disco LRS a livello di zona. Le relative repliche sono tutte in un'unica zona di disponibilità.

Per i carichi di lavoro con più macchine virtuali, è possibile ottenere la resilienza della zona distribuendo più macchine virtuali e i dischi di archiviazione con ridondanza locale di zona in zone di disponibilità diverse. Questo approccio è il modo più comune per ottenere la disponibilità elevata per carichi di lavoro come server Web, livelli applicazione e cluster di database. Se una zona non riesce, è possibile configurare il carico di lavoro per garantire il funzionamento continuo usando le macchine virtuali in zone funzionanti.

Diagramma che mostra tre VM in zone diverse, ciascuna con il proprio disco LRS a livello di zona.

Questo modello di distribuzione a più zone funziona con tutti i tipi di disco, inclusi i dischi SSD Premium v2 e Ultra, che supportano solo l'archiviazione con ridondanza locale. Per altre informazioni su questo approccio, vedere Distribuire macchine virtuali e dischi tra zone di disponibilità.

Requisiti

Cost

I dischi Zonal LRS vengono addebitati alla stessa tariffa dei dischi non zonali. Per informazioni dettagliate sui prezzi, vedere Azure prezzi del disco gestito.

Configurare il supporto delle zone di disponibilità

  • Creare un nuovo disco con supporto per le zone di disponibilità: Per creare un nuovo disco gestito con ridondanza LRS a zona, vedi Tutorial - Gestire i dischi di Azure con interfaccia della riga di comando di Azure per le macchine virtuali Linux oppure Tutorial - Gestire i dischi con Azure PowerShell per le macchine virtuali Windows.

    Selezionare la zona di disponibilità durante la creazione del disco.

    Importante

    Si consiglia di limitarsi a una singola zona di disponibilità solo quando la latenza inter-zona è troppo elevata per le proprie esigenze e dopo aver verificato che la latenza effettivamente non soddisfi i requisiti. Di per sé, una risorsa di zona non fornisce resilienza a un'interruzione della zona di disponibilità. Per migliorare la resilienza di una risorsa di zona, è necessario distribuire in modo esplicito risorse separate in più zone di disponibilità e configurare il routing e il failover del traffico. Per altre informazioni, vedere Risorse di zona e resilienza della zona.

  • Modificare la configurazione della zona di disponibilità di un disco esistente: Non è possibile modificare la configurazione della zona di disponibilità di un disco con ridondanza locale di zona esistente. È invece necessario creare un nuovo disco con la nuova configurazione usando uno snapshot del disco precedente e quindi eliminarlo.

Comportamento quando tutte le zone sono integre

Questa sezione descrive che cosa aspettarsi durante la configurazione di un disco gestito per LRS zonale, quando tutte le zone di disponibilità sono operative.

  • Operazione tra zone: Il traffico tra una macchina virtuale di zona e un disco di archiviazione con ridondanza locale di zona nella stessa zona rimane all'interno della zona di disponibilità.

    Quando si distribuiscono più macchine virtuali tra zone, si è responsabili della distribuzione delle richieste in ingresso tra le macchine virtuali. Ogni macchina virtuale legge e scrive nel proprio disco di zona.

  • Replica dei dati tra zone: Tutte le operazioni di scrittura nei dischi di archiviazione con ridondanza locale di zona vengono replicate in modo sincrono all'interno della zona di disponibilità.

    Quando si distribuiscono più macchine virtuali tra zone, se il carico di lavoro richiede la coerenza dei dati tra le macchine virtuali, si è responsabili della sincronizzazione dei dati. Ad esempio, è possibile usare la replica di database o la replica a livello di applicazione.

Comportamento durante un errore di zona

Questa sezione descrive che cosa aspettarsi quando si configura un disco gestito per LRS zonale e si verifica un'interruzione in una delle zone di disponibilità.

  • Rilevamento e risposta: Se si dispone di una singola macchina virtuale con un disco LRS zonale, si è responsabili del rilevamento di un'interruzione di zona e dell'attivazione di un failover o di un'altra risposta.

    Quando si dispone di macchine virtuali distribuite tra più zone, si è responsabili della configurazione del carico di lavoro per rilevare gli errori di zona e continuare a essere eseguiti nelle macchine virtuali che si trovano in zone integre.

  • Notification: Microsoft non invia automaticamente una notifica quando una zona è inattiva. È tuttavia possibile usare Azure Integrità risorse per monitorare l'integrità di una singola risorsa ed è possibile configurare Integrità risorse avvisi per segnalare eventuali problemi. È anche possibile usare integrità dei servizi di Azure per comprendere l'integrità complessiva del servizio, inclusi eventuali errori di zona, ed è possibile configurare gli avvisi di integrità Servizi per notificare i problemi.
  • Perdita di dati prevista: La replicazione LRS garantisce almeno il 99,999999999% (11 9) di durabilità, quindi il disco conserva i propri dati e questi possono essere recuperati una volta ripristinata la zona.

    Quando si dispone di macchine virtuali distribuite tra zone, tutti i dati che si trovavano solo sui dischi nella zona di errore non sono temporaneamente disponibili. Se l'applicazione sincronizza i dati tra macchine virtuali, le macchine virtuali nelle zone integre continuano a gestire le richieste usando i propri dati.

  • Tempo di inattività previsto: Un singolo disco LRS zonale non è disponibile fino al ripristino della zona di disponibilità.

    Quando si dispone di macchine virtuali e dischi distribuiti tra zone, il carico di lavoro può continuare a funzionare sulle macchine virtuali in zone integre.

  • Ridistribuzione: Se si dispone di una singola macchina virtuale con un disco LRS a zona, spetta all’utente reindirizzare il traffico a un’altra macchina virtuale, se ne è disponibile un’altra.

    Quando le macchine virtuali sono distribuite tra zone, è possibile configurare il carico di lavoro per ridistribuire automaticamente il traffico alle macchine virtuali in zone integre.

Ripristino della zona

Quando la zona di disponibilità non riuscita viene ripristinata, i dischi gestiti vengono ripristinati automaticamente. Se la macchina virtuale collegata al disco è stata interessata dall'interruzione, viene riavviata. L'utente è responsabile della risincronizzazione dei dati dell'applicazione in altre macchine virtuali e dischi in altre zone di disponibilità, se vengono usati.

Verifica dei guasti di zona

Non è possibile simulare direttamente i guasti della zona a livello di disco, ma è possibile usare il supporto di Azure Chaos Studio per simulare eventi di indisponibilità della zona nei set di scalabilità di macchine virtuali e simulare la perdita di una singola macchina virtuale.

È consigliabile testare la resilienza dell'applicazione in caso di errori della zona e il comportamento del disco gestito durante le interruzioni. Monitorare le prestazioni del disco durante le interruzioni della zona simulate e verificare che le applicazioni gestiscano in modo appropriato una maggiore latenza. Implementare scenari di test automatizzati che verificano che le applicazioni possano gestire ritardi di I/O temporanei e forzare le operazioni di scollegamento per i dischi condivisi.

Resilienza agli errori a livello di area

archiviazione su disco di Azure è un servizio a singola area che opera entro i limiti di un'area Azure specifica. Il servizio non offre funzionalità native multiregione o failover automatico tra regioni. Se un'area non è più disponibile, anche le risorse del disco gestito in tale area non sono disponibili.

Soluzioni personalizzate in più aree per la resilienza

È possibile creare una soluzione in più aree distribuendo macchine virtuali e dischi in ogni area, replicando o eseguendo il backup dei dati tra aree e eseguendo il failover o il ripristino da backup quando necessario. Si è responsabili della gestione delle risorse in ogni area, del coordinamento e della sincronizzazione dei dati e della gestione del failover o del ripristino. Alcuni approcci comuni includono:

Backup e ripristino

Azure i dischi gestiti supportano più approcci di backup per proteggersi dalla perdita e dal danneggiamento dei dati. Azure Backup del disco è una soluzione nativa basata sul cloud che automatizza la gestione del ciclo di vita degli snapshot. Offre backup incrementali compatibili con i crash con politiche di conservazione configurabili. Questo approccio senza agente supporta più backup al giorno senza influire sulle prestazioni dell'applicazione e si integra con Backup di Azure center per la gestione centralizzata. È possibile usare snapshot incrementali per ridurre i costi di archiviazione e i tempi di backup.

Per la protezione a livello di VM, Backup di Azure fornisce backup coerenti con l'applicazione per l'intera macchina virtuale, inclusi tutti i dischi collegati. Questo approccio è ideale quando è necessario eseguire il backup coordinato di più dischi o backup in grado di supportare le applicazioni. Per i carichi di lavoro del database, prendere in considerazione soluzioni di backup specifiche dell'applicazione che offrono una protezione coerente con le transazioni e opzioni di ripristino più veloci.

Per i carichi di lavoro critici, implementare una strategia di backup a più livelli che combina Azure Backup su disco, replica di snapshot tra aree e backup a livello di applicazione per la coerenza delle transazioni. Configurare i criteri di backup in base ai requisiti di ripristino, alle esigenze di conformità e alle considerazioni sui costi.

Contratto di servizio

Il contratto di servizio (SLA) per Azure servizi descrive la disponibilità prevista di ogni servizio e le condizioni che la soluzione deve soddisfare per ottenere tale aspettativa di disponibilità. Per ulteriori informazioni, vedere Accordi sul livello di servizio (SLA) per i servizi online.

archiviazione su disco di Azure non fornisce il proprio contratto di servizio di disponibilità, ma è incluso nel contratto di servizio per le macchine virtuali. La configurazione del disco può influire sul contratto di servizio di disponibilità della macchina virtuale.