Architettura di archiviazione

Lakebase separa l'archiviazione dal calcolo. I dati del database si trovano in un livello di archiviazione distribuito gestito da Databricks, indipendentemente dalle istanze di calcolo che eseguono le query. L'archiviazione rimane persistente e altamente disponibile, sia che le risorse di calcolo siano in esecuzione, in pausa o in fase di scalabilità.

Architettura di archiviazione che mostra le risorse di calcolo connesse a uno storage distribuito ridondato tra zone, che rende persistenti i dati nell'object storage cloud gestito da Databricks.

Nota

In Azure Lakebase rende persistenti i dati in Archiviazione BLOB di Azure come livello di archiviazione degli oggetti cloud. A seconda della regione, l'archiviazione utilizza l'archiviazione con ridondanza locale (LRS) o l'archiviazione con ridondanza della zona (ZRS). LRS replica i dati su più copie all'interno di un singolo data center, garantendo un'elevata durabilità all'interno della regione. ZRS replica i dati tra più zone di disponibilità. Databricks gestisce il livello di ridondanza dell'archiviazione. Non è configurabile dal cliente.

Livello di archiviazione

Lakebase usa un'architettura di archiviazione distribuita. Nessuna singola macchina detiene lo stato canonico del tuo database. I dati vengono salvati in modo permanente anche nell'archiviazione di oggetti cloud gestita da Databricks, la base di durabilità per l'intero livello di archiviazione. L'archiviazione di oggetti cloud è progettata per durabilità estremamente elevata e non si basa sulla replica asincrona, quindi la durabilità non è influenzata dal ritardo della replica. Azure Databricks gestisce la configurazione della ridondanza dell'archiviazione.

In Azure Lakebase rende persistenti i dati in Archiviazione BLOB di Azure come livello di archiviazione degli oggetti cloud.

La ridondanza dello storage è indipendente dall'alta disponibilità del compute

La ridondanza e la disponibilità di Lakebase storage sono gestite da Azure Databricks ed è indipendente dall'impostazione di calcolo a disponibilità elevata. L'abilitazione o la disabilitazione dell'alta disponibilità non influisce sulla ridondanza dello storage.

L'alta disponibilità è una funzionalità del livello di elaborazione. Preconfigura un'istanza di calcolo secondaria in un'altra zona di disponibilità per il failover automatico. La ridondanza dello storage e l'alta disponibilità delle risorse di calcolo sono livelli indipendenti.

Caratteristica Ridondanza dell'archiviazione Alta disponibilità dell'elaborazione (HA)
Obbligatorio No
Configurabile dal cliente No
Cosa protegge Durabilità e disponibilità dei dati Possibilità di eseguire query

Confronto affiancato che mostra come la ridondanza dello storage rimanga invariata sia che l'HA del calcolo sia disabilitata sia che sia abilitata.

Come la separazione dell'archiviazione abilita altre funzionalità

La separazione dell'archiviazione dal calcolo consente diverse funzionalità di Lakebase:

  • Perdita di dati zero (RPO = 0): Poiché ogni transazione sottoposta a commit viene mantenuta in modo permanente nell'archiviazione di oggetti cloud prima che venga riconosciuta, non vengono persi dati di cui è stato eseguito il commit quando il calcolo ha esito negativo, viene riavviato, viene ridimensionato su zero o viene eseguito il failover.
  • Rami istantanei: Lakebase crea rami usando copy-on-write nell'archiviazione condivisa. Il processo non duplica alcun dato.
  • Repliche di lettura: Più istanze di calcolo leggono dallo stesso livello di archiviazione condiviso. Questo approccio non richiede la replica dei dati.
  • Scale-to-zero: Il calcolo viene sospeso, ma l'archiviazione persiste. I dati sono immediatamente disponibili quando il calcolo riprende.
  • Failover rapido: Poiché l'archiviazione è separata dal calcolo, il failover non comporta lo spostamento dei dati. Lakebase promuove un'istanza di calcolo secondaria, che si connette all'archiviazione esistente.
  • Alta disponibilità: Configurare la ridondanza a livello di elaborazione per il failover automatico tra zone di disponibilità. Vedere Disponibilità elevata.
  • Gestire la disponibilità elevata: Abilitare e configurare l'impostazione di calcolo a disponibilità elevata nell'endpoint. Vedere Gestire la disponibilità elevata.
  • Rami di database: Informazioni su come i rami usano l'archiviazione copy-on-write per creare ambienti isolati istantanei. Vedi Branches.
  • Repliche in lettura: Aggiungere istanze di calcolo di sola lettura che leggono dallo stesso livello di archiviazione senza replica dei dati. Consultare Repliche in lettura.