Limitazioni della pipeline

Di seguito sono riportate le limitazioni delle pipeline dichiarative di Lakeflow Spark importanti da conoscere durante lo sviluppo delle pipeline:

Un'area di lavoro di Azure Databricks è limitata a 1000 aggiornamenti simultanei della pipeline. Il numero di set di dati che una singola pipeline può contenere è determinato dalla configurazione della pipeline e dalla complessità del carico di lavoro.
La configurazione di una pipeline include riferimenti a file e cartelle di origine.
- Se la configurazione fa riferimento solo a singoli notebook o file, il limite per pipeline è di 100 file di origine.
- Se la configurazione include cartelle, è possibile includere fino a 50 voci di origine costituite da file o cartelle.
  
  Fare riferimento a una cartella indirettamente fa riferimento ai file all'interno di tale cartella. In questo caso, il limite per il numero di file a cui si fa riferimento (direttamente o indirettamente) è 1000.
Se sono necessari più di 100 file di origine, organizzarli in cartelle. Per sapere come utilizzare le cartelle per contenere i file di origine, consulta Browser delle risorse della pipeline nell'editor della pipeline Lakeflow.
I set di dati della pipeline possono essere definiti una sola volta. Per questo motivo, possono essere l'obiettivo di una sola operazione su tutte le pipeline. L'eccezione è costituita dalle tabelle di streaming con l'elaborazione in flusso di aggiunta, che permette di scrivere nella tabella di streaming da più origini di streaming. Vedi Flussi predefiniti e flussi aggiunti.
Le colonne Identity presentano le limitazioni seguenti. Per altre informazioni sulle colonne Identity nelle tabelle Delta, vedere Usare le colonne Identity in Delta Lake.
- Le colonne Identity non sono supportate nelle tabelle destinate all'elaborazione AUTO CDC.
- La colonna Identity potrebbe essere ricalcolata durante gli aggiornamenti delle viste materializzate. Per questo motivo, Databricks consiglia di usare le colonne Identity nelle pipeline solo con tabelle di streaming.
Per impostazione predefinita, è possibile accedere alle viste materializzate e alle tabelle di streaming solo dai client e dalle applicazioni Azure Databricks. Per renderli accessibili ai sistemi esterni, vedere Accedere alle viste materializzate e alle tabelle di streaming usando sistemi esterni.
Esistono limitazioni per il calcolo di Databricks necessario per eseguire ed eseguire query sulle pipeline di Unity Catalog. Vedere i requisiti per le pipeline che pubblicano in Unity Catalog.
Le query relative ai viaggi temporali Delta Lake sono supportate solo con le tabelle di streaming e non sono supportate con viste materializzate. Consulta Lavora con la cronologia delle tabelle.
Non è possibile abilitare le letture di Iceberg nelle viste materializzate e nelle tabelle di streaming.
La funzione pivot() non è supportata. L'operazione pivot in Spark richiede il caricamento anticipato dei dati di input per calcolare lo schema di output. Questa funzionalità non è supportata nelle pipeline.

Per le quote di risorse dichiarative di Lakeflow Spark, vedere Limiti delle risorse.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-06-23

Limitazioni della pipeline

Commenti e suggerimenti

Risorse aggiuntive