Limitazioni della pipeline

Di seguito sono riportate le limitazioni delle pipeline dichiarative di Lakeflow Spark importanti da conoscere durante lo sviluppo delle pipeline:

  • Un'area di lavoro di Azure Databricks è limitata a 1000 aggiornamenti simultanei della pipeline. Il numero di set di dati che una singola pipeline può contenere è determinato dalla configurazione della pipeline e dalla complessità del carico di lavoro.

  • La configurazione di una pipeline include riferimenti a file e cartelle di origine.

    • Se la configurazione fa riferimento solo a singoli notebook o file, il limite per pipeline è di 100 file di origine.

    • Se la configurazione include cartelle, è possibile includere fino a 50 voci di origine costituite da file o cartelle.

      Fare riferimento a una cartella indirettamente fa riferimento ai file all'interno di tale cartella. In questo caso, il limite per il numero di file a cui si fa riferimento (direttamente o indirettamente) è 1000.

    Se sono necessari più di 100 file di origine, organizzarli in cartelle. Per sapere come utilizzare le cartelle per contenere i file di origine, consulta Browser delle risorse della pipeline nell'editor della pipeline Lakeflow.

  • I set di dati della pipeline possono essere definiti una sola volta. Per questo motivo, possono essere l'obiettivo di una sola operazione su tutte le pipeline. L'eccezione è costituita dalle tabelle di streaming con l'elaborazione in flusso di aggiunta, che permette di scrivere nella tabella di streaming da più origini di streaming. Vedi Flussi predefiniti e flussi aggiunti.

  • Le colonne Identity presentano le limitazioni seguenti. Per altre informazioni sulle colonne Identity nelle tabelle Delta, vedere Usare le colonne Identity in Delta Lake.

    • Le colonne Identity non sono supportate nelle tabelle destinate all'elaborazione AUTO CDC.
    • La colonna Identity potrebbe essere ricalcolata durante gli aggiornamenti delle viste materializzate. Per questo motivo, Databricks consiglia di usare le colonne Identity nelle pipeline solo con tabelle di streaming.
  • Per impostazione predefinita, è possibile accedere alle viste materializzate e alle tabelle di streaming solo dai client e dalle applicazioni Azure Databricks. Per renderli accessibili ai sistemi esterni, vedere Accedere alle viste materializzate e alle tabelle di streaming usando sistemi esterni.

  • Esistono limitazioni per il calcolo di Databricks necessario per eseguire ed eseguire query sulle pipeline di Unity Catalog. Vedere i requisiti per le pipeline che pubblicano in Unity Catalog.

  • Le query relative ai viaggi temporali Delta Lake sono supportate solo con le tabelle di streaming e non sono supportate con viste materializzate. Consulta Lavora con la cronologia delle tabelle.

  • Non è possibile abilitare le letture di Iceberg nelle viste materializzate e nelle tabelle di streaming.

  • La funzione pivot() non è supportata. L'operazione pivot in Spark richiede il caricamento anticipato dei dati di input per calcolare lo schema di output. Questa funzionalità non è supportata nelle pipeline.

Per le quote di risorse dichiarative di Lakeflow Spark, vedere Limiti delle risorse.