Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questa pagina fornisce suggerimenti per amministratori e utenti esperti che configurano connessioni tra Azure Databricks e origini dati esterne e servizi.
È possibile connettere l'account Azure Databricks alle origini dati, ad esempio l'archiviazione di oggetti cloud, i sistemi di gestione di database relazionali, i servizi di dati di streaming e le piattaforme aziendali, ad esempio i CRL. È anche possibile connettere l'account Azure Databricks a servizi esterni non di archiviazione.
Configurare le connessioni all'archiviazione di oggetti cloud
La maggior parte dei dati usati dai carichi di lavoro Azure Databricks viene archiviata nell'archiviazione di oggetti cloud, ad esempio Azure Data Lake Storage o AWS S3. È possibile gestire l'accesso all'archiviazione di oggetti cloud usando una delle opzioni seguenti:
Catalogo Unity (scelta consigliata), che fornisce la governance dei dati sia per i dati strutturati che non strutturati nell'archiviazione di oggetti cloud. Vedete Connettersi all'archiviazione di oggetti cloud usando Unity Catalog.
Connettori legacy e modelli di connessione. Vedere Configurare l'accesso all'archiviazione di oggetti cloud per Azure Databricks usando modelli legacy.
Connessioni del catalogo Unity
Una connessione al catalogo Unity è un oggetto sicuro che memorizza l'endpoint e le credenziali necessarie per accedere a un sistema esterno. Le connessioni consentono di gestire l'autenticazione e la configurazione per sistemi dati esterni, tra cui federazione, inserimento gestito, JDBC e HTTP. Per una panoramica di tutti i tipi di connessione e su come scegliere tra di essi, vedere Connessioni del catalogo Unity.
Configurare le connessioni a sistemi dati esterni
Databricks offre diverse opzioni per la configurazione delle connessioni a sistemi dati esterni. La seguente tabella fornisce una panoramica generale di queste opzioni:
| Option | Description |
|---|---|
| Connettori di federazione per interrogazioni | La federazione delle query fornisce accesso in sola lettura ai database relazionali esterni delegando l'esecuzione delle query di Unity Catalog tramite JDBC. Le origini supportate includono PostgreSQL, MySQL, SQL Server, Snowflake e altro ancora. |
| Connettori di federazione del catalogo | La federazione del catalogo connette piattaforme di catalogo esterne, ad esempio un metastore Hive o Snowflake Horizon Catalog, in modo da poter eseguire query sui dati direttamente nell'archiviazione file senza spostamento dei dati. |
| Connettori di ingestione gestiti | Lakeflow Connect consente agli utenti amministratori di creare una connessione e un flusso di ingestion gestito allo stesso tempo nell'interfaccia utente di ingestion dei dati. Vedi Connettori gestiti in Lakeflow Connect. Se gli utenti che creeranno pipeline non sono utenti non amministratori o prevedono di usare le API Databricks, gli SDK di Databricks, l'interfaccia della riga di comando di Databricks o i bundle di automazione dichiarativa, un amministratore deve prima creare la connessione in Esplora cataloghi. Queste interfacce richiedono che gli utenti specifichino una connessione esistente quando creano una pipeline. Vedere Connettersi alle origini di inserimento gestite. |
| Connettori di streaming | Azure Databricks offre connettori ottimizzati per molti sistemi di dati di streaming. Per tutte le origini dati di streaming, è necessario generare credenziali che forniscono l'accesso e caricano queste credenziali in Azure Databricks. Databricks consiglia di memorizzare le credenziali utilizzando i segreti, perché puoi utilizzare i segreti per tutte le opzioni di configurazione e in tutte le modalità di accesso. Tutti i connettori di dati per le fonti di streaming supportano il passaggio delle credenziali utilizzando opzioni quando si definiscono query di streaming. Consulta Connettori Standard in Lakeflow Connect. |
| Integrazioni di terze parti | Usare strumenti di terze parti per connettersi a origini dati esterne e automatizzare l'inserimento di dati nel lakehouse. Alcune soluzioni includono anche L'ETL inverso e l'accesso diretto ai dati lakehouse da sistemi esterni. Vedere Che cos'è Databricks Partner Connect?. |
| API origine dati Spark | Usare l'API origine dati Spark per leggere e scrivere in database esterni. Databricks Runtime include connettori integrati per le origini dati comuni. È anche possibile usare una connessione di Unity Catalog con il file JAR del driver JDBC, installare connettori di terze parti in cluster dedicati o creare connettori personalizzati con l'API PySpark DataSource. Vedere Origini dati Spark. Per l’accesso in sola lettura, Databricks consiglia Lakehouse Federation. |
| JDBC | Connettersi a database esterni usando JDBC con una connessione Unity Catalog per l'accesso controllato, l'isolamento delle credenziali e il supporto tra ambienti di calcolo. Vedere Connessione JDBC. Per le configurazioni JDBC legacy senza governance di Unity Catalog, consulta Eseguire query sui database con JDBC. Per la federazione di query di sola lettura, Lakehouse Federation è sempre preferibile. |
Configurare le connessioni ai servizi cloud non di archiviazione
Il catalogo unity regola l'accesso ai servizi cloud non di archiviazione usando un oggetto a protezione diretta denominato credenziale del servizio. Una credenziale del servizio incapsula una credenziale cloud a lungo termine che fornisce l'accesso a un servizio cloud non di archiviazione a cui gli utenti devono connettersi da Azure Databricks. Vedere Connettersi a servizi cloud esterni usando il catalogo unity.
Gestire e richiedere l'accesso alle origini dati e ai servizi esterni
La maggior parte dei metodi di connessione richiede privilegi elevati sia per l'origine dati esterna che per l'area di lavoro Azure Databricks. Nelle organizzazioni tipiche, pochi utenti dispongono di privilegi sufficienti sia in Azure Databricks che nei provider di dati e di archiviazione esterni per configurare autonomamente le connessioni dati.
L'organizzazione potrebbe aver già configurato l'accesso a un'origine dati o a un servizio usando uno dei modelli descritti negli articoli collegati da questa pagina. Se l'organizzazione ha un processo ben definito per richiedere l'accesso ai dati e ai servizi di terze parti, Databricks consiglia di seguire questo processo. Se non si è certi di come ottenere l'accesso a un'origine dati, questa procedura può essere utile:
- Usare Esplora cataloghi per visualizzare le tabelle e i volumi a cui è possibile accedere. Vedi What is Catalog Explorer?.
- Chiedi ai tuoi compagni di squadra o ai manager delle fonti di dati a cui possono accedere.
- La maggior parte delle organizzazioni usa i gruppi sincronizzati dal provider di identità , ad esempio Okta o Microsoft Entra ID, per gestire le autorizzazioni per gli utenti dell'area di lavoro. Se altri membri del team possono accedere alle origini dati a cui è necessario accedere, chiedere a un amministratore dell'area di lavoro di aggiungere l'utente al gruppo corretto per concedere l'accesso.
- Se una tabella, un volume o un'origine dati specifica è stata configurata da un collega, tale utente deve essere in grado di concedere l'accesso ai dati.
Alcune organizzazioni collegano le autorizzazioni di accesso ai dati a cluster di calcolo e a sql warehouse specifici. Si tratta di un modello di governance legacy, ma se l'organizzazione lo usa e si vuole scoprire quali origini dati sono disponibili in una risorsa di calcolo specifica, contattare l'autore di calcolo elencato nella scheda Calcolo .