Configurazione dell'ambiente

Importante

Il runtime di intelligenza artificiale per le attività a nodo singolo è disponibile in anteprima pubblica. L'API di training distribuita per i carichi di lavoro con più GPU rimane in beta.

Questa pagina descrive come scegliere e configurare un ambiente Python per il runtime di intelligenza artificiale, inclusi il comportamento di memorizzazione nella cache dell'ambiente, le importazioni di moduli personalizzati e le limitazioni note.

Quale ambiente usare

Il runtime di intelligenza artificiale offre due ambienti di Python gestiti, l'ambiente Standard e l'ambiente di intelligenza artificiale di Databricks.

Ambiente Caratteristiche chiave Quando utilizzare
Ambiente standard Minimo; include cuda. A partire dall'ambiente versione 5torch e torchvision non sono più preinstallati. Si vuole il controllo completo sullo stack di dipendenze e si preferisce installare solo ciò che è necessario
Ambiente di intelligenza artificiale di Databricks Precaricata con framework di Machine Learning più diffusi (PyTorch, Transformers e altro ancora) Si vuole un ambiente completo per il training, l'ottimizzazione e la sperimentazione senza gestione manuale delle dipendenze

È anche possibile usare un ambiente di base dell'area di lavoro creato da un amministratore dell'area di lavoro per il calcolo GPU serverless. Vedere Creare per il calcolo serverless su GPU (AI Runtime).

Ambiente standard (ambiente minimo)

Un ambiente minimo e stabile contenente solo i pacchetti necessari per l'operazione di runtime di intelligenza artificiale. L'ambiente include cuda il supporto gpu. A partire dall'ambiente versione 5 torch e torchvision non sono più preinstallati. Installare le versioni necessarie per il carico di lavoro con pip install. Per i pacchetti installati in ogni versione dell'ambiente, vedere le note sulla versione seguenti.

Ideale per: gli utenti che vogliono il controllo completo sullo stack di dipendenze e preferiscono installare solo ciò di cui hanno bisogno.

Per selezionare: nel pannello laterale Ambiente scegliere Standard v5 o Standard v4 come ambiente di base.

Per ulteriori dettagli sulle versioni dei pacchetti installate nelle diverse versioni, consultare le note sulla versione:

Ambiente di intelligenza artificiale di Databricks

Disponibile nell'ambiente 4 e versioni successive. L'ambiente di intelligenza artificiale si basa sull'ambiente Standard con pacchetti e pacchetti di Common Runtime specifici per l'apprendimento automatico nelle GPU. I pacchetti preinstallati includono:

  • PyTorch (con supporto CUDA)
  • Transformers (Hugging Face)
  • E dipendenze aggiuntive di ML/DL

Ideale per: professionisti di Machine Learning che vogliono un ambiente completo per i carichi di lavoro di training, l'ottimizzazione e la sperimentazione senza la gestione manuale delle dipendenze.

Per selezionare: nel pannello laterale Ambiente scegliere intelligenza artificiale v5 o intelligenza artificiale v4 come ambiente di base.

Per ulteriori dettagli sulle versioni dei pacchetti installate nelle diverse versioni, consultare le note sulla versione:

Ambienti di base dell'area di lavoro

Un amministratore dell'area di lavoro può creare un ambiente di base dell'area di lavoro per il calcolo GPU serverless, che lo rende disponibile a tutti gli utenti nell'area di lavoro tramite il menu a discesa Ambiente di base . Per informazioni dettagliate, vedere Build for serverless GPU compute (AI Runtime)( Build for serverless GPU compute (AI Runtime)( Build for serverless GPU compute (AI Runtime)( Build for serverless GPU compute (AI

È anche possibile configurare l'ambiente di Deep Learning per ogni progetto partendo da uno degli ambienti di base forniti (impostazione predefinita o databricks per intelligenza artificiale) e installando pacchetti aggiuntivi a livello di codice usando %pip install all'interno del notebook o all'inizio dello script di training:

%pip install datasets accelerate peft bitsandbytes

Per altri dettagli, vedere Aggiungere dipendenze al notebook.

Comportamento

Quando vengono memorizzati nella cache gli ambienti?

Gli ambienti vengono memorizzati nella cache tra le sessioni per velocizzare i tempi di avvio. Quando si riconnette al runtime di intelligenza artificiale con la stessa configurazione dell'ambiente, i pacchetti installati in precedenza potrebbero essere disponibili dalla cache, riducendo il tempo di installazione.

Tuttavia, il comportamento della cache non è garantito, quindi assicurarsi sempre che il notebook includa i comandi necessari %pip install per la riproducibilità.

Come si importano moduli personalizzati?

È possibile importare moduli personalizzati inserendoli in /Workspace/Shared e aggiungendo il percorso a sys.path:

import sys
sys.path.append("/Workspace/Shared/my-project/src")
from my_module import my_function

È anche possibile caricare i file di modulo come file dell'area di lavoro e importarli direttamente. Per la collaborazione multiutente, archiviare il codice condiviso in /Workspace/Shared piuttosto che in cartelle specifiche dell'utente. Per lo sviluppo attivo, usare cartelle specifiche dell'utente e eseguire il push in un repository Git remoto per il controllo della versione.

Limitazioni

Le funzionalità seguenti non sono disponibili nel runtime di intelligenza artificiale:

  • Funzioni Spark: non è possibile importare o usare direttamente le funzioni PySpark. Il runtime di intelligenza artificiale è un ambiente solo Python; Spark non è disponibile come runtime locale. Spark Connect è tuttavia disponibile per il caricamento dei dati. Consulta Caricamento dei dati su AI Runtime.
  • Librerie di Machine Learning di Databricks Runtime: i pacchetti preinstallati non sostituiscono Databricks Runtime ML. Alcune librerie di Machine Learning disponibili in Databricks Runtime ML potrebbero non essere preinstallate nel runtime di intelligenza artificiale.
  • Artefatti privati: il runtime di intelligenza artificiale supporta gli artefatti privati in determinati casi. Per ulteriori dettagli, contatta il team del tuo account.