Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Nota
Questa pagina illustra la nuova versione di Estrazione informazioni. Per informazioni sulla versione precedente, vedere Usare l'estrazione delle informazioni (legacy)
L'estrazione delle informazioni trasforma documenti e testo non strutturati in informazioni dettagliate chiave e strutturate usando uno schema definito. In questo modo è possibile usare le informazioni incorporate in testo non strutturato, PDF, immagini o tabelle direttamente per l'analisi, la creazione di report o gli agenti downstream e le applicazioni.
Esempi di estrazione di informazioni includono:
- Estrazione di parti legali e termini dai contratti.
- Estrazione di voci e termini di pagamento dalle fatture.
- Estrazione dei dettagli chiave dalle cartelle cliniche e dalle note.
L'estrazione delle informazioni si basa sulla funzione ai_extractdi intelligenza artificiale . Estrazione informazioni include un'interfaccia utente visiva per personalizzare e ottimizzare la funzione con uno schema definito per l'estrazione.
Estrazione informazioni usa l'archiviazione predefinita per archiviare trasformazioni di dati temporanee, checkpoint del modello e metadati interni che alimentano ogni agente. Quando si elimina un agente, Databricks rimuove tutti i dati associati all'agente dalla risorsa di archiviazione predefinita.
Requisiti
- Un'area di lavoro che include quanto segue:
- Calcolo serverless attivato. Consulta Requisiti di calcolo serverless.
- Catalogo Unity abilitato. Vedere Abilitare un'area di lavoro per il Catalogo Unity.
- Accesso a un criterio di utilizzo serverless con un budget diverso da zero.
- Questa funzione è disponibile solo in alcune aree, vedere Disponibilità delle funzioni di intelligenza artificiale.
- Per le aree di lavoro con il componente aggiuntivo Sicurezza e conformità avanzata,
- Consultare il supporto regionale per
ai_extractper lo standard di conformità applicabile. - Per informazioni su come abilitarlo nell'area di lavoro, vedere Gestire Azure Databricks anteprime.
- Consultare il supporto regionale per
- Possibilità di usare la
ai_extractfunzione SQL. - Dati non strutturati da cui estrarre informazioni. I dati devono trovarsi in un volume o una tabella di Unity Catalog.
- Per creare il tuo agente, devi avere almeno 1 file in un volume di Unity Catalog o 1 riga nella tua tabella.
Creare un agente di estrazione delle informazioni
Vai all'icona nel riquadro di navigazione a sinistra della tua area di lavoro. Fare clic su Crea agente>Estrazione informazioni.
Passaggio 1: Selezionare i dati da cui estrarre le informazioni
Nella pagina Inizia con i dati selezionare i file o i dati da cui estrarre le informazioni. È possibile eseguire una delle operazioni seguenti:
- Trascinare e rilasciare uno o più file nell'area di caricamento oppure fare clic per cercare i file da caricare.
- Fare clic su Seleziona volume per selezionare un volume di Catalogo Unity con tipi di file supportati.
- Fare clic su Seleziona tabella per selezionare una tabella di Catalogo Unity contenente dati di testo.
Se si seleziona una tabella, selezionare la colonna contenente i dati da estrarre. È necessario selezionare una colonna con un tipo supportato, ad esempio STRING o VARIANT, prima di poter continuare. Se la tabella non contiene colonne supportate, selezionare una tabella diversa.
Fare clic su Crea agente. Questo pulsante è abilitato solo dopo aver selezionato un'origine dati valida e, per una tabella, una colonna supportata.
Passaggio 2. Configurare e perfezionare lo schema di estrazione
Dopo che il processo di Estrazione delle Informazioni ha elaborato i tuoi dati, configura e perfeziona quali dati desideri estrarre dai tuoi documenti.
In Configurazione definire lo schema di estrazione. Questa operazione può essere eseguita in diversi modi:
- Immettere il linguaggio naturale che descrive le informazioni da estrarre e fare clic su Genera schema. L'estrazione di informazioni genera automaticamente uno schema JSON con nomi di campo e definizioni. Modificare queste descrizioni in base alle esigenze.
- In alternativa, fare clic su Or, Define manually (Definisci manualmente ) per definire manualmente lo schema:
- Fare clic su Aggiungi campo.
- Immettere il nome, il tipo e la descrizione del campo.
- Cliccare Conferma.
- Ripetere per ogni campo da estrarre.
- Fare clic su Salva ed esegui estrazione.
- È anche possibile fare clic su JSON per modificare direttamente lo schema JSON. Al termine, fare clic su Applica modifiche .
Ogni volta che si aggiorna lo schema e si fa clic su Salva ed esegui estrazione, Estrazione informazioni aggiorna l'agente di estrazione, esegue l'estrazione e mostra i risultati per ogni input.
Esamina, a sinistra, il documento analizzato e l'estrazione effettuata dall'agente. Iterare i risultati dell'estrazione in due modi. In primo luogo, fornire feedback in linguaggio naturale su uno o più input, che ottimizzano automaticamente le descrizioni quando si preme Salva ed esegui estrazione. In secondo luogo, rivedere manualmente le descrizioni dello schema, che diventano effettive quando si preme Salva ed esegui estrazione.
Usare le versioni per confrontare o ripristinare una configurazione precedente. Fare clic su Versioni, quindi su Confronta per confrontare la definizione dello schema di una versione precedente con la versione corrente. Fare clic su Ripristina per ripristinare una versione precedente.
Passaggio 3. Usare il proprio agente di estrazione
Dopo aver soddisfatto le prestazioni dell'agente, usare l'agente per estrarre informazioni.
Fare clic su Usa agente in alto a destra. Si può selezionare:
-
Esegui in SQL per usare l'agente per estrarre informazioni da tutti i dati. Verrà aperta una query SQL che usa
ai_extractper estrarre informazioni dal volume o dalla tabella usando lo schema definito. Per altre informazioni sull'usoai_extractnelle query SQL, vedereai_extractfunzione. - Creare una pipeline dichiarativa Spark per distribuire una pipeline ETL che viene eseguita a intervalli pianificati per attivare l'agente sui nuovi dati. In questo modo vengono create pipeline dichiarative di Lakeflow Spark che aggiornano una tabella di streaming con i dati estratti. È possibile configurare la pianificazione della pipeline per essere eseguita quando arrivano nuovi dati. Per altre informazioni sulle pipeline dichiarative di Lakeflow Spark, vedere Pipeline dichiarative di Lakeflow Spark.
Limitazioni
- Vedere Limitazioni
- Gli agenti di estrazione delle informazioni hanno una lunghezza massima del contesto di 128.000 token.
- I tipi di schema union non sono supportati.