Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Si applica a:SQL Server
SSIS Integration Runtime in Azure Data Factory
Prima di poter visualizzare il profilo dei dati sorgente, il primo passaggio consiste nel configurare ed eseguire l'attività di profilazione dei dati. Questa attività viene creata all'interno di un pacchetto di Integration Services. Per configurare l'attività di profilazione dei dati, si utilizza l'Editor dell'attività di profilazione dei dati. Questo editor consente di selezionare dove esportare i profili e quali profili calcolare. Dopo avere configurato l'attività, è necessario eseguire il pacchetto per calcolare i profili dati.
Requisiti e limitazioni
L'attività di profilatura dati funziona solo con i dati archiviati in SQL Server. Non funziona con origini dati di terze parti o basate su file.
Inoltre, per eseguire un pacchetto che contiene l'attività di profilatura dei dati, è necessario usare un account con autorizzazioni di lettura e scrittura, incluse le autorizzazioni CREATE TABLE, sul database tempdb.
Attività di profilazione dei dati in un pacchetto
L'attività Profiling dati consente solo di configurare i profili e creare il file di output contenente i profili calcolati. Per esaminare questo file di output, è necessario utilizzare Visualizzatore profilo dati, un programma di visualizzazione autonomo. Poiché è necessario visualizzare separatamente l'output, è possibile utilizzare l'attività Profiling dati in un pacchetto che non contiene altre attività.
Tuttavia, non è necessario utilizzare l'attività di profilazione dei dati come sola attività in un pacchetto. Se si desidera eseguire la profilazione dei dati all'interno del flusso di lavoro o del flusso di dati di un pacchetto più complesso, sono disponibili le opzioni seguenti:
Per implementare la logica condizionale basata sul file di output dell'attività, nel flusso di controllo del pacchetto collocare un'attività Script dopo l'attività di profilatura dei dati. Tale attività Script potrà essere utilizzata per eseguire query sul file di output.
Per profilare i dati nel flusso di dati in seguito al caricamento e alla trasformazione dei dati, è necessario salvare temporaneamente i dati modificati in una tabella di SQL Server. A questo punto, è possibile eseguire il profiling dei dati salvati.
Per ulteriori informazioni, vedere Incorporare un'attività di profilazione dei dati nel flusso di lavoro del pacchetto.
Impostazione dell'output dell'attività
Dopo che l'attività di profilazione dei dati è inclusa in un pacchetto, è necessario configurare l'output per i profili che l'attività calcolerà. Per impostare l'output dei profili, si usa la pagina Generale dell'Editor attività di profilazione dei dati. Oltre a consentire di specificare la destinazione per l'output, la pagina Generale offre la possibilità di eseguire un rapido profiling dei dati. Quando si seleziona Profilo rapido, l'attività Profiling dati esegue il profiling di una tabella o di una vista usando alcuni o tutti i profili predefiniti con le relative impostazioni predefinite.
Per ulteriori informazioni, vedere Editor dell'attività di creazione profili dati (Pagina generale) e Modulo Profilo rapido per tabella singola (Attività di creazione profili dati).
Importante
Il file di output potrebbe contenere dati sensibili sul database e i dati inclusi nel database. Per suggerimenti su come migliorare la sicurezza di questo file, vedere Accesso ai file utilizzati dai pacchetti.
Selezione e configurazione dei profili da calcolare
Dopo avere configurato il file di output, è necessario selezionare i profili dati da calcolare. L'attività di profilazione dei dati può calcolare otto diversi profili di dati. Cinque di questi profili analizzano singole colonne e i tre rimanenti analizzano più colonne o relazioni tra colonne e tabelle. In una singola attività di profilazione dei dati, è possibile calcolare più profili per più colonne o combinazioni di colonne in più tabelle o viste.
Nella tabella seguente vengono descritti i report calcolati da ciascun profilo e i tipi di dati per cui il profilo è valido.
| Calcolare | Che aiutano a identificare | Usa questo profilo |
|---|---|---|
| Tutte le diverse lunghezze dei valori di stringa nella colonna selezionata e la percentuale di righe della tabella che ciascuna lunghezza rappresenta. | Valori stringa non validi: si analizza, ad esempio, una colonna che dovrebbe usare due caratteri per i codici di stato negli Stati Uniti, ma in cui si individua la presenza di valori più lunghi di due caratteri. |
Distribuzione lunghezze di colonna: valido per una colonna con uno dei tipi di dati di tipo carattere indicati di seguito: char nchar varchar nvarchar |
| Set di espressioni regolari relative alla percentuale specificata di valori in una colonna stringa. Inoltre, trovare espressioni regolari da utilizzare in futuro per validare nuovi valori. |
Valori di stringa non validi o non nel formato corretto-Ad esempio, un profilo dei modelli di una colonna del codice postale potrebbe produrre le espressioni regolari: \d{5}-\d{4}, \d{5} e \d{9}. Se l'output contiene altre espressioni regolari, i dati contengono valori non validi o in formato non corretto. |
Profilo modello colonna-Valido per una colonna con uno dei seguenti tipi di dati a caratteri: char nchar varchar nvarchar |
| Percentuale di valori Null nella colonna selezionata. | Rapporto inaspettatamente elevato di valori Null in una colonna: si analizza, ad esempio, una colonna che dovrebbe contenere i codici postali ZIP (Stati Uniti) ma si individua una percentuale troppo elevata di codici postali mancanti. |
Rapporto di valori null della colonna-Valido per una colonna con uno dei seguenti tipi di dati: Immagine testo xml tipi definiti dall'utente tipi di variante |
| Statistiche come minimo, massimo, media e deviazione standard per le colonne numeriche, e minimo e massimo per le colonne di tipo datetime. | Valori numerici e date non validi: si analizza, ad esempio, una colonna di date storiche, ma si individua una data massima successiva a quella corrente. |
Profilo Statistiche di colonna: valido per una colonna con uno dei tipi di dati indicati di seguito. Tipi di dati numerici: tipi interi (tranne bit money smallmoney decimal float real numeric Tipi di dati data e ora: datetime smalldatetime timestamp date time datetime2 datetimeoffset Nota: per una colonna con un tipo di dati di data e ora, il profilo calcola esclusivamente il minimo e il massimo. |
| Tutti i valori distinti nella colonna selezionata e la percentuale di righe nella tabella che ciascun valore rappresenta. In alternativa, valori che rappresentano più di una percentuale specificata nella tabella. | Numero non corretto di valori distinct in un colonna: si analizza, ad esempio, una colonna contenente gli stati degli Stati Uniti ma si individuano più di 50 valori distinct. |
Distribuzione valori di colonna: valido per una colonna con uno dei tipi di dati seguenti. Tipi di dati numerici: tipi interi (tranne bit money smallmoney decimal float real numeric Tipi di dati di tipo carattere: char nchar varchar nvarchar Tipi di dati data e ora: datetime smalldatetime timestamp date time datetime2 datetimeoffset |
| Se una colonna o un set di colonne è una chiave o una chiave approssimativa per la tabella selezionata. | Valori duplicati in una colonna chiave potenziale: si analizzano, ad esempio, le colonne Name e Address di una tabella Customer e si individuano valori duplicati laddove la combinazione di nome e indirizzo dovrebbe essere univoca. |
Chiave candidata: profilo per più colonne che segnala se una colonna o un set di colonne può fungere da chiave per la tabella selezionata. Valido per colonne con uno dei tipi di dati indicati di seguito. Tipi di dati integer: bit tinyint smallint int bigint Tipi di dati di carattere: char nchar varchar nvarchar Tipi di dati data e ora: datetime smalldatetime timestamp date time datetime2 datetimeoffset |
| Grado di dipendenza dei valori inclusi in una colonna (colonna dipendente) dai valori presenti in un'altra colonna o set di colonne (colonna determinante). | Valori non validi nelle colonne dipendenti: si analizza, ad esempio, una dipendenza tra una colonna contenente i codici postali ZIP (Stati Uniti) e una colonna contenente gli stati degli Stati Uniti. Ciascun codice postale dovrebbe corrispondere sempre allo stesso stato. Il profilo individua tuttavia violazioni della dipendenza. |
Dipendenza funzionale: valido per le colonne con uno dei tipi di dati indicati di seguito. Tipi di dati integer: bit tinyint smallint int bigint Tipi di dati di tipo carattere: char nchar varchar nvarchar Tipi di dati data e ora: datetime smalldatetime timestamp date time datetime2 datetimeoffset |
| Se una colonna o un set di colonne può fungere da chiave esterna tra le tabelle selezionate. Ovvero, il profilo segnala la sovrapposizione nei valori tra due colonne o set di colonne. |
Valori non validi: si analizza, ad esempio, la colonna ProductID di una tabella Sales. Il profilo individua che la colonna contiene valori non inclusi nella colonna ProductID della tabella Products. |
Inclusione valore: valido per le colonne con uno dei tipi di dati indicati di seguito: Tipi di dati integer: bit tinyint smallint int bigint Tipi di dati di tipo carattere: char nchar varchar nvarchar Tipi di dati data e ora: datetime smalldatetime timestamp date time datetime2 datetimeoffset |
Per selezionare i profili da calcolare, si utilizza la pagina Richieste di profilo dell'Editor delle attività di profiling dei dati. Per ulteriori informazioni, vedere Editor dell'attività di profilazione dei dati (pagina Richieste di profilo).
Nella pagina Richieste profilo è inoltre possibile specificare l'origine dati e configurare i profili dati. Quando si configura l'attività, tenere presenti le informazioni seguenti:
Per semplificare la configurazione e l'individuazione delle caratteristiche di dati poco noti, è possibile usare il carattere jolly (*) al posto di un singolo nome di colonna. Se si utilizza questo carattere jolly, l'attività eseguirà il profiling di tutte le colonne con un tipo di dati appropriato, il che rallenterà ulteriormente l'elaborazione.
Quando la tabella o la vista selezionata è vuota, l'attività Profilazione dati non calcola alcun profilo.
Quando tutti i valori nella colonna selezionata sono null, l'attività di profilatura dei dati calcola solo il profilo del rapporto dei valori null della colonna. Non calcola il profilo di distribuzione della lunghezza della colonna, il profilo del modello della colonna, il profilo delle statistiche della colonna o il profilo di distribuzione dei valori della colonna per la colonna vuota.
A ognuno dei profili dati disponibili si applicano opzioni di configurazione specifiche. Per ulteriori informazioni su tali opzioni, vedere gli argomenti seguenti:
Opzioni di richiesta del profilo della chiave candidata (Attività di profilazione dei dati)
Opzioni della richiesta di profilo del modello della colonna (Attività di profilazione dei dati)
Opzioni di richiesta del profilo delle statistiche della colonna (Attività di profilazione dei dati)
Opzioni di richiesta del profilo di dipendenza funzionale (Attività di profilazione dei dati)
Opzioni della richiesta del profilo di inclusione dei valori (Attività di profilazione dei dati)
Esecuzione del pacchetto contenente l'attività di profilazione dei dati
Dopo aver configurato l'attività di profilazione dei dati, è possibile eseguirla. L'attività calcola quindi i profili dati e restituisce queste informazioni in formato XML in un file o una variabile del pacchetto. La struttura di tale formato XML segue lo schema DataProfile.xsd. È quindi possibile aprire lo schema in Microsoft Visual Studio o in un altro editor di schemi, in un editor XML o in un editor di testo come il Blocco note. Questo schema per le informazioni sulla qualità dei dati può essere utile nelle situazioni seguenti:
Scambio di informazioni sulla qualità dei dati all'interno di un'organizzazione e tra organizzazioni diverse.
Creare strumenti personalizzati che funzionano con le informazioni sulla qualità dei dati.
Lo spazio dei nomi di destinazione viene identificato nello schema come https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.