Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo illustra le operazioni dell'API REST per la generazione di immagini e l'inferenza del piano dati audio (voce) per Azure OpenAI nella 2024-10-21 versione ga. Per i completamenti delle chat, incorporamenti, completamenti e tutte le altre operazioni, vedere il riferimento ufficiale Azure API REST OpenAI.
Specifiche API
La gestione e l'interazione con i modelli e le risorse OpenAI di Azure sono suddivise in tre superfici API principali:
- Piano di controllo
- Piano dati - authoring
- Piano dati - inferenza
Ogni superficie/specifica API racchiude un diverso insieme di funzionalità di Azure OpenAI. Ogni API ha un proprio set unico di versioni di anteprima e di API stabili/generalmente disponibili (GA). Le uscite in anteprima tendono attualmente a seguire un ritmo mensile.
Importante
Ora esiste una nuova API di anteprima per inferenza. Scopri di più nella nostra guida al ciclo di vita delle API.
| API | Ultima pubblicazione di anteprima | Ultima uscita di GA | Specifications | Description |
|---|---|---|---|---|
| Piano di controllo | 2025-07-01-preview |
2025-06-01 |
File di specifiche | L'API del piano di controllo viene utilizzata per operazioni come la creazione di risorse, il deployment dei modelli e altri compiti di gestione delle risorse di livello superiore. Il piano di controllo regola anche cosa è possibile fare con funzionalità come Azure Resource Manager, Bicep, Terraform e interfaccia della riga di comando di Azure. |
| Piano dati | v1 preview |
v1 |
File di specifiche | L'API del piano dati controlla le operazioni di inferenza e authoring. |
Authentication
Azure OpenAI fornisce due metodi di autenticazione. Puoi usare sia API Keys che Microsoft Entra ID.
Autenticazione della chiave API: Per questo tipo di autenticazione, tutte le richieste API devono includere la chiave API nell'intestazione
api-keyHTTP. Il Quickstart fornisce indicazioni su come effettuare chiamate con questo tipo di autenticazione.Microsoft Entra ID: Puoi autenticare una chiamata API usando un token Microsoft Entra. I token di autenticazione sono inclusi in una richiesta come Authorizationintestazione. Il token fornito deve essere preceduto daBearer, ad esempioBearer YOUR_AUTH_TOKEN. Puoi leggere la nostra guida pratica su autenticare con Microsoft Entra ID.
Versionamento delle API REST
Le API dei servizi sono versionate utilizzando il api-version parametro di query. Tutte le versioni seguono la struttura delle date YYYY-MM-DD. Per esempio:
POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/chat/completions?api-version=2024-06-01
Inferenza del piano dati
Il resto di questo articolo illustra le operazioni di immagine e audio nella versione ga della specifica di inferenza del piano dati OpenAI Azure, 2024-10-21.
Per le operazioni di anteprima di immagini e audio, vedere le informazioni di riferimento sull'immagine di anteprima e sull'API REST audio.
Trascrizioni - Create
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21
Trascrive l'audio nella lingua di input.
Parametri dell'URI
| Name | In | Obbligatorio | Tipo | Description |
|---|---|---|---|---|
| endpoint | path | Sì | corda Url |
Supportato Azure endpoint OpenAI (protocollo e nome host, ad esempio: https://aoairesource.openai.azure.com. Sostituisci "aoairesource" con il nome della tua risorsa Azure OpenAI). https://{nome-risorsa}.openai.azure.com |
| deployment-id | path | Sì | corda | ID di distribuzione del modello vocale a testo. Per informazioni sui modelli supportati, vedi [/azure/ai-foundry/openai/concepts/models#audio-models]. |
| api-version | quesito | Sì | corda | Versione dell'API |
Intestazione della richiesta
| Name | Obbligatorio | Tipo | Description |
|---|---|---|---|
| api-key | Vero | corda | Fornisci qui la chiave API di Azure OpenAI |
Corpo della richiesta
Tipo di contenuto: multipart/form-data
| Name | Tipo | Description | Obbligatorio | Predefinito |
|---|---|---|---|---|
| file | corda | Il file audio oggetto da trascrivere. | Sì | |
| prompt | corda | Un testo opzionale per guidare lo stile del modello o continuare un segmento audio precedente. Il prompt dovrebbe corrispondere al linguaggio audio. | No | |
| formato_risposta | audioResponseFormat | Definisce il formato dell'output. | No | |
| Temperatura | number | La temperatura di campionamento, compresa tra 0 e 1. Valori più alti come 0,8 rendono l'output più casuale, mentre valori più bassi come 0,2 lo rendono più focalizzato e deterministico. Se impostato a 0, il modello utilizzerà la probabilità logaritmica per aumentare automaticamente la temperatura fino a raggiungere certe soglie. | No | 0 |
| Lingua | corda | Il linguaggio dell'audio in ingresso. Fornire il linguaggio di input in formato ISO-639-1 migliorerà precisione e latenza. | No |
Responses
Codice di stato: 200
Descrizione: OK
| Tipo di contenuto | Type | Descrizione |
|---|---|---|
| application/json | audioRisposta o audioVerboseResponse | |
| testo/puro | corda | Testo trascritto nel formato di uscita (quando response_format era di testo, vtt o srt). |
Esempi
Example
Ottiene testo trascritto e metadati associati dai dati audio parlati forniti.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21
Risposte: Codice di stato: 200
{
"body": {
"text": "A structured object when requesting json or verbose_json"
}
}
Example
Ottiene testo trascritto e metadati associati dai dati audio parlati forniti.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21
"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"
Risposte: Codice di stato: 200
{
"type": "string",
"example": "plain text when requesting text, srt, or vtt"
}
Traduzioni - Create
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21
Trascrive e traduce l'audio in ingresso in testo inglese.
Parametri dell'URI
| Name | In | Obbligatorio | Tipo | Description |
|---|---|---|---|---|
| endpoint | path | Sì | corda Url |
Supportato Azure endpoint OpenAI (protocollo e nome host, ad esempio: https://aoairesource.openai.azure.com. Sostituisci "aoairesource" con il nome della tua risorsa Azure OpenAI). https://{nome-risorsa}.openai.azure.com |
| deployment-id | path | Sì | corda | ID di distribuzione del modello whisper che è stato implementato. Per informazioni sui modelli supportati, vedi [/azure/ai-foundry/openai/concepts/models#audio-models]. |
| api-version | quesito | Sì | corda | Versione dell'API |
Intestazione della richiesta
| Name | Obbligatorio | Tipo | Description |
|---|---|---|---|
| api-key | Vero | corda | Fornisci qui la chiave API di Azure OpenAI |
Corpo della richiesta
Tipo di contenuto: multipart/form-data
| Name | Tipo | Description | Obbligatorio | Predefinito |
|---|---|---|---|---|
| file | corda | Il file audio da tradurre. | Sì | |
| prompt | corda | Un testo opzionale per guidare lo stile del modello o continuare un segmento audio precedente. Il prompt dovrebbe essere in inglese. | No | |
| formato_risposta | audioResponseFormat | Definisce il formato dell'output. | No | |
| Temperatura | number | La temperatura di campionamento, compresa tra 0 e 1. Valori più alti come 0,8 rendono l'output più casuale, mentre valori più bassi come 0,2 lo rendono più focalizzato e deterministico. Se impostato a 0, il modello utilizzerà la probabilità logaritmica per aumentare automaticamente la temperatura fino a raggiungere certe soglie. | No | 0 |
Responses
Codice di stato: 200
Descrizione: OK
| Tipo di contenuto | Type | Descrizione |
|---|---|---|
| application/json | audioRisposta o audioVerboseResponse | |
| testo/puro | corda | Testo trascritto nel formato di uscita (quando response_format era di testo, vtt o srt). |
Esempi
Example
Ottiene testo trascritto in inglese e i metadati associati dai dati audio parlati forniti.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21
"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"
Risposte: Codice di stato: 200
{
"body": {
"text": "A structured object when requesting json or verbose_json"
}
}
Example
Ottiene testo trascritto in inglese e i metadati associati dai dati audio parlati forniti.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21
"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"
Risposte: Codice di stato: 200
{
"type": "string",
"example": "plain text when requesting text, srt, or vtt"
}
Creazione di immagini
POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21
Genera un lotto di immagini da una didascalia di testo su una data distribuzione del modello dall-e
Parametri dell'URI
| Name | In | Obbligatorio | Tipo | Description |
|---|---|---|---|---|
| endpoint | path | Sì | corda Url |
Supportato Azure endpoint OpenAI (protocollo e nome host, ad esempio: https://aoairesource.openai.azure.com. Sostituisci "aoairesource" con il nome della tua risorsa Azure OpenAI). https://{nome-risorsa}.openai.azure.com |
| deployment-id | path | Sì | corda | ID di implementazione del modello dall-e che è stato implementato. |
| api-version | quesito | Sì | corda | Versione dell'API |
Intestazione della richiesta
| Name | Obbligatorio | Tipo | Description |
|---|---|---|---|
| api-key | Vero | corda | Fornisci qui la chiave API di Azure OpenAI |
Corpo della richiesta
Content-Type: application/json
| Name | Tipo | Description | Obbligatorio | Predefinito |
|---|---|---|---|---|
| prompt | corda | Una descrizione testuale dell'immagine desiderata. La lunghezza massima è di 4.000 caratteri. | Sì | |
| n | Intero | Il numero di immagini da generare. | No | 1 |
| size | imageSize | La dimensione delle immagini generate. | No | 1024x1024 |
| formato_risposta | imagesResponseFormat | Il formato in cui vengono restituite le immagini generate. | No | Url |
| user | corda | Un identificatore unico che rappresenta il tuo utente finale, che può aiutare a monitorare e rilevare abusi. | No | |
| qualità | imageQuality | La qualità dell'immagine che verrà generata. | No | Standard |
| Stile | imageStyle | Lo stile delle immagini generate. | No | vivid |
Responses
Codice di stato: 200
Descrizione: Ok
| Tipo di contenuto | Type | Descrizione |
|---|---|---|
| application/json | generateImagesResponse |
Codice di stato: predefinito
Descrizione: Si è verificato un errore.
| Tipo di contenuto | Type | Descrizione |
|---|---|---|
| application/json | dalleErrorResponse |
Esempi
Example
Crea immagini con un prompt.
POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21
{
"prompt": "In the style of WordArt, Microsoft Clippy wearing a cowboy hat.",
"n": 1,
"style": "natural",
"quality": "standard"
}
Risposte: Codice di stato: 200
{
"body": {
"created": 1698342300,
"data": [
{
"revised_prompt": "A vivid, natural representation of Microsoft Clippy wearing a cowboy hat.",
"prompt_filter_results": {
"sexual": {
"severity": "safe",
"filtered": false
},
"violence": {
"severity": "safe",
"filtered": false
},
"hate": {
"severity": "safe",
"filtered": false
},
"self_harm": {
"severity": "safe",
"filtered": false
},
"profanity": {
"detected": false,
"filtered": false
}
},
"url": "https://dalletipusw2.blob.core.windows.net/private/images/e5451cc6-b1ad-4747-bd46-b89a3a3b8bc3/generated_00.png?se=2023-10-27T17%3A45%3A09Z&...",
"content_filter_results": {
"sexual": {
"severity": "safe",
"filtered": false
},
"violence": {
"severity": "safe",
"filtered": false
},
"hate": {
"severity": "safe",
"filtered": false
},
"self_harm": {
"severity": "safe",
"filtered": false
}
}
}
]
}
}
Components
Per le definizioni di schema usate da chat, completamenti, incorporamenti e altre operazioni di testo, vedere le informazioni di riferimento sull'API REST OpenAI Azure. Gli schemi seguenti supportano le operazioni di immagine e audio in questa pagina.
innerErrorCode
Codici di errore per l'oggetto di errore interno.
Descrizione: Codici di errore per l'oggetto di errore interno.
Tipo: string
Impostazione predefinita:
Nome Enum: InnerErrorCode
Valori enumerazione:
| Value | Description |
|---|---|
| ResponsibleAIPolicyViolation | Il prompt violava una delle altre regole del filtro dei contenuti. |
dalleErrorResponse
| Name | Tipo | Description | Obbligatorio | Predefinito |
|---|---|---|---|---|
| Errore | dalleError | No |
dalleError
| Name | Tipo | Description | Obbligatorio | Predefinito |
|---|---|---|---|---|
| param | corda | No | ||
| type | corda | No | ||
| inner_error | dalleInnerError | Errore interiore con ulteriori dettagli. | No |
dalleInnerError
Errore interiore con ulteriori dettagli.
| Name | Tipo | Description | Obbligatorio | Predefinito |
|---|---|---|---|---|
| codice | innerErrorCode | Codici di errore per l'oggetto di errore interno. | No | |
| content_filter_results | dalleFilterResults | Informazioni sulla categoria di filtraggio dei contenuti (odio, sessuale, violenza, self_harm), se è stata rilevata, nonché sul livello di gravità (scala very_low, bassa, media, alta che determina l'intensità e il livello di rischio dei contenuti dannosi) e se è stata filtrata o meno. Informazioni sui contenuti e le parolacce del jailbreak, se sono stati rilevati e se sono stati filtrati o meno. E informazioni sulla lista dei clienti, se è stata filtrata e il suo id. | No | |
| testo_rivisto | corda | Il prompt usato per generare l'immagine, se c'era stata una revisione del prompt. | No |
contentFilterSeverityResult
| Name | Tipo | Description | Obbligatorio | Predefinito |
|---|---|---|---|---|
| filtered | Boolean | Sì | ||
| Gravità | corda | No |
contentFilterDetectedResult
| Name | Tipo | Description | Obbligatorio | Predefinito |
|---|---|---|---|---|
| filtered | Boolean | Sì | ||
| detected | Boolean | No |
dalleFilterResults
Informazioni sulla categoria di filtraggio dei contenuti (odio, sessuale, violenza, self_harm), se è stata rilevata, nonché sul livello di gravità (scala very_low, bassa, media, alta che determina l'intensità e il livello di rischio dei contenuti dannosi) e se è stata filtrata o meno. Informazioni sui contenuti e le parolacce del jailbreak, se sono stati rilevati e se sono stati filtrati o meno. E informazioni sulla lista dei clienti, se è stata filtrata e il suo id.
| Name | Tipo | Description | Obbligatorio | Predefinito |
|---|---|---|---|---|
| sexual | contentFilterSeverityResult | No | ||
| violence | contentFilterSeverityResult | No | ||
| hate | contentFilterSeverityResult | No | ||
| self_harm | contentFilterSeverityResult | No | ||
| profanity | contentFilterDetectedResult | No | ||
| jailbreak | contentFilterDetectedResult | No |
risposta audio
Risposta alla traduzione o trascrizione quando response_format era json
| Name | Tipo | Description | Obbligatorio | Predefinito |
|---|---|---|---|---|
| text | corda | Testo tradotto o trascritto. | Sì |
audioVerboseResponse
Risposta alla traduzione o trascrizione quando response_format era verbose_json
| Name | Tipo | Description | Obbligatorio | Predefinito |
|---|---|---|---|---|
| text | corda | Testo tradotto o trascritto. | Sì | |
| compito | corda | Tipo di compito audio. | No | |
| Lingua | corda | Language. | No | |
| duration | number | Durata. | No | |
| Segmenti | array | No |
audioResponseFormat
Definisce il formato dell'output.
Descrizione: Definisce il formato dell'output.
Tipo: string
Impostazione predefinita:
Valori enumerazione:
- Json
- text
- srt
- verbose_json
- vtt
imageQuality
La qualità dell'immagine che verrà generata.
Descrizione: La qualità dell'immagine che verrà generata.
Tipo: string
Impostazione predefinita: standard
Nome Enum: Quality
Valori enumerazione:
| Value | Description |
|---|---|
| Standard | La qualità standard crea immagini con qualità standard. |
| hd | La qualità HD crea immagini con dettagli più fini e maggiore coerenza su tutta l'immagine. |
imagesResponseFormat
Il formato in cui vengono restituite le immagini generate.
Descrizione: Il formato in cui vengono restituite le immagini generate.
Tipo: string
Impostazione predefinita: URL
Nome Enum: ImagesResponseFormat
Valori enumerazione:
| Value | Description |
|---|---|
| Url | L'URL che fornisce un accesso temporaneo per scaricare le immagini generate. |
| b64_json | Le immagini generate vengono restituite come stringa codificata in base64. |
imageSize
La dimensione delle immagini generate.
Descrizione: La dimensione delle immagini generate.
Tipo: string
Impostazione predefinita: 1024x1024
Nome Enum: Dimensione
Valori enumerazione:
| Value | Description |
|---|---|
| 1792x1024 | La dimensione desiderata dell'immagine generata è 1792x1024 pixel. |
| 1024x1792 | La dimensione desiderata dell'immagine generata è 1024x1792 pixel. |
| 1024x1024 | La dimensione desiderata dell'immagine generata è 1024x1024 pixel. |
imageStyle
Lo stile delle immagini generate.
Descrizione: Lo stile delle immagini generate.
Tipo: string
Impostazione predefinita: vivid
Nome Enum: Style
Valori enumerazione:
| Value | Description |
|---|---|
| vivid | Vivid crea immagini iperrealistiche e drammatiche. |
| natural | Natural crea immagini più naturali e meno iperrealistiche. |
generateImagesResponse
| Name | Tipo | Description | Obbligatorio | Predefinito |
|---|---|---|---|---|
| creato | Intero | Il timestamp di unix quando è stata creata l'operazione. | Sì | |
| Dati | array | I dati di risultato dell'operazione, se riusciti | Sì |
Passaggi successivi
Informazioni sui modelli e sull'ottimizzazione con l'API REST. Scopri di più sui modelli sottostante che alimentano Azure OpenAI.