Azure riferimento all'API REST audio e all'immagine OpenAI (2024-10-21)

Questo articolo illustra le operazioni dell'API REST per la generazione di immagini e l'inferenza del piano dati audio (voce) per Azure OpenAI nella 2024-10-21 versione ga. Per i completamenti delle chat, incorporamenti, completamenti e tutte le altre operazioni, vedere il riferimento ufficiale Azure API REST OpenAI.

Specifiche API

La gestione e l'interazione con i modelli e le risorse OpenAI di Azure sono suddivise in tre superfici API principali:

  • Piano di controllo
  • Piano dati - authoring
  • Piano dati - inferenza

Ogni superficie/specifica API racchiude un diverso insieme di funzionalità di Azure OpenAI. Ogni API ha un proprio set unico di versioni di anteprima e di API stabili/generalmente disponibili (GA). Le uscite in anteprima tendono attualmente a seguire un ritmo mensile.

Importante

Ora esiste una nuova API di anteprima per inferenza. Scopri di più nella nostra guida al ciclo di vita delle API.

API Ultima pubblicazione di anteprima Ultima uscita di GA Specifications Description
Piano di controllo 2025-07-01-preview 2025-06-01 File di specifiche L'API del piano di controllo viene utilizzata per operazioni come la creazione di risorse, il deployment dei modelli e altri compiti di gestione delle risorse di livello superiore. Il piano di controllo regola anche cosa è possibile fare con funzionalità come Azure Resource Manager, Bicep, Terraform e interfaccia della riga di comando di Azure.
Piano dati v1 preview v1 File di specifiche L'API del piano dati controlla le operazioni di inferenza e authoring.

Authentication

Azure OpenAI fornisce due metodi di autenticazione. Puoi usare sia API Keys che Microsoft Entra ID.

  • Autenticazione della chiave API: Per questo tipo di autenticazione, tutte le richieste API devono includere la chiave API nell'intestazione api-key HTTP. Il Quickstart fornisce indicazioni su come effettuare chiamate con questo tipo di autenticazione.

  • Microsoft Entra ID: Puoi autenticare una chiamata API usando un token Microsoft Entra. I token di autenticazione sono inclusi in una richiesta come Authorization intestazione. Il token fornito deve essere preceduto da Bearer, ad esempio Bearer YOUR_AUTH_TOKEN. Puoi leggere la nostra guida pratica su autenticare con Microsoft Entra ID.

Versionamento delle API REST

Le API dei servizi sono versionate utilizzando il api-version parametro di query. Tutte le versioni seguono la struttura delle date YYYY-MM-DD. Per esempio:

POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/chat/completions?api-version=2024-06-01

Inferenza del piano dati

Il resto di questo articolo illustra le operazioni di immagine e audio nella versione ga della specifica di inferenza del piano dati OpenAI Azure, 2024-10-21.

Per le operazioni di anteprima di immagini e audio, vedere le informazioni di riferimento sull'immagine di anteprima e sull'API REST audio.

Trascrizioni - Create

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Trascrive l'audio nella lingua di input.

Parametri dell'URI

Name In Obbligatorio Tipo Description
endpoint path corda
Url
Supportato Azure endpoint OpenAI (protocollo e nome host, ad esempio: https://aoairesource.openai.azure.com. Sostituisci "aoairesource" con il nome della tua risorsa Azure OpenAI). https://{nome-risorsa}.openai.azure.com
deployment-id path corda ID di distribuzione del modello vocale a testo.

Per informazioni sui modelli supportati, vedi [/azure/ai-foundry/openai/concepts/models#audio-models].
api-version quesito corda Versione dell'API

Intestazione della richiesta

Name Obbligatorio Tipo Description
api-key Vero corda Fornisci qui la chiave API di Azure OpenAI

Corpo della richiesta

Tipo di contenuto: multipart/form-data

Name Tipo Description Obbligatorio Predefinito
file corda Il file audio oggetto da trascrivere.
prompt corda Un testo opzionale per guidare lo stile del modello o continuare un segmento audio precedente. Il prompt dovrebbe corrispondere al linguaggio audio. No
formato_risposta audioResponseFormat Definisce il formato dell'output. No
Temperatura number La temperatura di campionamento, compresa tra 0 e 1. Valori più alti come 0,8 rendono l'output più casuale, mentre valori più bassi come 0,2 lo rendono più focalizzato e deterministico. Se impostato a 0, il modello utilizzerà la probabilità logaritmica per aumentare automaticamente la temperatura fino a raggiungere certe soglie. No 0
Lingua corda Il linguaggio dell'audio in ingresso. Fornire il linguaggio di input in formato ISO-639-1 migliorerà precisione e latenza. No

Responses

Codice di stato: 200

Descrizione: OK

Tipo di contenuto Type Descrizione
application/json audioRisposta o audioVerboseResponse
testo/puro corda Testo trascritto nel formato di uscita (quando response_format era di testo, vtt o srt).

Esempi

Example

Ottiene testo trascritto e metadati associati dai dati audio parlati forniti.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Risposte: Codice di stato: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Example

Ottiene testo trascritto e metadati associati dai dati audio parlati forniti.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Risposte: Codice di stato: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Traduzioni - Create

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

Trascrive e traduce l'audio in ingresso in testo inglese.

Parametri dell'URI

Name In Obbligatorio Tipo Description
endpoint path corda
Url
Supportato Azure endpoint OpenAI (protocollo e nome host, ad esempio: https://aoairesource.openai.azure.com. Sostituisci "aoairesource" con il nome della tua risorsa Azure OpenAI). https://{nome-risorsa}.openai.azure.com
deployment-id path corda ID di distribuzione del modello whisper che è stato implementato.

Per informazioni sui modelli supportati, vedi [/azure/ai-foundry/openai/concepts/models#audio-models].
api-version quesito corda Versione dell'API

Intestazione della richiesta

Name Obbligatorio Tipo Description
api-key Vero corda Fornisci qui la chiave API di Azure OpenAI

Corpo della richiesta

Tipo di contenuto: multipart/form-data

Name Tipo Description Obbligatorio Predefinito
file corda Il file audio da tradurre.
prompt corda Un testo opzionale per guidare lo stile del modello o continuare un segmento audio precedente. Il prompt dovrebbe essere in inglese. No
formato_risposta audioResponseFormat Definisce il formato dell'output. No
Temperatura number La temperatura di campionamento, compresa tra 0 e 1. Valori più alti come 0,8 rendono l'output più casuale, mentre valori più bassi come 0,2 lo rendono più focalizzato e deterministico. Se impostato a 0, il modello utilizzerà la probabilità logaritmica per aumentare automaticamente la temperatura fino a raggiungere certe soglie. No 0

Responses

Codice di stato: 200

Descrizione: OK

Tipo di contenuto Type Descrizione
application/json audioRisposta o audioVerboseResponse
testo/puro corda Testo trascritto nel formato di uscita (quando response_format era di testo, vtt o srt).

Esempi

Example

Ottiene testo trascritto in inglese e i metadati associati dai dati audio parlati forniti.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Risposte: Codice di stato: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Example

Ottiene testo trascritto in inglese e i metadati associati dai dati audio parlati forniti.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Risposte: Codice di stato: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Creazione di immagini

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

Genera un lotto di immagini da una didascalia di testo su una data distribuzione del modello dall-e

Parametri dell'URI

Name In Obbligatorio Tipo Description
endpoint path corda
Url
Supportato Azure endpoint OpenAI (protocollo e nome host, ad esempio: https://aoairesource.openai.azure.com. Sostituisci "aoairesource" con il nome della tua risorsa Azure OpenAI). https://{nome-risorsa}.openai.azure.com
deployment-id path corda ID di implementazione del modello dall-e che è stato implementato.
api-version quesito corda Versione dell'API

Intestazione della richiesta

Name Obbligatorio Tipo Description
api-key Vero corda Fornisci qui la chiave API di Azure OpenAI

Corpo della richiesta

Content-Type: application/json

Name Tipo Description Obbligatorio Predefinito
prompt corda Una descrizione testuale dell'immagine desiderata. La lunghezza massima è di 4.000 caratteri.
n Intero Il numero di immagini da generare. No 1
size imageSize La dimensione delle immagini generate. No 1024x1024
formato_risposta imagesResponseFormat Il formato in cui vengono restituite le immagini generate. No Url
user corda Un identificatore unico che rappresenta il tuo utente finale, che può aiutare a monitorare e rilevare abusi. No
qualità imageQuality La qualità dell'immagine che verrà generata. No Standard
Stile imageStyle Lo stile delle immagini generate. No vivid

Responses

Codice di stato: 200

Descrizione: Ok

Tipo di contenuto Type Descrizione
application/json generateImagesResponse

Codice di stato: predefinito

Descrizione: Si è verificato un errore.

Tipo di contenuto Type Descrizione
application/json dalleErrorResponse

Esempi

Example

Crea immagini con un prompt.

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

{
 "prompt": "In the style of WordArt, Microsoft Clippy wearing a cowboy hat.",
 "n": 1,
 "style": "natural",
 "quality": "standard"
}

Risposte: Codice di stato: 200

{
  "body": {
    "created": 1698342300,
    "data": [
      {
        "revised_prompt": "A vivid, natural representation of Microsoft Clippy wearing a cowboy hat.",
        "prompt_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          },
          "profanity": {
            "detected": false,
            "filtered": false
          }
        },
        "url": "https://dalletipusw2.blob.core.windows.net/private/images/e5451cc6-b1ad-4747-bd46-b89a3a3b8bc3/generated_00.png?se=2023-10-27T17%3A45%3A09Z&...",
        "content_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          }
        }
      }
    ]
  }
}

Components

Per le definizioni di schema usate da chat, completamenti, incorporamenti e altre operazioni di testo, vedere le informazioni di riferimento sull'API REST OpenAI Azure. Gli schemi seguenti supportano le operazioni di immagine e audio in questa pagina.

innerErrorCode

Codici di errore per l'oggetto di errore interno.

Descrizione: Codici di errore per l'oggetto di errore interno.

Tipo: string

Impostazione predefinita:

Nome Enum: InnerErrorCode

Valori enumerazione:

Value Description
ResponsibleAIPolicyViolation Il prompt violava una delle altre regole del filtro dei contenuti.

dalleErrorResponse

Name Tipo Description Obbligatorio Predefinito
Errore dalleError No

dalleError

Name Tipo Description Obbligatorio Predefinito
param corda No
type corda No
inner_error dalleInnerError Errore interiore con ulteriori dettagli. No

dalleInnerError

Errore interiore con ulteriori dettagli.

Name Tipo Description Obbligatorio Predefinito
codice innerErrorCode Codici di errore per l'oggetto di errore interno. No
content_filter_results dalleFilterResults Informazioni sulla categoria di filtraggio dei contenuti (odio, sessuale, violenza, self_harm), se è stata rilevata, nonché sul livello di gravità (scala very_low, bassa, media, alta che determina l'intensità e il livello di rischio dei contenuti dannosi) e se è stata filtrata o meno. Informazioni sui contenuti e le parolacce del jailbreak, se sono stati rilevati e se sono stati filtrati o meno. E informazioni sulla lista dei clienti, se è stata filtrata e il suo id. No
testo_rivisto corda Il prompt usato per generare l'immagine, se c'era stata una revisione del prompt. No

contentFilterSeverityResult

Name Tipo Description Obbligatorio Predefinito
filtered Boolean
Gravità corda No

contentFilterDetectedResult

Name Tipo Description Obbligatorio Predefinito
filtered Boolean
detected Boolean No

dalleFilterResults

Informazioni sulla categoria di filtraggio dei contenuti (odio, sessuale, violenza, self_harm), se è stata rilevata, nonché sul livello di gravità (scala very_low, bassa, media, alta che determina l'intensità e il livello di rischio dei contenuti dannosi) e se è stata filtrata o meno. Informazioni sui contenuti e le parolacce del jailbreak, se sono stati rilevati e se sono stati filtrati o meno. E informazioni sulla lista dei clienti, se è stata filtrata e il suo id.

Name Tipo Description Obbligatorio Predefinito
sexual contentFilterSeverityResult No
violence contentFilterSeverityResult No
hate contentFilterSeverityResult No
self_harm contentFilterSeverityResult No
profanity contentFilterDetectedResult No
jailbreak contentFilterDetectedResult No

risposta audio

Risposta alla traduzione o trascrizione quando response_format era json

Name Tipo Description Obbligatorio Predefinito
text corda Testo tradotto o trascritto.

audioVerboseResponse

Risposta alla traduzione o trascrizione quando response_format era verbose_json

Name Tipo Description Obbligatorio Predefinito
text corda Testo tradotto o trascritto.
compito corda Tipo di compito audio. No
Lingua corda Language. No
duration number Durata. No
Segmenti array No

audioResponseFormat

Definisce il formato dell'output.

Descrizione: Definisce il formato dell'output.

Tipo: string

Impostazione predefinita:

Valori enumerazione:

  • Json
  • text
  • srt
  • verbose_json
  • vtt

imageQuality

La qualità dell'immagine che verrà generata.

Descrizione: La qualità dell'immagine che verrà generata.

Tipo: string

Impostazione predefinita: standard

Nome Enum: Quality

Valori enumerazione:

Value Description
Standard La qualità standard crea immagini con qualità standard.
hd La qualità HD crea immagini con dettagli più fini e maggiore coerenza su tutta l'immagine.

imagesResponseFormat

Il formato in cui vengono restituite le immagini generate.

Descrizione: Il formato in cui vengono restituite le immagini generate.

Tipo: string

Impostazione predefinita: URL

Nome Enum: ImagesResponseFormat

Valori enumerazione:

Value Description
Url L'URL che fornisce un accesso temporaneo per scaricare le immagini generate.
b64_json Le immagini generate vengono restituite come stringa codificata in base64.

imageSize

La dimensione delle immagini generate.

Descrizione: La dimensione delle immagini generate.

Tipo: string

Impostazione predefinita: 1024x1024

Nome Enum: Dimensione

Valori enumerazione:

Value Description
1792x1024 La dimensione desiderata dell'immagine generata è 1792x1024 pixel.
1024x1792 La dimensione desiderata dell'immagine generata è 1024x1792 pixel.
1024x1024 La dimensione desiderata dell'immagine generata è 1024x1024 pixel.

imageStyle

Lo stile delle immagini generate.

Descrizione: Lo stile delle immagini generate.

Tipo: string

Impostazione predefinita: vivid

Nome Enum: Style

Valori enumerazione:

Value Description
vivid Vivid crea immagini iperrealistiche e drammatiche.
natural Natural crea immagini più naturali e meno iperrealistiche.

generateImagesResponse

Name Tipo Description Obbligatorio Predefinito
creato Intero Il timestamp di unix quando è stata creata l'operazione.
Dati array I dati di risultato dell'operazione, se riusciti

Passaggi successivi

Informazioni sui modelli e sull'ottimizzazione con l'API REST. Scopri di più sui modelli sottostante che alimentano Azure OpenAI.