Azure riferimento all'API REST audio e all'immagine OpenAI (2024-10-21)

Questo articolo illustra le operazioni dell'API REST per la generazione di immagini e l'inferenza del piano dati audio (voce) per Azure OpenAI nella 2024-10-21 versione ga. Per i completamenti delle chat, incorporamenti, completamenti e tutte le altre operazioni, vedere il riferimento ufficiale Azure API REST OpenAI.

Specifiche API

La gestione e l'interazione con i modelli e le risorse OpenAI di Azure sono suddivise in tre superfici API principali:

Piano di controllo
Piano dati - authoring
Piano dati - inferenza

Ogni superficie/specifica API racchiude un diverso insieme di funzionalità di Azure OpenAI. Ogni API ha un proprio set unico di versioni di anteprima e di API stabili/generalmente disponibili (GA). Le uscite in anteprima tendono attualmente a seguire un ritmo mensile.

Importante

Ora esiste una nuova API di anteprima per inferenza. Scopri di più nella nostra guida al ciclo di vita delle API.

API	Ultima pubblicazione di anteprima	Ultima uscita di GA	Specifications	Description
Piano di controllo	`2025-07-01-preview`	`2025-06-01`	File di specifiche	L'API del piano di controllo viene utilizzata per operazioni come la creazione di risorse, il deployment dei modelli e altri compiti di gestione delle risorse di livello superiore. Il piano di controllo regola anche cosa è possibile fare con funzionalità come Azure Resource Manager, Bicep, Terraform e interfaccia della riga di comando di Azure.
Piano dati	`v1 preview`	`v1`	File di specifiche	L'API del piano dati controlla le operazioni di inferenza e authoring.

Authentication

Azure OpenAI fornisce due metodi di autenticazione. Puoi usare sia API Keys che Microsoft Entra ID.

Autenticazione della chiave API: Per questo tipo di autenticazione, tutte le richieste API devono includere la chiave API nell'intestazione api-key HTTP. Il Quickstart fornisce indicazioni su come effettuare chiamate con questo tipo di autenticazione.
Microsoft Entra ID: Puoi autenticare una chiamata API usando un token Microsoft Entra. I token di autenticazione sono inclusi in una richiesta come Authorization intestazione. Il token fornito deve essere preceduto da Bearer, ad esempio Bearer YOUR_AUTH_TOKEN. Puoi leggere la nostra guida pratica su autenticare con Microsoft Entra ID.

Versionamento delle API REST

Le API dei servizi sono versionate utilizzando il api-version parametro di query. Tutte le versioni seguono la struttura delle date YYYY-MM-DD. Per esempio:

POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/chat/completions?api-version=2024-06-01

Inferenza del piano dati

Il resto di questo articolo illustra le operazioni di immagine e audio nella versione ga della specifica di inferenza del piano dati OpenAI Azure, 2024-10-21.

Per le operazioni di anteprima di immagini e audio, vedere le informazioni di riferimento sull'immagine di anteprima e sull'API REST audio.

Trascrizioni - Create

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Trascrive l'audio nella lingua di input.

Parametri dell'URI

Name	In	Obbligatorio	Tipo	Description
endpoint	path	Sì	corda Url	Supportato Azure endpoint OpenAI (protocollo e nome host, ad esempio: `https://aoairesource.openai.azure.com`. Sostituisci "aoairesource" con il nome della tua risorsa Azure OpenAI). https://{nome-risorsa}.openai.azure.com
deployment-id	path	Sì	corda	ID di distribuzione del modello vocale a testo. Per informazioni sui modelli supportati, vedi [/azure/ai-foundry/openai/concepts/models#audio-models].
api-version	quesito	Sì	corda	Versione dell'API

Intestazione della richiesta

Name	Obbligatorio	Tipo	Description
api-key	Vero	corda	Fornisci qui la chiave API di Azure OpenAI

Corpo della richiesta

Tipo di contenuto: multipart/form-data

Name	Tipo	Description	Obbligatorio	Predefinito
file	corda	Il file audio oggetto da trascrivere.	Sì
prompt	corda	Un testo opzionale per guidare lo stile del modello o continuare un segmento audio precedente. Il prompt dovrebbe corrispondere al linguaggio audio.	No
formato_risposta	audioResponseFormat	Definisce il formato dell'output.	No
Temperatura	number	La temperatura di campionamento, compresa tra 0 e 1. Valori più alti come 0,8 rendono l'output più casuale, mentre valori più bassi come 0,2 lo rendono più focalizzato e deterministico. Se impostato a 0, il modello utilizzerà la probabilità logaritmica per aumentare automaticamente la temperatura fino a raggiungere certe soglie.	No	0
Lingua	corda	Il linguaggio dell'audio in ingresso. Fornire il linguaggio di input in formato ISO-639-1 migliorerà precisione e latenza.	No

Responses

Codice di stato: 200

Descrizione: OK

Tipo di contenuto	Type	Descrizione
application/json	audioRisposta o audioVerboseResponse
testo/puro	corda	Testo trascritto nel formato di uscita (quando response_format era di testo, vtt o srt).

Esempi

Example

Ottiene testo trascritto e metadati associati dai dati audio parlati forniti.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Risposte: Codice di stato: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Example

Ottiene testo trascritto e metadati associati dai dati audio parlati forniti.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Risposte: Codice di stato: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Traduzioni - Create

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

Trascrive e traduce l'audio in ingresso in testo inglese.

Parametri dell'URI

Name	In	Obbligatorio	Tipo	Description
endpoint	path	Sì	corda Url	Supportato Azure endpoint OpenAI (protocollo e nome host, ad esempio: `https://aoairesource.openai.azure.com`. Sostituisci "aoairesource" con il nome della tua risorsa Azure OpenAI). https://{nome-risorsa}.openai.azure.com
deployment-id	path	Sì	corda	ID di distribuzione del modello whisper che è stato implementato. Per informazioni sui modelli supportati, vedi [/azure/ai-foundry/openai/concepts/models#audio-models].
api-version	quesito	Sì	corda	Versione dell'API

Intestazione della richiesta

Name	Obbligatorio	Tipo	Description
api-key	Vero	corda	Fornisci qui la chiave API di Azure OpenAI

Corpo della richiesta

Tipo di contenuto: multipart/form-data

Name	Tipo	Description	Obbligatorio	Predefinito
file	corda	Il file audio da tradurre.	Sì
prompt	corda	Un testo opzionale per guidare lo stile del modello o continuare un segmento audio precedente. Il prompt dovrebbe essere in inglese.	No
formato_risposta	audioResponseFormat	Definisce il formato dell'output.	No
Temperatura	number	La temperatura di campionamento, compresa tra 0 e 1. Valori più alti come 0,8 rendono l'output più casuale, mentre valori più bassi come 0,2 lo rendono più focalizzato e deterministico. Se impostato a 0, il modello utilizzerà la probabilità logaritmica per aumentare automaticamente la temperatura fino a raggiungere certe soglie.	No	0

Responses

Codice di stato: 200

Descrizione: OK

Tipo di contenuto	Type	Descrizione
application/json	audioRisposta o audioVerboseResponse
testo/puro	corda	Testo trascritto nel formato di uscita (quando response_format era di testo, vtt o srt).

Esempi

Example

Ottiene testo trascritto in inglese e i metadati associati dai dati audio parlati forniti.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Risposte: Codice di stato: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Example

Ottiene testo trascritto in inglese e i metadati associati dai dati audio parlati forniti.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Risposte: Codice di stato: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Creazione di immagini

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

Genera un lotto di immagini da una didascalia di testo su una data distribuzione del modello dall-e

Parametri dell'URI

Name	In	Obbligatorio	Tipo	Description
endpoint	path	Sì	corda Url	Supportato Azure endpoint OpenAI (protocollo e nome host, ad esempio: `https://aoairesource.openai.azure.com`. Sostituisci "aoairesource" con il nome della tua risorsa Azure OpenAI). https://{nome-risorsa}.openai.azure.com
deployment-id	path	Sì	corda	ID di implementazione del modello dall-e che è stato implementato.
api-version	quesito	Sì	corda	Versione dell'API

Intestazione della richiesta

Name	Obbligatorio	Tipo	Description
api-key	Vero	corda	Fornisci qui la chiave API di Azure OpenAI

Corpo della richiesta

Content-Type: application/json

Name	Tipo	Description	Obbligatorio	Predefinito
prompt	corda	Una descrizione testuale dell'immagine desiderata. La lunghezza massima è di 4.000 caratteri.	Sì
n	Intero	Il numero di immagini da generare.	No	1
size	imageSize	La dimensione delle immagini generate.	No	1024x1024
formato_risposta	imagesResponseFormat	Il formato in cui vengono restituite le immagini generate.	No	Url
user	corda	Un identificatore unico che rappresenta il tuo utente finale, che può aiutare a monitorare e rilevare abusi.	No
qualità	imageQuality	La qualità dell'immagine che verrà generata.	No	Standard
Stile	imageStyle	Lo stile delle immagini generate.	No	vivid

Responses

Codice di stato: 200

Descrizione: Ok

Tipo di contenuto	Type	Descrizione
application/json	generateImagesResponse

Codice di stato: predefinito

Descrizione: Si è verificato un errore.

Tipo di contenuto	Type	Descrizione
application/json	dalleErrorResponse

Esempi

Example

Crea immagini con un prompt.

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

{
 "prompt": "In the style of WordArt, Microsoft Clippy wearing a cowboy hat.",
 "n": 1,
 "style": "natural",
 "quality": "standard"
}

Risposte: Codice di stato: 200

{
  "body": {
    "created": 1698342300,
    "data": [
      {
        "revised_prompt": "A vivid, natural representation of Microsoft Clippy wearing a cowboy hat.",
        "prompt_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          },
          "profanity": {
            "detected": false,
            "filtered": false
          }
        },
        "url": "https://dalletipusw2.blob.core.windows.net/private/images/e5451cc6-b1ad-4747-bd46-b89a3a3b8bc3/generated_00.png?se=2023-10-27T17%3A45%3A09Z&...",
        "content_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          }
        }
      }
    ]
  }
}

Components

Per le definizioni di schema usate da chat, completamenti, incorporamenti e altre operazioni di testo, vedere le informazioni di riferimento sull'API REST OpenAI Azure. Gli schemi seguenti supportano le operazioni di immagine e audio in questa pagina.

innerErrorCode

Codici di errore per l'oggetto di errore interno.

Descrizione: Codici di errore per l'oggetto di errore interno.

Tipo: string

Impostazione predefinita:

Nome Enum: InnerErrorCode

Valori enumerazione:

Value	Description
ResponsibleAIPolicyViolation	Il prompt violava una delle altre regole del filtro dei contenuti.

dalleErrorResponse

Name	Tipo	Description	Obbligatorio	Predefinito
Errore	dalleError		No

dalleError

Name	Tipo	Description	Obbligatorio
param	corda		No
type	corda		No
inner_error	dalleInnerError	Errore interiore con ulteriori dettagli.	No

dalleInnerError

Errore interiore con ulteriori dettagli.

Name	Tipo	Description	Obbligatorio
codice	innerErrorCode	Codici di errore per l'oggetto di errore interno.	No
content_filter_results	dalleFilterResults	Informazioni sulla categoria di filtraggio dei contenuti (odio, sessuale, violenza, self_harm), se è stata rilevata, nonché sul livello di gravità (scala very_low, bassa, media, alta che determina l'intensità e il livello di rischio dei contenuti dannosi) e se è stata filtrata o meno. Informazioni sui contenuti e le parolacce del jailbreak, se sono stati rilevati e se sono stati filtrati o meno. E informazioni sulla lista dei clienti, se è stata filtrata e il suo id.	No
testo_rivisto	corda	Il prompt usato per generare l'immagine, se c'era stata una revisione del prompt.	No

contentFilterSeverityResult

Name	Tipo	Description	Obbligatorio	Predefinito
filtered	Boolean		Sì
Gravità	corda		No

contentFilterDetectedResult

Name	Tipo	Description	Obbligatorio	Predefinito
filtered	Boolean		Sì
detected	Boolean		No

dalleFilterResults

Informazioni sulla categoria di filtraggio dei contenuti (odio, sessuale, violenza, self_harm), se è stata rilevata, nonché sul livello di gravità (scala very_low, bassa, media, alta che determina l'intensità e il livello di rischio dei contenuti dannosi) e se è stata filtrata o meno. Informazioni sui contenuti e le parolacce del jailbreak, se sono stati rilevati e se sono stati filtrati o meno. E informazioni sulla lista dei clienti, se è stata filtrata e il suo id.

Name	Tipo	Obbligatorio
sexual	contentFilterSeverityResult	No
violence	contentFilterSeverityResult	No
hate	contentFilterSeverityResult	No
self_harm	contentFilterSeverityResult	No
profanity	contentFilterDetectedResult	No
jailbreak	contentFilterDetectedResult	No

risposta audio

Risposta alla traduzione o trascrizione quando response_format era json

Name	Tipo	Description	Obbligatorio	Predefinito
text	corda	Testo tradotto o trascritto.	Sì

audioVerboseResponse

Risposta alla traduzione o trascrizione quando response_format era verbose_json

Name	Tipo	Description	Obbligatorio
text	corda	Testo tradotto o trascritto.	Sì
compito	corda	Tipo di compito audio.	No
Lingua	corda	Language.	No
duration	number	Durata.	No
Segmenti	array		No

audioResponseFormat

Definisce il formato dell'output.

Descrizione: Definisce il formato dell'output.

Tipo: string

Impostazione predefinita:

Valori enumerazione:

Json
text
srt
verbose_json
vtt

imageQuality

La qualità dell'immagine che verrà generata.

Descrizione: La qualità dell'immagine che verrà generata.

Tipo: string

Impostazione predefinita: standard

Nome Enum: Quality

Valori enumerazione:

Value	Description
Standard	La qualità standard crea immagini con qualità standard.
hd	La qualità HD crea immagini con dettagli più fini e maggiore coerenza su tutta l'immagine.

imagesResponseFormat

Il formato in cui vengono restituite le immagini generate.

Descrizione: Il formato in cui vengono restituite le immagini generate.

Tipo: string

Impostazione predefinita: URL

Nome Enum: ImagesResponseFormat

Valori enumerazione:

Value	Description
Url	L'URL che fornisce un accesso temporaneo per scaricare le immagini generate.
b64_json	Le immagini generate vengono restituite come stringa codificata in base64.

imageSize

La dimensione delle immagini generate.

Descrizione: La dimensione delle immagini generate.

Tipo: string

Impostazione predefinita: 1024x1024

Nome Enum: Dimensione

Valori enumerazione:

Value	Description
1792x1024	La dimensione desiderata dell'immagine generata è 1792x1024 pixel.
1024x1792	La dimensione desiderata dell'immagine generata è 1024x1792 pixel.
1024x1024	La dimensione desiderata dell'immagine generata è 1024x1024 pixel.

imageStyle

Lo stile delle immagini generate.

Descrizione: Lo stile delle immagini generate.

Tipo: string

Impostazione predefinita: vivid

Nome Enum: Style

Valori enumerazione:

Value	Description
vivid	Vivid crea immagini iperrealistiche e drammatiche.
natural	Natural crea immagini più naturali e meno iperrealistiche.

generateImagesResponse

Name	Tipo	Description	Obbligatorio	Predefinito
creato	Intero	Il timestamp di unix quando è stata creata l'operazione.	Sì
Dati	array	I dati di risultato dell'operazione, se riusciti	Sì

Passaggi successivi

Informazioni sui modelli e sull'ottimizzazione con l'API REST. Scopri di più sui modelli sottostante che alimentano Azure OpenAI.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-06-24

Azure riferimento all'API REST audio e all'immagine OpenAI (2024-10-21)

Specifiche API

Authentication

Versionamento delle API REST

Inferenza del piano dati

Trascrizioni - Create

Parametri dell'URI

Intestazione della richiesta

Corpo della richiesta

Responses

Esempi

Example

Example

Traduzioni - Create

Parametri dell'URI

Intestazione della richiesta

Corpo della richiesta

Responses

Esempi

Example

Example

Creazione di immagini

Parametri dell'URI

Intestazione della richiesta

Corpo della richiesta

Responses

Esempi

Example

Components

innerErrorCode

dalleErrorResponse

dalleError

dalleInnerError

contentFilterSeverityResult

contentFilterDetectedResult

dalleFilterResults

risposta audio

audioVerboseResponse

audioResponseFormat

imageQuality

imagesResponseFormat

imageSize

imageStyle

generateImagesResponse

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive