了解如何將音頻轉(zhuǎn)換為文本。
POST https://api.openai.com/v1/audio/transcriptions
將音頻轉(zhuǎn)錄為輸入語言。
字段 | 類型 | 是否可選 | 說明 |
file | string | 必須 | 要轉(zhuǎn)錄的音頻文件,采用以下格式之一:mp3、mp4、mpeg、mpga、m4a、wav 或 webm。 |
model | string | 必須 | 要使用的模型的 ID。目前只有 whisper-1 可用。 |
prompt | string | 可選 | 可選文本,用于指導(dǎo)模型的風(fēng)格或繼續(xù)之前的音頻片段。提示應(yīng)與音頻語言相匹配。 |
response_format | string | 可選 默認(rèn)為 json | 成績單輸出的格式,采用以下選項(xiàng)之一:json、text、srt、verbose_json 或 vtt。 |
temperature | number | 可選 默認(rèn)為 0 | 采樣 temperature,介于 0 和 1 之間。較高的值(如 0.8)將使輸出更加隨機(jī),而較低的值(如 0.2)將使輸出更加集中和確定。如果設(shè)置為 0,模型將使用對數(shù)概率自動升高 temperature,直到達(dá)到特定閾值。 |
language | string | 可選 | 輸入音頻的語言。以 ISO-639-1 格式提供輸入語言將提高準(zhǔn)確性和延遲。 |
示例請求
curl | python | node.js |
|
|
|
參數(shù)
{
"file": "audio.mp3",
"model": "whisper-1"
}
響應(yīng)
{
"text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger. This is a place where you can get to do that."
}
POST https://api.openai.com/v1/audio/translations
將音頻翻譯成英文。
字段 | 類型 | 是否可選 | 說明 |
file | string | 必須 | 要翻譯的音頻文件,采用以下格式之一:mp3、mp4、mpeg、mpga、m4a、wav 或 webm。 |
model | string | 必須 | 要使用的模型的 ID。目前只有 whisper-1 可用。 |
prompt | string | 可選 | 可選文本,用于指導(dǎo)模型的風(fēng)格或繼續(xù)之前的音頻片段。提示應(yīng)為英文。 |
response_format | string | 可選 默認(rèn)為 json | 成績單輸出的格式,采用以下選項(xiàng)之一:json、text、srt、verbose_json 或 vtt。 |
temperature | number | 可選 默認(rèn)為 0 | 采樣 temperature,介于 0 和 1 之間。較高的值(如 0.8)將使輸出更加隨機(jī),而較低的值(如 0.2)將使輸出更加集中和確定。如果設(shè)置為 0,模型將使用對數(shù)概率自動升高 temperature,直到達(dá)到特定閾值。 |
示例請求
curl | python | node.js |
|
|
|
參數(shù)
{
"file": "german.m4a",
"model": "whisper-1"
}
響應(yīng)
{
"text": "Hello, my name is Wolfgang and I come from Germany. Where are you heading today?"
}
更多建議: