DataEyesAI
官网首页文档首页
快速开始开发工具接入AI大模型API
官网首页文档首页
快速开始开发工具接入AI大模型API
  1. 语音接口技术文档
  • 快速开始
    • 平台简介
    • 控制台(入门)
    • API key
    • Base URL
    • 全网大模型支持与通道能力说明
  • 开发工具接入
    • OpenClaw
    • Claude Code
    • Claude Code IDE
    • Codex
    • OpenCode
    • Cline
    • Grok CLI
    • Gemini CLI
    • N8N
    • AutoClaw
    • 其他工具
    • 常见问题
      • Claude Code 400 错误排查指南
  • AI大模型API
    • OpenAI格式(支持各大原厂模型)
      • 聊天(Response)
        • 创建模型响应
        • 创建模型响应(流式返回)
        • 创建网络搜索
        • 创建模型响应 gpt-5启用思考
        • 创建函数调用
        • 创建模型响应 (控制思考长度)
      • ChatGPT接口
        • ChatGPT音频(Audio)
          • 音频转文字 gpt-4o-transcribe
          • GPT-4o-audio
          • 音频转文字 whisper-1
          • 音频转文字 gpt-4o-transcribe
          • 创建语音 gpt-4o-mini-tts
        • ChatGPT聊天(Chat)
          • 创建聊天识图 (非流)
          • 创建聊天识图 (流式)
          • 创建聊天识图 (流式) best64
          • 官方N测试
          • 创建结构化输出
          • 控制推理模型努力程度
          • 创建聊天函数调用
          • deepseek-ocr 识别
          • 创建聊天补全 (非流)
        • ChatGPT自动补全(Completions)
          • ChatGPT自动补全(Completions)
          • 创建完成
      • 图像
        • GPT Image 2
        • 图像编辑 API 文档
        • 文生图片
        • 修改图片(images)
        • 创建聊天补全 (流式)
        • 创建聊天补全 qwen-mt-turbo
        • 创建聊天补全 deepseek v3.1思考程度 (流式)
      • 语音
        • 语音识别(audio)
        • 语音合成(audio)
        • 官方Function calling调用
        • 创建聊天创作图 (非流)
      • 向量化
        • 文本向量化
    • Anthropic格式
      • 聊天
      • 聊天(prompt cache)
      • 流式返回
      • 聊天(旧模型-深度思考)
      • 聊天(新模型-深度思考)
      • 工具调用(function call)
      • 分析图片
    • Midjourney格式
      • 任务查询接口
      • 获取种子(Seed)
      • 上传图片(upload)
      • 文生图(Imagine)
      • 根据ID列表查询任务
      • 换脸(FaceSwap)
      • 执行Action动作
      • 提交Blend任务
      • 提交Describe任务
      • 提交Modal
      • 刷新链接(Refresh)
      • 编辑图片(Edit)
      • 根据任务ID 查询任务状态
      • 获取任务图片的seed
    • NanoBanana
      • OpenAI请求方式
        • 编辑图像
        • OpenAI 图像格式
      • Gemini请求方式
        • 生成图片
        • 编辑图片
    • 通用视频生成API
      • 通用视频生成 API 接口调用文档
      • Veo视频生成
        • OpenAI视频格式(推荐使用)
          • OpenAI创建视频,带图片
          • OpenAI查询任务
          • OpenAI下载视频
      • Kling快手可灵
        • 文生视频
        • 图生视频
        • 查询任务(免费)
      • Wan通义千问
        • 创建视频,带图片 Wan
        • 查询视频 Wan
      • MiniMax视频生成
        • 文生视频生成任务
        • 图生视频任务
        • 查询视频生成任务状态
        • 视频下载
      • Vidu视频生成
        • Vidu 生成视频
        • Vidu 查询
    • 官方视频生成API
      • Sora视频生成
        • OpenAI官方视频格式(推荐使用)
          • sora-2/sora-2-pro
            • OpenAI查询任务
            • OpenAI下载视频
            • OpenAI创建视频,带图片
            • OpenAI创建视频(带Character)
            • OpenAI编辑视频
        • Chat格式
          • 创建视频
          • 创建视频+图片
          • 连续修改生成视频
    • 语音接口技术文档
      • 语音接口API
      • Gemini TTS 调用API
    • 豆包系列-视频生成
      • 文生视频示例
      • 图生视频示例
      • 查询单个任务
    • 豆包系列-绘画
      • doubao-seededit-3-0-i2i-250628
      • doubao-seedream-4-0-250828-文生图
      • doubao-seedream-4-0-250828-图生图
      • doubao-seedream-4-0-250828-多图生图
    • Rerank重排序模型
      • 重排序
    • 文生音乐Suno
      • 任务提交
        • 生成歌曲(灵感模式)
        • 生成歌曲(自定义模式)
        • 生成歌曲(续写模式)
        • 生成歌曲(歌手风格)
        • 生成歌曲(上传歌曲二次创作)
        • 生成歌曲(拼接歌曲)
        • 生成歌词
        • 歌曲拼接
      • 查询接口
        • 批量获取任务
        • 查询单个任务
    • flux系列
      • flux-kontext-max
    • 谷歌Gemini接口
      • 原生格式
        • 文生图片 控制宽高比 +清晰度
        • 生成图片
        • 文本生成
        • 文本生成-流
        • 文本生成+思考-流
        • 图片生成
        • 格式化输出
        • 函数调用
        • 文档理解
        • URL context [原生格式]
        • 代码执行
        • 视频理解
        • URL context
        • 视频理解-url [原生格式]
        • Imagen 4
        • 音频理解
        • Embeddings
        • 聊天
        • 编辑图片
      • 图生图Base64请求方式
        • 多图融合片生成 gemini-3-pro-image-preview 控制宽高比 +清晰度
        • 图片编辑
        • 单图片 gemini-3-pro-image-preview 控制宽高比 +清晰度
        • 图片生成 gemini-2.5-flash-image
        • 图片生成 gemini-2.5-flash-image 控制宽高比
        • 图片理解
      • 图生图URL请求返回 URL请求格式OpenAI
        • 单图生图 gemini-3-pro-image-preview 控制宽高比 +清晰度
        • 多图融合片生成 gemini-3-pro-image-preview 控制宽高比 +清晰度
        • 图片理解
    • grok视频
      POST
  • 搜索/阅读API
    • 网页阅读API
      • Web Reader API
      • Web Reader API (HK)
    • 联网搜索API
      • 模态卡API
        • 天气
          • 国内外城市ID
          • 天气查询API
        • 热搜API
      • 谷歌/bing搜索API
      • youtube搜索API
    • 文档OCR解析API
      • PDF文件
      • URL解析
  • 进阶与系统接口
    • DataEyesAI 模型能力与通道矩阵
    • HTTP注意事项
    • CODE&错误码
    • 数据更新相关
    • API 密钥与额度查询接口
    • Models(列出模型)
    • 查询账户信息
  1. 语音接口技术文档

语音接口API

语音接口技术文档#

Base URL: https://cloud.dataeyes.ai
认证方式: Authorization: Bearer <您的key>
文档版本: 2026-04

目录#

1. 概述
2. TTS 文字转语音接口
3. STT 语音转文字接口(转写)
4. 语音翻译接口(翻译为英文)
5. Chat Completions 音频输入/输出
6. Realtime 实时语音对话接口(WebSocket)
7. 各提供商详情
8. 支持的语音模型完整列表
9. 错误处理
附录:接口路径速查表

1. 概述#

本平台提供完整的语音 API 能力,覆盖以下场景:
场景接口说明
文字转语音 (TTS)/v1/audio/speech文本合成为语音文件
语音转文字 (STT)/v1/audio/transcriptions音频文件转写为文本
语音翻译/v1/audio/translations音频翻译为英文文本
对话中的音频/v1/chat/completions多模态对话中携带音频输入/输出
实时语音对话/v1/realtimeWebSocket 双向实时语音流

支持的提供商#

提供商TTSSTTRealtime说明
OpenAI✅✅✅全功能支持,含流式
火山引擎 (VolcEngine)✅❌❌支持 WebSocket 流式 TTS,中文声音映射
MiniMax✅❌❌支持情感/语速/音量控制
Cloudflare❌✅❌转写和翻译

2. TTS 文字转语音接口#

将文本合成为音频文件。

2.1 端点#

POST /v1/audio/speech

2.2 请求体(JSON)#

字段类型必填说明
modelstring是TTS 模型名称
inputstring是待合成的文本内容
voicestring是声音 ID
instructionsstring否语音风格指令(gpt-4o-mini-tts 支持)
response_formatstring否输出音频格式,默认 mp3
speedfloat否语速倍率,范围 0.25-4.0,默认 1.0
stream_formatstring否设为 "sse" 启用流式输出
metadataobject否提供商特定参数

2.3 支持的声音#

OpenAI 标准声音:
声音 ID风格描述
alloy中性、平衡
echo男性、沉稳
fable女性、温柔
onyx男性、低沉
nova女性、活泼
shimmer女性、柔和
火山引擎会自动将上述声音映射为对应的中文语音:
alloy → 男性对话音色
echo → 男性稳重音色
fable → 女性甜美音色
onyx → 男性知性音色
nova → 女性爽快音色
shimmer → 女性灿灿音色

2.4 支持的音频格式#

格式Content-Type说明
mp3audio/mpeg默认格式,通用性最好
wavaudio/wav无损格式,文件较大
aacaudio/aaciOS 平台常用
flacaudio/flac无损压缩
opusaudio/opus高质量低码率
pcmaudio/pcm原始 PCM 数据(24kHz, 16-bit, 单声道)

2.5 请求示例#

基础 TTS:
高清 TTS:
GPT-4o-mini-TTS(带风格指令):
流式 TTS(SSE):

2.6 响应#

非流式:直接返回音频二进制数据,Content-Type 为对应的音频 MIME 类型
流式:以 SSE 格式分块返回音频数据

2.7 TTS 模型列表#

模型说明提供商
tts-1标准 TTSOpenAI
tts-1-hd高清 TTSOpenAI
tts-1-1106TTS 1106 版OpenAI
tts-1-hd-1106高清 TTS 1106 版OpenAI
gpt-4o-mini-ttsGPT-4o Mini TTS(支持风格指令)OpenAI
gpt-4o-mini-tts-2025-03-20GPT-4o Mini TTS 特定版本OpenAI
gpt-4o-mini-tts-2025-12-15GPT-4o Mini TTS 特定版本OpenAI
speech-2.5-hd-previewMiniMax 2.5 高清预览MiniMax
speech-2.5-turbo-previewMiniMax 2.5 快速预览MiniMax
speech-02-hdMiniMax 高清MiniMax
speech-02-turboMiniMax 快速MiniMax
speech-01-hdMiniMax 高清 v1MiniMax
speech-01-turboMiniMax 快速 v1MiniMax

3. STT 语音转文字接口(转写)#

将音频文件转写为文本。

3.1 端点#

POST /v1/audio/transcriptions

3.2 请求格式#

Content-Type: multipart/form-data
字段类型必填说明
filefile是音频文件
modelstring是STT 模型名称
languagestring否语言代码,如 zh、en、ja
promptstring否上下文提示,帮助模型更好理解内容
response_formatstring否响应格式,默认 json
temperaturefloat否温度参数 0-1

3.3 支持的音频文件格式#

mp3, mp4, mpeg, mpga, m4a, wav, webm, ogg, flac

3.4 response_format 响应格式#

格式whisper-1gpt-4o-transcribe 系列说明
json✅✅简单 JSON,含 text 字段(默认)
text✅✅纯文本
srt✅❌SRT 字幕格式
verbose_json✅❌详细 JSON,含时间戳、分段信息
vtt✅❌WebVTT 字幕格式
注意:gpt-4o-transcribe 和 gpt-4o-mini-transcribe 系列模型仅支持 json 和 text 两种响应格式。使用 verbose_json、srt、vtt 会返回 unsupported_value 错误。如需字幕或时间戳功能,请使用 whisper-1 模型。

3.5 请求示例#

基础转写(Whisper):
GPT-4o-transcribe(高精度转写):
说话人分离转写:
生成字幕文件:

3.6 响应体#

json 格式(whisper-1):
{
  "text": "你好,欢迎来到我们的平台。"
}
json 格式(gpt-4o-transcribe 系列):
{
  "text": "你好,欢迎来到我们的平台。",
  "usage": {
    "type": "tokens",
    "total_tokens": 34,
    "input_tokens": 30,
    "input_token_details": {
      "text_tokens": 0,
      "audio_tokens": 30
    },
    "output_tokens": 4
  }
}
gpt-4o-transcribe 系列会额外返回 usage 字段,包含 Token 消耗明细。音频 Token 消耗约为每分钟 1000 个 audio tokens。
verbose_json 格式(仅 whisper-1):
{
  "task": "transcribe",
  "language": "chinese",
  "duration": 5.32,
  "text": "你好,欢迎来到我们的平台。",
  "segments": [
    {
      "id": 0,
      "seek": 0,
      "start": 0.0,
      "end": 2.5,
      "text": "你好,",
      "tokens": [1, 2, 3],
      "temperature": 0.0,
      "avg_logprob": -0.25,
      "compression_ratio": 0.8,
      "no_speech_prob": 0.01
    },
    {
      "id": 1,
      "seek": 250,
      "start": 2.5,
      "end": 5.32,
      "text": "欢迎来到我们的平台。",
      "tokens": [4, 5, 6, 7, 8],
      "temperature": 0.0,
      "avg_logprob": -0.18,
      "compression_ratio": 0.9,
      "no_speech_prob": 0.02
    }
  ]
}
srt 格式:
1
00:00:00,000 --> 00:00:02,500
你好,

2
00:00:02,500 --> 00:00:05,320
欢迎来到我们的平台。

3.7 STT 模型列表#

模型说明支持的 response_format特点
whisper-1Whisper 标准模型json, text, srt, verbose_json, vtt通用、稳定,支持字幕输出
gpt-4o-transcribeGPT-4o 转写json, text高精度,更好的上下文理解
gpt-4o-transcribe-diarizeGPT-4o 转写(说话人分离)json, text自动识别不同说话人
gpt-4o-mini-transcribeGPT-4o Mini 转写json, text性价比高
gpt-4o-mini-transcribe-2025-03-20GPT-4o Mini 转写特定版本json, text特定日期版本
gpt-4o-mini-transcribe-2025-12-15GPT-4o Mini 转写特定版本json, text特定日期版本

4. 语音翻译接口(翻译为英文)#

将任意语言的音频翻译为英文文本。

4.1 端点#

POST /v1/audio/translations

4.2 请求格式#

Content-Type: multipart/form-data
字段类型必填说明
filefile是音频文件
modelstring是模型名称(默认 whisper-1)
promptstring否上下文提示
response_formatstring否响应格式,默认 json
temperaturefloat否温度参数

4.3 请求示例#

4.4 响应体#

{
  "text": "Hello, welcome to our platform."
}

5. Chat Completions 音频输入/输出#

在标准 Chat Completions 接口中使用音频能力。

5.1 端点#

POST /v1/chat/completions

5.2 音频输入(在消息中嵌入音频)#

5.3 音频输出#

启用音频输出需设置 modalities 和 audio 参数:

5.4 音频对话模型#

模型说明
gpt-4o-audio-previewGPT-4o 音频预览
gpt-4o-audio-preview-2024-12-17特定版本
gpt-4o-mini-audio-previewGPT-4o Mini 音频预览
gpt-audioGPT 音频正式版
gpt-audio-miniGPT 音频 Mini 版

5.5 Usage 中的音频 Token#

音频对话的 Usage 包含详细的 Token 分类:
{
  "usage": {
    "prompt_tokens": 100,
    "completion_tokens": 200,
    "total_tokens": 300,
    "prompt_tokens_details": {
      "cached_tokens": 0,
      "text_tokens": 50,
      "audio_tokens": 50,
      "image_tokens": 0
    },
    "completion_tokens_details": {
      "text_tokens": 100,
      "audio_tokens": 100,
      "reasoning_tokens": 0
    }
  }
}

6. Realtime 实时语音对话接口(WebSocket)#

支持双向实时语音流,适用于语音助手、实时翻译等场景。

6.1 端点#

GET /v1/realtime (WebSocket Upgrade)

6.2 连接方式#

wss://cloud.dataeyes.ai/v1/realtime?model=gpt-4o-realtime-preview
WebSocket Headers:
Authorization: Bearer <您的key>
Sec-WebSocket-Protocol: realtime

6.3 会话初始化#

连接成功后,发送 session.update 配置会话:
{
  "event_id": "evt_001",
  "type": "session.update",
  "session": {
    "modalities": ["text", "audio"],
    "instructions": "你是一个友好的中英文翻译助手,用户说中文你翻译成英文,说英文你翻译成中文。",
    "voice": "alloy",
    "input_audio_format": "pcm16",
    "output_audio_format": "pcm16",
    "input_audio_transcription": {
      "model": "whisper-1"
    },
    "turn_detection": {
      "type": "server_vad",
      "threshold": 0.5,
      "prefix_padding_ms": 300,
      "silence_duration_ms": 500
    },
    "temperature": 0.8,
    "tools": [],
    "tool_choice": "auto"
  }
}

6.4 音频格式#

格式参数值说明
PCM 16-bitpcm16原始 PCM(24kHz, 16-bit, 单声道)
G.711 u-lawg711_ulaw电话音频格式
G.711 A-lawg711_alaw电话音频格式

6.5 发送音频数据#

将音频数据以 Base64 编码发送:
{
  "type": "input_audio_buffer.append",
  "audio": "<base64编码的PCM音频数据>"
}

6.6 触发生成响应#

{
  "type": "response.create",
  "response": {
    "modalities": ["text", "audio"]
  }
}

6.7 接收响应事件#

会话已创建:
{
  "type": "session.created",
  "session": {
    "modalities": ["text", "audio"],
    "voice": "alloy",
    ...
  }
}
音频数据增量:
{
  "type": "response.audio.delta",
  "delta": "<base64编码的音频chunk>"
}
音频转写增量:
{
  "type": "response.audio_transcript.delta",
  "delta": "你好"
}
响应完成(含 Usage):
{
  "type": "response.done",
  "response": {
    "usage": {
      "total_tokens": 500,
      "input_tokens": 200,
      "output_tokens": 300,
      "input_token_details": {
        "cached_tokens": 0,
        "text_tokens": 50,
        "audio_tokens": 150
      },
      "output_token_details": {
        "text_tokens": 100,
        "audio_tokens": 200
      }
    }
  }
}
错误事件:
{
  "type": "error",
  "error": {
    "type": "invalid_request_error",
    "message": "Audio format not supported"
  }
}

6.8 完整事件交互流程#

客户端                                      服务端
  │                                           │
  │ ──── WebSocket Connect ───────────────→   │
  │ ←──── session.created ────────────────   │
  │                                           │
  │ ──── session.update ──────────────────→   │
  │ ←──── session.updated ────────────────   │
  │                                           │
  │ ──── input_audio_buffer.append ───────→   │
  │ ──── input_audio_buffer.append ───────→   │
  │ ──── input_audio_buffer.append ───────→   │
  │                                           │
  │ ──── response.create ─────────────────→   │
  │ ←──── response.audio.delta ───────────   │
  │ ←──── response.audio.delta ───────────   │
  │ ←──── response.audio_transcript.delta    │
  │ ←──── response.done ─────────────────   │
  │                                           │

6.9 Realtime 模型列表#

模型说明
gpt-4o-realtime-previewGPT-4o 实时预览
gpt-4o-realtime-preview-2024-10-01特定版本
gpt-4o-realtime-preview-2024-12-17特定版本
gpt-4o-realtime-preview-2025-06-03特定版本
gpt-4o-mini-realtime-previewGPT-4o Mini 实时预览
gpt-4o-mini-realtime-preview-2024-12-17特定版本
gpt-realtimeGPT 实时正式版
gpt-realtime-2025-08-28特定版本
gpt-realtime-miniGPT 实时 Mini 版
gpt-realtime-mini-2025-10-06特定版本
gpt-realtime-mini-2025-12-15特定版本

7. 各提供商详情#

7.1 OpenAI#

完整支持 TTS + STT + Realtime。
TTS 支持 6 种标准声音 + gpt-4o-mini-tts 风格指令
STT 支持 whisper-1 和 gpt-4o-transcribe 系列
Realtime 支持 PCM16、G.711 音频格式
音频 Token 计算:每分钟音频 ≈ 1000 tokens

7.2 火山引擎 (VolcEngine)#

仅支持 TTS。
声音映射(OpenAI → 火山引擎中文声音):
OpenAI 声音火山引擎声音 ID风格
alloyzh_male_M392_conversation_wvae_bigtts男性对话
echozh_male_wenhao_mars_bigtts男性文浩
fablezh_female_tianmei_mars_bigtts女性甜美
onyxzh_male_zhibei_mars_bigtts男性知性
novazh_female_shuangkuaisisi_mars_bigtts女性爽快
shimmerzh_female_cancan_mars_bigtts女性灿灿
音频格式映射:
请求格式火山引擎编码
mp3mp3
opusogg_opus
aac / flacmp3(回退)
wavwav
pcmpcm
认证格式: API Key 为 appid|access_token 格式
请求示例(使用火山引擎渠道的 TTS):
注:实际可用的模型名称取决于平台渠道配置。

7.3 MiniMax#

仅支持 TTS。
特色功能:
情感控制(emotion)
语速/音量/音调精细控制
音色权重混合
语言增强(language_boost)
字幕生成
MiniMax TTS 请求参数(通过 metadata):
参数类型说明
voice_setting.speedfloat语速
voice_setting.volfloat音量
voice_setting.pitchfloat音调
voice_setting.emotionstring情感
language_booststring语言增强
subtitle_enablebool启用字幕
output_formatstring输出格式
MiniMax TTS 模型:
模型说明
speech-2.5-hd-preview2.5 高清预览
speech-2.5-turbo-preview2.5 快速预览
speech-02-hd高清版
speech-02-turbo快速版
speech-01-hdv1 高清版
speech-01-turbov1 快速版

7.4 Cloudflare#

仅支持 STT(转写和翻译)。
简单的文件上传转发模式,支持 whisper-1 模型。

8. 支持的语音模型完整列表#

8.1 TTS 模型#

模型提供商说明
tts-1OpenAI标准 TTS
tts-1-hdOpenAI高清 TTS
tts-1-1106OpenAITTS 1106 版
tts-1-hd-1106OpenAI高清 1106 版
gpt-4o-mini-ttsOpenAIGPT-4o Mini TTS(支持风格指令)
gpt-4o-mini-tts-2025-03-20OpenAI特定版本
gpt-4o-mini-tts-2025-12-15OpenAI特定版本
speech-2.5-hd-previewMiniMaxMiniMax 2.5 高清
speech-2.5-turbo-previewMiniMaxMiniMax 2.5 快速
speech-02-hdMiniMaxMiniMax 高清
speech-02-turboMiniMaxMiniMax 快速
speech-01-hdMiniMaxMiniMax v1 高清
speech-01-turboMiniMaxMiniMax v1 快速

8.2 STT 模型(转写/翻译)#

模型提供商说明
whisper-1OpenAIWhisper 标准版,通用转写
gpt-4o-transcribeOpenAIGPT-4o 高精度转写
gpt-4o-transcribe-diarizeOpenAIGPT-4o 转写 + 说话人分离
gpt-4o-mini-transcribeOpenAIGPT-4o Mini 转写
gpt-4o-mini-transcribe-2025-03-20OpenAI特定版本
gpt-4o-mini-transcribe-2025-12-15OpenAI特定版本

8.3 Audio Preview 模型(对话中的音频输入/输出)#

模型提供商说明
gpt-4o-audio-previewOpenAI音频对话预览
gpt-4o-audio-preview-2024-10-01OpenAI特定版本
gpt-4o-audio-preview-2024-12-17OpenAI特定版本
gpt-4o-audio-preview-2025-06-03OpenAI特定版本
gpt-4o-mini-audio-previewOpenAIMini 音频对话预览
gpt-4o-mini-audio-preview-2024-12-17OpenAI特定版本
gpt-audioOpenAI音频对话正式版
gpt-audio-2025-08-28OpenAI特定版本
gpt-audio-miniOpenAIMini 音频对话
gpt-audio-mini-2025-10-06OpenAI特定版本
gpt-audio-mini-2025-12-15OpenAI特定版本

8.4 Realtime 模型(实时语音流)#

模型提供商说明
gpt-4o-realtime-previewOpenAIGPT-4o 实时预览
gpt-4o-realtime-preview-2024-10-01OpenAI特定版本
gpt-4o-realtime-preview-2024-12-17OpenAI特定版本
gpt-4o-realtime-preview-2025-06-03OpenAI特定版本
gpt-4o-mini-realtime-previewOpenAIMini 实时预览
gpt-4o-mini-realtime-preview-2024-12-17OpenAI特定版本
gpt-realtimeOpenAI实时正式版
gpt-realtime-2025-08-28OpenAI特定版本
gpt-realtime-miniOpenAI实时 Mini 版
gpt-realtime-mini-2025-10-06OpenAI特定版本
gpt-realtime-mini-2025-12-15OpenAI特定版本

9. 错误处理#

9.1 错误响应格式#

{
  "error": {
    "message": "Invalid audio format. Supported formats: mp3, mp4, mpeg, mpga, m4a, wav, webm, ogg, flac",
    "type": "invalid_request_error",
    "code": "invalid_audio_format"
  }
}

9.2 常见错误#

HTTP 状态码场景说明
400参数错误缺少必填字段(如 file、model)或格式不支持
400文件过大音频文件超出大小限制(一般 25MB)
401认证失败API Key 无效
403权限不足无权使用该模型
413请求过大请求体超出限制
429频率限制请求过于频繁
500服务端错误上游提供商异常

9.3 TTS 特定错误#

model 为空或不支持 → 400
input 为空 → 400
voice 无效 → 400
文本过长超出模型限制 → 400

9.4 STT 特定错误#

file 字段缺失 → 400
音频文件格式不支持 → 400
音频文件损坏或无法解码 → 400
language 代码无效 → 400

附录:接口路径速查表#

方法路径Content-Type说明
POST/v1/audio/speechapplication/jsonTTS 文字转语音
POST/v1/audio/transcriptionsmultipart/form-dataSTT 语音转文字
POST/v1/audio/translationsmultipart/form-data语音翻译(→英文)
POST/v1/chat/completionsapplication/json对话中的音频输入/输出
GET/v1/realtimeWebSocket Upgrade实时语音对话

快速选择指南#

需求推荐模型接口
简单文字转语音tts-1/v1/audio/speech
高清文字转语音tts-1-hd/v1/audio/speech
带情感/风格的 TTSgpt-4o-mini-tts/v1/audio/speech
通用语音转写whisper-1/v1/audio/transcriptions
高精度语音转写gpt-4o-transcribe/v1/audio/transcriptions
会议转写(多人)gpt-4o-transcribe-diarize/v1/audio/transcriptions
经济型语音转写gpt-4o-mini-transcribe/v1/audio/transcriptions
语音翻译为英文whisper-1/v1/audio/translations
对话中听音频gpt-4o-audio-preview/v1/chat/completions
实时语音助手gpt-4o-realtime-preview/v1/realtime
上一页
连续修改生成视频
下一页
Gemini TTS 调用API