Base URL: https://cloud.dataeyes.ai
认证方式:Authorization: Bearer <您的key>
文档版本: 2026-04
| 场景 | 接口 | 说明 |
|---|---|---|
| 文字转语音 (TTS) | /v1/audio/speech | 文本合成为语音文件 |
| 语音转文字 (STT) | /v1/audio/transcriptions | 音频文件转写为文本 |
| 语音翻译 | /v1/audio/translations | 音频翻译为英文文本 |
| 对话中的音频 | /v1/chat/completions | 多模态对话中携带音频输入/输出 |
| 实时语音对话 | /v1/realtime | WebSocket 双向实时语音流 |
| 提供商 | TTS | STT | Realtime | 说明 |
|---|---|---|---|---|
| OpenAI | ✅ | ✅ | ✅ | 全功能支持,含流式 |
| 火山引擎 (VolcEngine) | ✅ | ❌ | ❌ | 支持 WebSocket 流式 TTS,中文声音映射 |
| MiniMax | ✅ | ❌ | ❌ | 支持情感/语速/音量控制 |
| Cloudflare | ❌ | ✅ | ❌ | 转写和翻译 |
POST /v1/audio/speech| 字段 | 类型 | 必填 | 说明 |
|---|---|---|---|
model | string | 是 | TTS 模型名称 |
input | string | 是 | 待合成的文本内容 |
voice | string | 是 | 声音 ID |
instructions | string | 否 | 语音风格指令(gpt-4o-mini-tts 支持) |
response_format | string | 否 | 输出音频格式,默认 mp3 |
speed | float | 否 | 语速倍率,范围 0.25-4.0,默认 1.0 |
stream_format | string | 否 | 设为 "sse" 启用流式输出 |
metadata | object | 否 | 提供商特定参数 |
| 声音 ID | 风格描述 |
|---|---|
alloy | 中性、平衡 |
echo | 男性、沉稳 |
fable | 女性、温柔 |
onyx | 男性、低沉 |
nova | 女性、活泼 |
shimmer | 女性、柔和 |
火山引擎会自动将上述声音映射为对应的中文语音: alloy→ 男性对话音色echo→ 男性稳重音色fable→ 女性甜美音色onyx→ 男性知性音色nova→ 女性爽快音色shimmer→ 女性灿灿音色
| 格式 | Content-Type | 说明 |
|---|---|---|
mp3 | audio/mpeg | 默认格式,通用性最好 |
wav | audio/wav | 无损格式,文件较大 |
aac | audio/aac | iOS 平台常用 |
flac | audio/flac | 无损压缩 |
opus | audio/opus | 高质量低码率 |
pcm | audio/pcm | 原始 PCM 数据(24kHz, 16-bit, 单声道) |
| 模型 | 说明 | 提供商 |
|---|---|---|
tts-1 | 标准 TTS | OpenAI |
tts-1-hd | 高清 TTS | OpenAI |
tts-1-1106 | TTS 1106 版 | OpenAI |
tts-1-hd-1106 | 高清 TTS 1106 版 | OpenAI |
gpt-4o-mini-tts | GPT-4o Mini TTS(支持风格指令) | OpenAI |
gpt-4o-mini-tts-2025-03-20 | GPT-4o Mini TTS 特定版本 | OpenAI |
gpt-4o-mini-tts-2025-12-15 | GPT-4o Mini TTS 特定版本 | OpenAI |
speech-2.5-hd-preview | MiniMax 2.5 高清预览 | MiniMax |
speech-2.5-turbo-preview | MiniMax 2.5 快速预览 | MiniMax |
speech-02-hd | MiniMax 高清 | MiniMax |
speech-02-turbo | MiniMax 快速 | MiniMax |
speech-01-hd | MiniMax 高清 v1 | MiniMax |
speech-01-turbo | MiniMax 快速 v1 | MiniMax |
POST /v1/audio/transcriptionsmultipart/form-data| 字段 | 类型 | 必填 | 说明 |
|---|---|---|---|
file | file | 是 | 音频文件 |
model | string | 是 | STT 模型名称 |
language | string | 否 | 语言代码,如 zh、en、ja |
prompt | string | 否 | 上下文提示,帮助模型更好理解内容 |
response_format | string | 否 | 响应格式,默认 json |
temperature | float | 否 | 温度参数 0-1 |
| 格式 | whisper-1 | gpt-4o-transcribe 系列 | 说明 |
|---|---|---|---|
json | ✅ | ✅ | 简单 JSON,含 text 字段(默认) |
text | ✅ | ✅ | 纯文本 |
srt | ✅ | ❌ | SRT 字幕格式 |
verbose_json | ✅ | ❌ | 详细 JSON,含时间戳、分段信息 |
vtt | ✅ | ❌ | WebVTT 字幕格式 |
注意: gpt-4o-transcribe和gpt-4o-mini-transcribe系列模型仅支持json和text两种响应格式。使用verbose_json、srt、vtt会返回unsupported_value错误。如需字幕或时间戳功能,请使用whisper-1模型。
{
"text": "你好,欢迎来到我们的平台。"
}{
"text": "你好,欢迎来到我们的平台。",
"usage": {
"type": "tokens",
"total_tokens": 34,
"input_tokens": 30,
"input_token_details": {
"text_tokens": 0,
"audio_tokens": 30
},
"output_tokens": 4
}
}gpt-4o-transcribe系列会额外返回usage字段,包含 Token 消耗明细。音频 Token 消耗约为每分钟 1000 个 audio tokens。
{
"task": "transcribe",
"language": "chinese",
"duration": 5.32,
"text": "你好,欢迎来到我们的平台。",
"segments": [
{
"id": 0,
"seek": 0,
"start": 0.0,
"end": 2.5,
"text": "你好,",
"tokens": [1, 2, 3],
"temperature": 0.0,
"avg_logprob": -0.25,
"compression_ratio": 0.8,
"no_speech_prob": 0.01
},
{
"id": 1,
"seek": 250,
"start": 2.5,
"end": 5.32,
"text": "欢迎来到我们的平台。",
"tokens": [4, 5, 6, 7, 8],
"temperature": 0.0,
"avg_logprob": -0.18,
"compression_ratio": 0.9,
"no_speech_prob": 0.02
}
]
}1
00:00:00,000 --> 00:00:02,500
你好,
2
00:00:02,500 --> 00:00:05,320
欢迎来到我们的平台。| 模型 | 说明 | 支持的 response_format | 特点 |
|---|---|---|---|
whisper-1 | Whisper 标准模型 | json, text, srt, verbose_json, vtt | 通用、稳定,支持字幕输出 |
gpt-4o-transcribe | GPT-4o 转写 | json, text | 高精度,更好的上下文理解 |
gpt-4o-transcribe-diarize | GPT-4o 转写(说话人分离) | json, text | 自动识别不同说话人 |
gpt-4o-mini-transcribe | GPT-4o Mini 转写 | json, text | 性价比高 |
gpt-4o-mini-transcribe-2025-03-20 | GPT-4o Mini 转写特定版本 | json, text | 特定日期版本 |
gpt-4o-mini-transcribe-2025-12-15 | GPT-4o Mini 转写特定版本 | json, text | 特定日期版本 |
POST /v1/audio/translationsmultipart/form-data| 字段 | 类型 | 必填 | 说明 |
|---|---|---|---|
file | file | 是 | 音频文件 |
model | string | 是 | 模型名称(默认 whisper-1) |
prompt | string | 否 | 上下文提示 |
response_format | string | 否 | 响应格式,默认 json |
temperature | float | 否 | 温度参数 |
{
"text": "Hello, welcome to our platform."
}POST /v1/chat/completionsmodalities 和 audio 参数:| 模型 | 说明 |
|---|---|
gpt-4o-audio-preview | GPT-4o 音频预览 |
gpt-4o-audio-preview-2024-12-17 | 特定版本 |
gpt-4o-mini-audio-preview | GPT-4o Mini 音频预览 |
gpt-audio | GPT 音频正式版 |
gpt-audio-mini | GPT 音频 Mini 版 |
{
"usage": {
"prompt_tokens": 100,
"completion_tokens": 200,
"total_tokens": 300,
"prompt_tokens_details": {
"cached_tokens": 0,
"text_tokens": 50,
"audio_tokens": 50,
"image_tokens": 0
},
"completion_tokens_details": {
"text_tokens": 100,
"audio_tokens": 100,
"reasoning_tokens": 0
}
}
}GET /v1/realtime (WebSocket Upgrade)wss://cloud.dataeyes.ai/v1/realtime?model=gpt-4o-realtime-previewAuthorization: Bearer <您的key>
Sec-WebSocket-Protocol: realtimesession.update 配置会话:{
"event_id": "evt_001",
"type": "session.update",
"session": {
"modalities": ["text", "audio"],
"instructions": "你是一个友好的中英文翻译助手,用户说中文你翻译成英文,说英文你翻译成中文。",
"voice": "alloy",
"input_audio_format": "pcm16",
"output_audio_format": "pcm16",
"input_audio_transcription": {
"model": "whisper-1"
},
"turn_detection": {
"type": "server_vad",
"threshold": 0.5,
"prefix_padding_ms": 300,
"silence_duration_ms": 500
},
"temperature": 0.8,
"tools": [],
"tool_choice": "auto"
}
}| 格式 | 参数值 | 说明 |
|---|---|---|
| PCM 16-bit | pcm16 | 原始 PCM(24kHz, 16-bit, 单声道) |
| G.711 u-law | g711_ulaw | 电话音频格式 |
| G.711 A-law | g711_alaw | 电话音频格式 |
{
"type": "input_audio_buffer.append",
"audio": "<base64编码的PCM音频数据>"
}{
"type": "response.create",
"response": {
"modalities": ["text", "audio"]
}
}{
"type": "session.created",
"session": {
"modalities": ["text", "audio"],
"voice": "alloy",
...
}
}{
"type": "response.audio.delta",
"delta": "<base64编码的音频chunk>"
}{
"type": "response.audio_transcript.delta",
"delta": "你好"
}{
"type": "response.done",
"response": {
"usage": {
"total_tokens": 500,
"input_tokens": 200,
"output_tokens": 300,
"input_token_details": {
"cached_tokens": 0,
"text_tokens": 50,
"audio_tokens": 150
},
"output_token_details": {
"text_tokens": 100,
"audio_tokens": 200
}
}
}
}{
"type": "error",
"error": {
"type": "invalid_request_error",
"message": "Audio format not supported"
}
}客户端 服务端
│ │
│ ──── WebSocket Connect ───────────────→ │
│ ←──── session.created ──────────────── │
│ │
│ ──── session.update ──────────────────→ │
│ ←──── session.updated ──────────────── │
│ │
│ ──── input_audio_buffer.append ───────→ │
│ ──── input_audio_buffer.append ───────→ │
│ ──── input_audio_buffer.append ───────→ │
│ │
│ ──── response.create ─────────────────→ │
│ ←──── response.audio.delta ─────────── │
│ ←──── response.audio.delta ─────────── │
│ ←──── response.audio_transcript.delta │
│ ←──── response.done ───────────────── │
│ │| 模型 | 说明 |
|---|---|
gpt-4o-realtime-preview | GPT-4o 实时预览 |
gpt-4o-realtime-preview-2024-10-01 | 特定版本 |
gpt-4o-realtime-preview-2024-12-17 | 特定版本 |
gpt-4o-realtime-preview-2025-06-03 | 特定版本 |
gpt-4o-mini-realtime-preview | GPT-4o Mini 实时预览 |
gpt-4o-mini-realtime-preview-2024-12-17 | 特定版本 |
gpt-realtime | GPT 实时正式版 |
gpt-realtime-2025-08-28 | 特定版本 |
gpt-realtime-mini | GPT 实时 Mini 版 |
gpt-realtime-mini-2025-10-06 | 特定版本 |
gpt-realtime-mini-2025-12-15 | 特定版本 |
gpt-4o-mini-tts 风格指令whisper-1 和 gpt-4o-transcribe 系列| OpenAI 声音 | 火山引擎声音 ID | 风格 |
|---|---|---|
alloy | zh_male_M392_conversation_wvae_bigtts | 男性对话 |
echo | zh_male_wenhao_mars_bigtts | 男性文浩 |
fable | zh_female_tianmei_mars_bigtts | 女性甜美 |
onyx | zh_male_zhibei_mars_bigtts | 男性知性 |
nova | zh_female_shuangkuaisisi_mars_bigtts | 女性爽快 |
shimmer | zh_female_cancan_mars_bigtts | 女性灿灿 |
| 请求格式 | 火山引擎编码 |
|---|---|
mp3 | mp3 |
opus | ogg_opus |
aac / flac | mp3(回退) |
wav | wav |
pcm | pcm |
appid|access_token 格式注:实际可用的模型名称取决于平台渠道配置。
| 参数 | 类型 | 说明 |
|---|---|---|
voice_setting.speed | float | 语速 |
voice_setting.vol | float | 音量 |
voice_setting.pitch | float | 音调 |
voice_setting.emotion | string | 情感 |
language_boost | string | 语言增强 |
subtitle_enable | bool | 启用字幕 |
output_format | string | 输出格式 |
| 模型 | 说明 |
|---|---|
speech-2.5-hd-preview | 2.5 高清预览 |
speech-2.5-turbo-preview | 2.5 快速预览 |
speech-02-hd | 高清版 |
speech-02-turbo | 快速版 |
speech-01-hd | v1 高清版 |
speech-01-turbo | v1 快速版 |
whisper-1 模型。| 模型 | 提供商 | 说明 |
|---|---|---|
tts-1 | OpenAI | 标准 TTS |
tts-1-hd | OpenAI | 高清 TTS |
tts-1-1106 | OpenAI | TTS 1106 版 |
tts-1-hd-1106 | OpenAI | 高清 1106 版 |
gpt-4o-mini-tts | OpenAI | GPT-4o Mini TTS(支持风格指令) |
gpt-4o-mini-tts-2025-03-20 | OpenAI | 特定版本 |
gpt-4o-mini-tts-2025-12-15 | OpenAI | 特定版本 |
speech-2.5-hd-preview | MiniMax | MiniMax 2.5 高清 |
speech-2.5-turbo-preview | MiniMax | MiniMax 2.5 快速 |
speech-02-hd | MiniMax | MiniMax 高清 |
speech-02-turbo | MiniMax | MiniMax 快速 |
speech-01-hd | MiniMax | MiniMax v1 高清 |
speech-01-turbo | MiniMax | MiniMax v1 快速 |
| 模型 | 提供商 | 说明 |
|---|---|---|
whisper-1 | OpenAI | Whisper 标准版,通用转写 |
gpt-4o-transcribe | OpenAI | GPT-4o 高精度转写 |
gpt-4o-transcribe-diarize | OpenAI | GPT-4o 转写 + 说话人分离 |
gpt-4o-mini-transcribe | OpenAI | GPT-4o Mini 转写 |
gpt-4o-mini-transcribe-2025-03-20 | OpenAI | 特定版本 |
gpt-4o-mini-transcribe-2025-12-15 | OpenAI | 特定版本 |
| 模型 | 提供商 | 说明 |
|---|---|---|
gpt-4o-audio-preview | OpenAI | 音频对话预览 |
gpt-4o-audio-preview-2024-10-01 | OpenAI | 特定版本 |
gpt-4o-audio-preview-2024-12-17 | OpenAI | 特定版本 |
gpt-4o-audio-preview-2025-06-03 | OpenAI | 特定版本 |
gpt-4o-mini-audio-preview | OpenAI | Mini 音频对话预览 |
gpt-4o-mini-audio-preview-2024-12-17 | OpenAI | 特定版本 |
gpt-audio | OpenAI | 音频对话正式版 |
gpt-audio-2025-08-28 | OpenAI | 特定版本 |
gpt-audio-mini | OpenAI | Mini 音频对话 |
gpt-audio-mini-2025-10-06 | OpenAI | 特定版本 |
gpt-audio-mini-2025-12-15 | OpenAI | 特定版本 |
| 模型 | 提供商 | 说明 |
|---|---|---|
gpt-4o-realtime-preview | OpenAI | GPT-4o 实时预览 |
gpt-4o-realtime-preview-2024-10-01 | OpenAI | 特定版本 |
gpt-4o-realtime-preview-2024-12-17 | OpenAI | 特定版本 |
gpt-4o-realtime-preview-2025-06-03 | OpenAI | 特定版本 |
gpt-4o-mini-realtime-preview | OpenAI | Mini 实时预览 |
gpt-4o-mini-realtime-preview-2024-12-17 | OpenAI | 特定版本 |
gpt-realtime | OpenAI | 实时正式版 |
gpt-realtime-2025-08-28 | OpenAI | 特定版本 |
gpt-realtime-mini | OpenAI | 实时 Mini 版 |
gpt-realtime-mini-2025-10-06 | OpenAI | 特定版本 |
gpt-realtime-mini-2025-12-15 | OpenAI | 特定版本 |
{
"error": {
"message": "Invalid audio format. Supported formats: mp3, mp4, mpeg, mpga, m4a, wav, webm, ogg, flac",
"type": "invalid_request_error",
"code": "invalid_audio_format"
}
}| HTTP 状态码 | 场景 | 说明 |
|---|---|---|
| 400 | 参数错误 | 缺少必填字段(如 file、model)或格式不支持 |
| 400 | 文件过大 | 音频文件超出大小限制(一般 25MB) |
| 401 | 认证失败 | API Key 无效 |
| 403 | 权限不足 | 无权使用该模型 |
| 413 | 请求过大 | 请求体超出限制 |
| 429 | 频率限制 | 请求过于频繁 |
| 500 | 服务端错误 | 上游提供商异常 |
model 为空或不支持 → 400input 为空 → 400voice 无效 → 400file 字段缺失 → 400language 代码无效 → 400| 方法 | 路径 | Content-Type | 说明 |
|---|---|---|---|
| POST | /v1/audio/speech | application/json | TTS 文字转语音 |
| POST | /v1/audio/transcriptions | multipart/form-data | STT 语音转文字 |
| POST | /v1/audio/translations | multipart/form-data | 语音翻译(→英文) |
| POST | /v1/chat/completions | application/json | 对话中的音频输入/输出 |
| GET | /v1/realtime | WebSocket Upgrade | 实时语音对话 |
| 需求 | 推荐模型 | 接口 |
|---|---|---|
| 简单文字转语音 | tts-1 | /v1/audio/speech |
| 高清文字转语音 | tts-1-hd | /v1/audio/speech |
| 带情感/风格的 TTS | gpt-4o-mini-tts | /v1/audio/speech |
| 通用语音转写 | whisper-1 | /v1/audio/transcriptions |
| 高精度语音转 写 | gpt-4o-transcribe | /v1/audio/transcriptions |
| 会议转写(多人) | gpt-4o-transcribe-diarize | /v1/audio/transcriptions |
| 经济型语音转写 | gpt-4o-mini-transcribe | /v1/audio/transcriptions |
| 语音翻译为英文 | whisper-1 | /v1/audio/translations |
| 对话中听音频 | gpt-4o-audio-preview | /v1/chat/completions |
| 实时语音助手 | gpt-4o-realtime-preview | /v1/realtime |
