语音接口技术文档

Base URL: https://cloud.dataeyes.ai
认证方式: Authorization: Bearer <您的key>
文档版本: 2026-04

1. 概述

本平台提供完整的语音 API 能力，覆盖以下场景：

场景	接口	说明
文字转语音 (TTS)	`/v1/audio/speech`	文本合成为语音文件
语音转文字 (STT)	`/v1/audio/transcriptions`	音频文件转写为文本
语音翻译	`/v1/audio/translations`	音频翻译为英文文本
对话中的音频	`/v1/chat/completions`	多模态对话中携带音频输入/输出
实时语音对话	`/v1/realtime`	WebSocket 双向实时语音流

支持的提供商

提供商	TTS	STT	Realtime	说明
OpenAI	✅	✅	✅	全功能支持，含流式
火山引擎 (VolcEngine)	✅	❌	❌	支持 WebSocket 流式 TTS，中文声音映射
MiniMax	✅	❌	❌	支持情感/语速/音量控制
Cloudflare	❌	✅	❌	转写和翻译

2. TTS 文字转语音接口

将文本合成为音频文件。

2.1 端点

POST /v1/audio/speech

2.2 请求体（JSON）

字段	类型	必填	说明
`model`	string	是	TTS 模型名称
`input`	string	是	待合成的文本内容
`voice`	string	是	声音 ID
`instructions`	string	否	语音风格指令（gpt-4o-mini-tts 支持）
`response_format`	string	否	输出音频格式，默认 `mp3`
`speed`	float	否	语速倍率，范围 0.25-4.0，默认 1.0
`stream_format`	string	否	设为 `"sse"` 启用流式输出
`metadata`	object	否	提供商特定参数

2.3 支持的声音

OpenAI 标准声音：

声音 ID	风格描述
`alloy`	中性、平衡
`echo`	男性、沉稳
`fable`	女性、温柔
`onyx`	男性、低沉
`nova`	女性、活泼
`shimmer`	女性、柔和

火山引擎会自动将上述声音映射为对应的中文语音：
alloy → 男性对话音色
echo → 男性稳重音色
fable → 女性甜美音色
onyx → 男性知性音色
nova → 女性爽快音色
shimmer → 女性灿灿音色

2.4 支持的音频格式

格式	Content-Type	说明
`mp3`	audio/mpeg	默认格式，通用性最好
`wav`	audio/wav	无损格式，文件较大
`aac`	audio/aac	iOS 平台常用
`flac`	audio/flac	无损压缩
`opus`	audio/opus	高质量低码率
`pcm`	audio/pcm	原始 PCM 数据（24kHz, 16-bit, 单声道）

2.5 请求示例

基础 TTS：

高清 TTS：

GPT-4o-mini-TTS（带风格指令）：

流式 TTS（SSE）：

2.6 响应

非流式：直接返回音频二进制数据，Content-Type 为对应的音频 MIME 类型

流式：以 SSE 格式分块返回音频数据

2.7 TTS 模型列表

模型	说明	提供商
`tts-1`	标准 TTS	OpenAI
`tts-1-hd`	高清 TTS	OpenAI
`tts-1-1106`	TTS 1106 版	OpenAI
`tts-1-hd-1106`	高清 TTS 1106 版	OpenAI
`gpt-4o-mini-tts`	GPT-4o Mini TTS（支持风格指令）	OpenAI
`gpt-4o-mini-tts-2025-03-20`	GPT-4o Mini TTS 特定版本	OpenAI
`gpt-4o-mini-tts-2025-12-15`	GPT-4o Mini TTS 特定版本	OpenAI
`speech-2.5-hd-preview`	MiniMax 2.5 高清预览	MiniMax
`speech-2.5-turbo-preview`	MiniMax 2.5 快速预览	MiniMax
`speech-02-hd`	MiniMax 高清	MiniMax
`speech-02-turbo`	MiniMax 快速	MiniMax
`speech-01-hd`	MiniMax 高清 v1	MiniMax
`speech-01-turbo`	MiniMax 快速 v1	MiniMax

3. STT 语音转文字接口（转写）

将音频文件转写为文本。

3.1 端点

POST /v1/audio/transcriptions

3.2 请求格式

Content-Type: multipart/form-data

字段	类型	必填	说明
`file`	file	是	音频文件
`model`	string	是	STT 模型名称
`language`	string	否	语言代码，如 `zh`、`en`、`ja`
`prompt`	string	否	上下文提示，帮助模型更好理解内容
`response_format`	string	否	响应格式，默认 `json`
`temperature`	float	否	温度参数 0-1

3.3 支持的音频文件格式

mp3, mp4, mpeg, mpga, m4a, wav, webm, ogg, flac

3.4 response_format 响应格式

格式	whisper-1	gpt-4o-transcribe 系列	说明
`json`	✅	✅	简单 JSON，含 text 字段（默认）
`text`	✅	✅	纯文本
`srt`	✅	❌	SRT 字幕格式
`verbose_json`	✅	❌	详细 JSON，含时间戳、分段信息
`vtt`	✅	❌	WebVTT 字幕格式

注意：gpt-4o-transcribe 和 gpt-4o-mini-transcribe 系列模型仅支持 json 和 text 两种响应格式。使用 verbose_json、srt、vtt 会返回 unsupported_value 错误。如需字幕或时间戳功能，请使用 whisper-1 模型。

3.5 请求示例

基础转写（Whisper）：

GPT-4o-transcribe（高精度转写）：

说话人分离转写：

生成字幕文件：

3.6 响应体

json 格式（whisper-1）：

{
  "text": "你好，欢迎来到我们的平台。"
}

json 格式（gpt-4o-transcribe 系列）：

{
  "text": "你好，欢迎来到我们的平台。",
  "usage": {
    "type": "tokens",
    "total_tokens": 34,
    "input_tokens": 30,
    "input_token_details": {
      "text_tokens": 0,
      "audio_tokens": 30
    },
    "output_tokens": 4
  }
}

gpt-4o-transcribe 系列会额外返回 usage 字段，包含 Token 消耗明细。音频 Token 消耗约为每分钟 1000 个 audio tokens。

verbose_json 格式（仅 whisper-1）：

{
  "task": "transcribe",
  "language": "chinese",
  "duration": 5.32,
  "text": "你好，欢迎来到我们的平台。",
  "segments": [
    {
      "id": 0,
      "seek": 0,
      "start": 0.0,
      "end": 2.5,
      "text": "你好，",
      "tokens": [1, 2, 3],
      "temperature": 0.0,
      "avg_logprob": -0.25,
      "compression_ratio": 0.8,
      "no_speech_prob": 0.01
    },
    {
      "id": 1,
      "seek": 250,
      "start": 2.5,
      "end": 5.32,
      "text": "欢迎来到我们的平台。",
      "tokens": [4, 5, 6, 7, 8],
      "temperature": 0.0,
      "avg_logprob": -0.18,
      "compression_ratio": 0.9,
      "no_speech_prob": 0.02
    }
  ]
}

srt 格式：

1
00:00:00,000 --> 00:00:02,500
你好，

2
00:00:02,500 --> 00:00:05,320
欢迎来到我们的平台。

3.7 STT 模型列表

模型	说明	支持的 response_format	特点
`whisper-1`	Whisper 标准模型	json, text, srt, verbose_json, vtt	通用、稳定，支持字幕输出
`gpt-4o-transcribe`	GPT-4o 转写	json, text	高精度，更好的上下文理解
`gpt-4o-transcribe-diarize`	GPT-4o 转写（说话人分离）	json, text	自动识别不同说话人
`gpt-4o-mini-transcribe`	GPT-4o Mini 转写	json, text	性价比高
`gpt-4o-mini-transcribe-2025-03-20`	GPT-4o Mini 转写特定版本	json, text	特定日期版本
`gpt-4o-mini-transcribe-2025-12-15`	GPT-4o Mini 转写特定版本	json, text	特定日期版本

4. 语音翻译接口（翻译为英文）

将任意语言的音频翻译为英文文本。

4.1 端点

POST /v1/audio/translations

4.2 请求格式

Content-Type: multipart/form-data

字段	类型	必填	说明
`file`	file	是	音频文件
`model`	string	是	模型名称（默认 `whisper-1`）
`prompt`	string	否	上下文提示
`response_format`	string	否	响应格式，默认 `json`
`temperature`	float	否	温度参数

4.3 请求示例

4.4 响应体

{
  "text": "Hello, welcome to our platform."
}

5. Chat Completions 音频输入/输出

在标准 Chat Completions 接口中使用音频能力。

5.1 端点

POST /v1/chat/completions

5.2 音频输入（在消息中嵌入音频）

5.3 音频输出

启用音频输出需设置 modalities 和 audio 参数：

5.4 音频对话模型

模型	说明
`gpt-4o-audio-preview`	GPT-4o 音频预览
`gpt-4o-audio-preview-2024-12-17`	特定版本
`gpt-4o-mini-audio-preview`	GPT-4o Mini 音频预览
`gpt-audio`	GPT 音频正式版
`gpt-audio-mini`	GPT 音频 Mini 版

5.5 Usage 中的音频 Token

音频对话的 Usage 包含详细的 Token 分类：

{
  "usage": {
    "prompt_tokens": 100,
    "completion_tokens": 200,
    "total_tokens": 300,
    "prompt_tokens_details": {
      "cached_tokens": 0,
      "text_tokens": 50,
      "audio_tokens": 50,
      "image_tokens": 0
    },
    "completion_tokens_details": {
      "text_tokens": 100,
      "audio_tokens": 100,
      "reasoning_tokens": 0
    }
  }
}

6. Realtime 实时语音对话接口（WebSocket）

支持双向实时语音流，适用于语音助手、实时翻译等场景。

6.1 端点

GET /v1/realtime (WebSocket Upgrade)

6.2 连接方式

wss://cloud.dataeyes.ai/v1/realtime?model=gpt-4o-realtime-preview

WebSocket Headers：

Authorization: Bearer <您的key>
Sec-WebSocket-Protocol: realtime

6.3 会话初始化

连接成功后，发送 session.update 配置会话：

{
  "event_id": "evt_001",
  "type": "session.update",
  "session": {
    "modalities": ["text", "audio"],
    "instructions": "你是一个友好的中英文翻译助手，用户说中文你翻译成英文，说英文你翻译成中文。",
    "voice": "alloy",
    "input_audio_format": "pcm16",
    "output_audio_format": "pcm16",
    "input_audio_transcription": {
      "model": "whisper-1"
    },
    "turn_detection": {
      "type": "server_vad",
      "threshold": 0.5,
      "prefix_padding_ms": 300,
      "silence_duration_ms": 500
    },
    "temperature": 0.8,
    "tools": [],
    "tool_choice": "auto"
  }
}

6.4 音频格式

格式	参数值	说明
PCM 16-bit	`pcm16`	原始 PCM（24kHz, 16-bit, 单声道）
G.711 u-law	`g711_ulaw`	电话音频格式
G.711 A-law	`g711_alaw`	电话音频格式

6.5 发送音频数据

将音频数据以 Base64 编码发送：

{
  "type": "input_audio_buffer.append",
  "audio": "<base64编码的PCM音频数据>"
}

6.6 触发生成响应

{
  "type": "response.create",
  "response": {
    "modalities": ["text", "audio"]
  }
}

6.7 接收响应事件

会话已创建：

{
  "type": "session.created",
  "session": {
    "modalities": ["text", "audio"],
    "voice": "alloy",
    ...
  }
}

音频数据增量：

{
  "type": "response.audio.delta",
  "delta": "<base64编码的音频chunk>"
}

音频转写增量：

{
  "type": "response.audio_transcript.delta",
  "delta": "你好"
}

响应完成（含 Usage）：

{
  "type": "response.done",
  "response": {
    "usage": {
      "total_tokens": 500,
      "input_tokens": 200,
      "output_tokens": 300,
      "input_token_details": {
        "cached_tokens": 0,
        "text_tokens": 50,
        "audio_tokens": 150
      },
      "output_token_details": {
        "text_tokens": 100,
        "audio_tokens": 200
      }
    }
  }
}

错误事件：

{
  "type": "error",
  "error": {
    "type": "invalid_request_error",
    "message": "Audio format not supported"
  }
}

6.8 完整事件交互流程

客户端                                      服务端
  │                                           │
  │ ──── WebSocket Connect ───────────────→   │
  │ ←──── session.created ────────────────   │
  │                                           │
  │ ──── session.update ──────────────────→   │
  │ ←──── session.updated ────────────────   │
  │                                           │
  │ ──── input_audio_buffer.append ───────→   │
  │ ──── input_audio_buffer.append ───────→   │
  │ ──── input_audio_buffer.append ───────→   │
  │                                           │
  │ ──── response.create ─────────────────→   │
  │ ←──── response.audio.delta ───────────   │
  │ ←──── response.audio.delta ───────────   │
  │ ←──── response.audio_transcript.delta    │
  │ ←──── response.done ─────────────────   │
  │                                           │

6.9 Realtime 模型列表

模型	说明
`gpt-4o-realtime-preview`	GPT-4o 实时预览
`gpt-4o-realtime-preview-2024-10-01`	特定版本
`gpt-4o-realtime-preview-2024-12-17`	特定版本
`gpt-4o-realtime-preview-2025-06-03`	特定版本
`gpt-4o-mini-realtime-preview`	GPT-4o Mini 实时预览
`gpt-4o-mini-realtime-preview-2024-12-17`	特定版本
`gpt-realtime`	GPT 实时正式版
`gpt-realtime-2025-08-28`	特定版本
`gpt-realtime-mini`	GPT 实时 Mini 版
`gpt-realtime-mini-2025-10-06`	特定版本
`gpt-realtime-mini-2025-12-15`	特定版本

7. 各提供商详情

7.1 OpenAI

完整支持 TTS + STT + Realtime。

TTS 支持 6 种标准声音 + gpt-4o-mini-tts 风格指令

STT 支持 whisper-1 和 gpt-4o-transcribe 系列

Realtime 支持 PCM16、G.711 音频格式

音频 Token 计算：每分钟音频 ≈ 1000 tokens

7.2 火山引擎 (VolcEngine)

仅支持 TTS。

声音映射（OpenAI → 火山引擎中文声音）：

OpenAI 声音	火山引擎声音 ID	风格
`alloy`	zh_male_M392_conversation_wvae_bigtts	男性对话
`echo`	zh_male_wenhao_mars_bigtts	男性文浩
`fable`	zh_female_tianmei_mars_bigtts	女性甜美
`onyx`	zh_male_zhibei_mars_bigtts	男性知性
`nova`	zh_female_shuangkuaisisi_mars_bigtts	女性爽快
`shimmer`	zh_female_cancan_mars_bigtts	女性灿灿

音频格式映射：

请求格式	火山引擎编码
`mp3`	mp3
`opus`	ogg_opus
`aac` / `flac`	mp3（回退）
`wav`	wav
`pcm`	pcm

认证格式： API Key 为 appid|access_token 格式

请求示例（使用火山引擎渠道的 TTS）：

注：实际可用的模型名称取决于平台渠道配置。

7.3 MiniMax

仅支持 TTS。

特色功能：

情感控制（emotion）

语速/音量/音调精细控制

音色权重混合

语言增强（language_boost）

字幕生成

MiniMax TTS 请求参数（通过 metadata）：

参数	类型	说明
`voice_setting.speed`	float	语速
`voice_setting.vol`	float	音量
`voice_setting.pitch`	float	音调
`voice_setting.emotion`	string	情感
`language_boost`	string	语言增强
`subtitle_enable`	bool	启用字幕
`output_format`	string	输出格式

MiniMax TTS 模型：

模型	说明
`speech-2.5-hd-preview`	2.5 高清预览
`speech-2.5-turbo-preview`	2.5 快速预览
`speech-02-hd`	高清版
`speech-02-turbo`	快速版
`speech-01-hd`	v1 高清版
`speech-01-turbo`	v1 快速版

7.4 Cloudflare

仅支持 STT（转写和翻译）。

简单的文件上传转发模式，支持 whisper-1 模型。

8. 支持的语音模型完整列表

8.1 TTS 模型

模型	提供商	说明
`tts-1`	OpenAI	标准 TTS
`tts-1-hd`	OpenAI	高清 TTS
`tts-1-1106`	OpenAI	TTS 1106 版
`tts-1-hd-1106`	OpenAI	高清 1106 版
`gpt-4o-mini-tts`	OpenAI	GPT-4o Mini TTS（支持风格指令）
`gpt-4o-mini-tts-2025-03-20`	OpenAI	特定版本
`gpt-4o-mini-tts-2025-12-15`	OpenAI	特定版本
`speech-2.5-hd-preview`	MiniMax	MiniMax 2.5 高清
`speech-2.5-turbo-preview`	MiniMax	MiniMax 2.5 快速
`speech-02-hd`	MiniMax	MiniMax 高清
`speech-02-turbo`	MiniMax	MiniMax 快速
`speech-01-hd`	MiniMax	MiniMax v1 高清
`speech-01-turbo`	MiniMax	MiniMax v1 快速

8.2 STT 模型（转写/翻译）

模型	提供商	说明
`whisper-1`	OpenAI	Whisper 标准版，通用转写
`gpt-4o-transcribe`	OpenAI	GPT-4o 高精度转写
`gpt-4o-transcribe-diarize`	OpenAI	GPT-4o 转写 + 说话人分离
`gpt-4o-mini-transcribe`	OpenAI	GPT-4o Mini 转写
`gpt-4o-mini-transcribe-2025-03-20`	OpenAI	特定版本
`gpt-4o-mini-transcribe-2025-12-15`	OpenAI	特定版本

8.3 Audio Preview 模型（对话中的音频输入/输出）

模型	提供商	说明
`gpt-4o-audio-preview`	OpenAI	音频对话预览
`gpt-4o-audio-preview-2024-10-01`	OpenAI	特定版本
`gpt-4o-audio-preview-2024-12-17`	OpenAI	特定版本
`gpt-4o-audio-preview-2025-06-03`	OpenAI	特定版本
`gpt-4o-mini-audio-preview`	OpenAI	Mini 音频对话预览
`gpt-4o-mini-audio-preview-2024-12-17`	OpenAI	特定版本
`gpt-audio`	OpenAI	音频对话正式版
`gpt-audio-2025-08-28`	OpenAI	特定版本
`gpt-audio-mini`	OpenAI	Mini 音频对话
`gpt-audio-mini-2025-10-06`	OpenAI	特定版本
`gpt-audio-mini-2025-12-15`	OpenAI	特定版本

8.4 Realtime 模型（实时语音流）

模型	提供商	说明
`gpt-4o-realtime-preview`	OpenAI	GPT-4o 实时预览
`gpt-4o-realtime-preview-2024-10-01`	OpenAI	特定版本
`gpt-4o-realtime-preview-2024-12-17`	OpenAI	特定版本
`gpt-4o-realtime-preview-2025-06-03`	OpenAI	特定版本
`gpt-4o-mini-realtime-preview`	OpenAI	Mini 实时预览
`gpt-4o-mini-realtime-preview-2024-12-17`	OpenAI	特定版本
`gpt-realtime`	OpenAI	实时正式版
`gpt-realtime-2025-08-28`	OpenAI	特定版本
`gpt-realtime-mini`	OpenAI	实时 Mini 版
`gpt-realtime-mini-2025-10-06`	OpenAI	特定版本
`gpt-realtime-mini-2025-12-15`	OpenAI	特定版本

9. 错误处理

9.1 错误响应格式

{
  "error": {
    "message": "Invalid audio format. Supported formats: mp3, mp4, mpeg, mpga, m4a, wav, webm, ogg, flac",
    "type": "invalid_request_error",
    "code": "invalid_audio_format"
  }
}

9.2 常见错误

HTTP 状态码	场景	说明
400	参数错误	缺少必填字段（如 file、model）或格式不支持
400	文件过大	音频文件超出大小限制（一般 25MB）
401	认证失败	API Key 无效
403	权限不足	无权使用该模型
413	请求过大	请求体超出限制
429	频率限制	请求过于频繁
500	服务端错误	上游提供商异常

9.3 TTS 特定错误

model 为空或不支持 → 400

input 为空 → 400

voice 无效 → 400

文本过长超出模型限制 → 400

9.4 STT 特定错误

file 字段缺失 → 400

音频文件格式不支持 → 400

音频文件损坏或无法解码 → 400

language 代码无效 → 400

附录：接口路径速查表

方法	路径	Content-Type	说明
POST	`/v1/audio/speech`	application/json	TTS 文字转语音
POST	`/v1/audio/transcriptions`	multipart/form-data	STT 语音转文字
POST	`/v1/audio/translations`	multipart/form-data	语音翻译（→英文）
POST	`/v1/chat/completions`	application/json	对话中的音频输入/输出
GET	`/v1/realtime`	WebSocket Upgrade	实时语音对话

快速选择指南

需求	推荐模型	接口
简单文字转语音	`tts-1`	`/v1/audio/speech`
高清文字转语音	`tts-1-hd`	`/v1/audio/speech`
带情感/风格的 TTS	`gpt-4o-mini-tts`	`/v1/audio/speech`
通用语音转写	`whisper-1`	`/v1/audio/transcriptions`
高精度语音转写	`gpt-4o-transcribe`	`/v1/audio/transcriptions`
会议转写（多人）	`gpt-4o-transcribe-diarize`	`/v1/audio/transcriptions`
经济型语音转写	`gpt-4o-mini-transcribe`	`/v1/audio/transcriptions`
语音翻译为英文	`whisper-1`	`/v1/audio/translations`
对话中听音频	`gpt-4o-audio-preview`	`/v1/chat/completions`
实时语音助手	`gpt-4o-realtime-preview`	`/v1/realtime`

语音接口API

语音接口技术文档#

目录#

1. 概述#

支持的提供商#

2. TTS 文字转语音接口#

2.1 端点#

2.2 请求体（JSON）#

2.3 支持的声音#

2.4 支持的音频格式#

2.5 请求示例#

2.6 响应#

2.7 TTS 模型列表#

3. STT 语音转文字接口（转写）#

3.1 端点#

3.2 请求格式#

3.3 支持的音频文件格式#

3.4 response_format 响应格式#

3.5 请求示例#

3.6 响应体#

3.7 STT 模型列表#

4. 语音翻译接口（翻译为英文）#

4.1 端点#

4.2 请求格式#

4.3 请求示例#

4.4 响应体#

5. Chat Completions 音频输入/输出#

5.1 端点#

5.2 音频输入（在消息中嵌入音频）#

5.3 音频输出#

5.4 音频对话模型#

5.5 Usage 中的音频 Token#

6. Realtime 实时语音对话接口（WebSocket）#

6.1 端点#

6.2 连接方式#

6.3 会话初始化#

6.4 音频格式#

6.5 发送音频数据#

6.6 触发生成响应#

6.7 接收响应事件#

6.8 完整事件交互流程#

6.9 Realtime 模型列表#

7. 各提供商详情#

7.1 OpenAI#

7.2 火山引擎 (VolcEngine)#

7.3 MiniMax#

7.4 Cloudflare#

8. 支持的语音模型完整列表#

8.1 TTS 模型#

8.2 STT 模型（转写/翻译）#

8.3 Audio Preview 模型（对话中的音频输入/输出）#

8.4 Realtime 模型（实时语音流）#

9. 错误处理#

9.1 错误响应格式#

9.2 常见错误#

9.3 TTS 特定错误#

9.4 STT 特定错误#

附录：接口路径速查表#

快速选择指南#