Gemini TTS 调用指南

日期: 2026-04-20

模型: gemini-3.1-flash-tts-preview

状态: ✅ 已验证可用

调用方式

通过 Gemini 原生接口 /v1beta/models/{model}:generateContent 调用，不是 OpenAI 兼容的 /v1/audio/speech。

接口地址

POST https://cloud.dataeyes.ai/v1beta/models/gemini-3.1-flash-tts-preview:generateContent

认证方式

Authorization: Bearer sk-你的API密钥

curl 示例

Python 示例

响应格式

{
  "candidates": [
    {
      "content": {
        "parts": [
          {
            "inlineData": {
              "mimeType": "audio/l16; rate=24000; channels=1",
              "data": "AAAAAAAAAA...（base64 编码的 PCM 音频数据）"
            }
          }
        ]
      }
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 15,
    "candidatesTokenCount": 200,
    "totalTokenCount": 215
  }
}

响应字段说明

字段	说明
`mimeType`	`audio/l16; rate=24000; channels=1` — 16bit PCM，24kHz 采样率，单声道
`data`	base64 编码的原始 PCM 音频数据

可用声音列表

在 speechConfig.voiceConfig.prebuiltVoiceConfig.voiceName 中指定：

声音名称	说明
Kore	女声
Charon	男声
Fenrir	男声
Aoede	女声
Puck	男声
Leda	女声

更多声音选项请参考 Google Gemini TTS 文档。

官方定价

类型	付费层级（每 100 万 token）
输入（文字）	$1.00
输出（音频）	$20.00

音频 token 换算: 每秒 25 个音频 token

注意事项

必须使用 Gemini 原生接口格式，不支持 OpenAI 兼容的 /v1/audio/speech 端点

响应是 PCM 原始音频（非 MP3/WAV），客户端需要自行转换格式或直接播放 PCM

responseModalities 必须设置为 ["AUDIO"]，否则返回文本而非语音

支持中文、英文等多语言输入，模型会自动识别语言

如需流式输出，将接口改为 streamGenerateContent?alt=sse：

POST /v1beta/models/gemini-3.1-flash-tts-preview:streamGenerateContent?alt=sse

实测记录（2026-04-20）

请求: "Hello, welcome to our service. This is a test of text to speech."

声音: Kore

结果: ✅ 成功返回音频数据

响应格式: audio/l16; rate=24000; channels=1

HTTP 状态码: 200

Gemini TTS 调用API

Gemini TTS 调用指南#

调用方式#

接口地址#

认证方式#

curl 示例#

Python 示例#

响应格式#

响应字段说明#

可用声音列表#

官方定价#

注意事项#

实测记录（2026-04-20）#