DataEyesAI
官网首页文档首页
快速开始开发工具接入AI大模型API
官网首页文档首页
快速开始开发工具接入AI大模型API
  1. 语音接口技术文档
  • 快速开始
    • 平台简介
    • 控制台(入门)
    • API key
    • Base URL
    • 全网大模型支持与通道能力说明
  • 开发工具接入
    • OpenClaw
    • Claude Code
    • Claude Code IDE
    • Codex
    • OpenCode
    • Cline
    • Grok CLI
    • Gemini CLI
    • N8N
    • AutoClaw
    • 其他工具
    • 常见问题
      • Claude Code 400 错误排查指南
  • AI大模型API
    • OpenAI格式(支持各大原厂模型)
      • 聊天(Response)
        • 创建模型响应
        • 创建模型响应(流式返回)
        • 创建网络搜索
        • 创建模型响应 gpt-5启用思考
        • 创建函数调用
        • 创建模型响应 (控制思考长度)
      • ChatGPT接口
        • ChatGPT音频(Audio)
          • 音频转文字 gpt-4o-transcribe
          • GPT-4o-audio
          • 音频转文字 whisper-1
          • 音频转文字 gpt-4o-transcribe
          • 创建语音 gpt-4o-mini-tts
        • ChatGPT聊天(Chat)
          • 创建聊天识图 (非流)
          • 创建聊天识图 (流式)
          • 创建聊天识图 (流式) best64
          • 官方N测试
          • 创建结构化输出
          • 控制推理模型努力程度
          • 创建聊天函数调用
          • deepseek-ocr 识别
          • 创建聊天补全 (非流)
        • ChatGPT自动补全(Completions)
          • ChatGPT自动补全(Completions)
          • 创建完成
      • 图像
        • GPT Image 2
        • 图像编辑 API 文档
        • 文生图片
        • 修改图片(images)
        • 创建聊天补全 (流式)
        • 创建聊天补全 qwen-mt-turbo
        • 创建聊天补全 deepseek v3.1思考程度 (流式)
      • 语音
        • 语音识别(audio)
        • 语音合成(audio)
        • 官方Function calling调用
        • 创建聊天创作图 (非流)
      • 向量化
        • 文本向量化
    • Anthropic格式
      • 聊天
      • 聊天(prompt cache)
      • 流式返回
      • 聊天(旧模型-深度思考)
      • 聊天(新模型-深度思考)
      • 工具调用(function call)
      • 分析图片
    • Midjourney格式
      • 任务查询接口
      • 获取种子(Seed)
      • 上传图片(upload)
      • 文生图(Imagine)
      • 根据ID列表查询任务
      • 换脸(FaceSwap)
      • 执行Action动作
      • 提交Blend任务
      • 提交Describe任务
      • 提交Modal
      • 刷新链接(Refresh)
      • 编辑图片(Edit)
      • 根据任务ID 查询任务状态
      • 获取任务图片的seed
    • NanoBanana
      • OpenAI请求方式
        • 编辑图像
        • OpenAI 图像格式
      • Gemini请求方式
        • 生成图片
        • 编辑图片
    • 通用视频生成API
      • 通用视频生成 API 接口调用文档
      • Veo视频生成
        • OpenAI视频格式(推荐使用)
          • OpenAI创建视频,带图片
          • OpenAI查询任务
          • OpenAI下载视频
      • Kling快手可灵
        • 文生视频
        • 图生视频
        • 查询任务(免费)
      • Wan通义千问
        • 创建视频,带图片 Wan
        • 查询视频 Wan
      • MiniMax视频生成
        • 文生视频生成任务
        • 图生视频任务
        • 查询视频生成任务状态
        • 视频下载
      • Vidu视频生成
        • Vidu 生成视频
        • Vidu 查询
    • 官方视频生成API
      • Sora视频生成
        • OpenAI官方视频格式(推荐使用)
          • sora-2/sora-2-pro
            • OpenAI查询任务
            • OpenAI下载视频
            • OpenAI创建视频,带图片
            • OpenAI创建视频(带Character)
            • OpenAI编辑视频
        • Chat格式
          • 创建视频
          • 创建视频+图片
          • 连续修改生成视频
    • 语音接口技术文档
      • 语音接口API
      • Gemini TTS 调用API
    • 豆包系列-视频生成
      • 文生视频示例
      • 图生视频示例
      • 查询单个任务
    • 豆包系列-绘画
      • doubao-seededit-3-0-i2i-250628
      • doubao-seedream-4-0-250828-文生图
      • doubao-seedream-4-0-250828-图生图
      • doubao-seedream-4-0-250828-多图生图
    • Rerank重排序模型
      • 重排序
    • 文生音乐Suno
      • 任务提交
        • 生成歌曲(灵感模式)
        • 生成歌曲(自定义模式)
        • 生成歌曲(续写模式)
        • 生成歌曲(歌手风格)
        • 生成歌曲(上传歌曲二次创作)
        • 生成歌曲(拼接歌曲)
        • 生成歌词
        • 歌曲拼接
      • 查询接口
        • 批量获取任务
        • 查询单个任务
    • flux系列
      • flux-kontext-max
    • 谷歌Gemini接口
      • 原生格式
        • 文生图片 控制宽高比 +清晰度
        • 生成图片
        • 文本生成
        • 文本生成-流
        • 文本生成+思考-流
        • 图片生成
        • 格式化输出
        • 函数调用
        • 文档理解
        • URL context [原生格式]
        • 代码执行
        • 视频理解
        • URL context
        • 视频理解-url [原生格式]
        • Imagen 4
        • 音频理解
        • Embeddings
        • 聊天
        • 编辑图片
      • 图生图Base64请求方式
        • 多图融合片生成 gemini-3-pro-image-preview 控制宽高比 +清晰度
        • 图片编辑
        • 单图片 gemini-3-pro-image-preview 控制宽高比 +清晰度
        • 图片生成 gemini-2.5-flash-image
        • 图片生成 gemini-2.5-flash-image 控制宽高比
        • 图片理解
      • 图生图URL请求返回 URL请求格式OpenAI
        • 单图生图 gemini-3-pro-image-preview 控制宽高比 +清晰度
        • 多图融合片生成 gemini-3-pro-image-preview 控制宽高比 +清晰度
        • 图片理解
    • grok视频
      POST
  • 搜索/阅读API
    • 网页阅读API
      • Web Reader API
      • Web Reader API (HK)
    • 联网搜索API
      • 模态卡API
        • 天气
          • 国内外城市ID
          • 天气查询API
        • 热搜API
      • 谷歌/bing搜索API
      • youtube搜索API
    • 文档OCR解析API
      • PDF文件
      • URL解析
  • 进阶与系统接口
    • DataEyesAI 模型能力与通道矩阵
    • HTTP注意事项
    • CODE&错误码
    • 数据更新相关
    • API 密钥与额度查询接口
    • Models(列出模型)
    • 查询账户信息
  1. 语音接口技术文档

Gemini TTS 调用API

Gemini TTS 调用指南#

日期: 2026-04-20
平台域名: https://cloud.dataeyes.ai
模型: gemini-3.1-flash-tts-preview
状态: ✅ 已验证可用

调用方式#

通过 Gemini 原生接口 /v1beta/models/{model}:generateContent 调用,不是 OpenAI 兼容的 /v1/audio/speech。

接口地址#

POST https://cloud.dataeyes.ai/v1beta/models/gemini-3.1-flash-tts-preview:generateContent

认证方式#

Authorization: Bearer sk-你的API密钥

curl 示例#


Python 示例#


响应格式#

{
  "candidates": [
    {
      "content": {
        "parts": [
          {
            "inlineData": {
              "mimeType": "audio/l16; rate=24000; channels=1",
              "data": "AAAAAAAAAA...(base64 编码的 PCM 音频数据)"
            }
          }
        ]
      }
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 15,
    "candidatesTokenCount": 200,
    "totalTokenCount": 215
  }
}

响应字段说明#

字段说明
mimeTypeaudio/l16; rate=24000; channels=1 — 16bit PCM,24kHz 采样率,单声道
database64 编码的原始 PCM 音频数据

可用声音列表#

在 speechConfig.voiceConfig.prebuiltVoiceConfig.voiceName 中指定:
声音名称说明
Kore女声
Charon男声
Fenrir男声
Aoede女声
Puck男声
Leda女声
更多声音选项请参考 Google Gemini TTS 文档。

官方定价#

类型付费层级(每 100 万 token)
输入(文字)$1.00
输出(音频)$20.00
音频 token 换算: 每秒 25 个音频 token

注意事项#

1.
必须使用 Gemini 原生接口格式,不支持 OpenAI 兼容的 /v1/audio/speech 端点
2.
响应是 PCM 原始音频(非 MP3/WAV),客户端需要自行转换格式或直接播放 PCM
3.
responseModalities 必须设置为 ["AUDIO"],否则返回文本而非语音
4.
支持中文、英文等多语言输入,模型会自动识别语言
5.
如需流式输出,将接口改为 streamGenerateContent?alt=sse:
POST /v1beta/models/gemini-3.1-flash-tts-preview:streamGenerateContent?alt=sse

实测记录(2026-04-20)#

请求: "Hello, welcome to our service. This is a test of text to speech."
声音: Kore
结果: ✅ 成功返回音频数据
响应格式: audio/l16; rate=24000; channels=1
HTTP 状态码: 200
上一页
语音接口API
下一页
文生视频示例