DataEyesAI
官网首页文档首页快速开始开发工具接入AI大模型API
官网首页文档首页快速开始开发工具接入AI大模型API
  1. 语音接口API文档
  • OpenAI格式(支持各大原厂模型)
    • 聊天(Response)
      • 创建模型响应
      • 创建模型响应(流式返回)
      • 创建网络搜索
      • 创建模型响应 gpt-5启用思考
      • 创建函数调用
      • 创建模型响应 (控制思考长度)
    • ChatGPT接口
      • ChatGPT音频(Audio)
        • 音频转文字 gpt-4o-transcribe
        • GPT-4o-audio
        • 音频转文字 whisper-1
        • 音频转文字 gpt-4o-transcribe
        • 创建语音 gpt-4o-mini-tts
      • ChatGPT聊天(Chat)
        • 创建聊天识图 (非流)
        • 创建聊天识图 (流式)
        • 创建聊天识图 (流式) best64
        • 官方N测试
        • 创建结构化输出
        • 控制推理模型努力程度
        • 创建聊天函数调用
        • deepseek-ocr 识别
        • 创建聊天补全 (非流)
      • ChatGPT自动补全(Completions)
        • ChatGPT自动补全(Completions)
        • 创建完成
    • 图像
      • GPT Image 2
      • 图像编辑 API 文档
      • 文生图片
      • 创建聊天补全 (流式)
      • 创建聊天补全 qwen-mt-turbo
      • 创建聊天补全 deepseek v3.1思考程度 (流式)
    • 语音
      • 语音识别(audio)
      • 语音合成(audio)
      • 官方Function calling调用
      • 创建聊天创作图 (非流)
    • 向量化
      • 文本向量化
  • Anthropic格式
    • 聊天
    • 聊天(prompt cache)
    • 流式返回
    • 聊天(旧模型-深度思考)
    • 聊天(新模型-深度思考)
    • 工具调用(function call)
    • 分析图片
  • Midjourney格式
    • Midjourney API 接口文档
    • 任务查询接口
    • 获取种子(Seed)
    • 上传图片(upload)
    • 文生图(Imagine)
    • 根据ID列表查询任务
    • 换脸(FaceSwap)
    • 执行Action动作
    • 提交Blend任务
    • 提交Describe任务
    • 提交Modal
    • 刷新链接(Refresh)
    • 编辑图片(Edit)
    • 根据任务ID 查询任务状态
    • 获取任务图片的seed
  • NanoBanana
    • OpenAI请求方式
      • 编辑图像
      • OpenAI 图像格式
    • Gemini请求方式
      • 生成图片
      • 编辑图片
  • 视频生成接口API
    • 通用视频生成API
      • 通用视频生成 API 接口调用文档
    • 豆包Seedance视频生成
      • 00-概述
      • 01-创建视频生成任务
      • 02-查询视频生成任务
      • 03-查询视频生成任务列表
      • 04-取消或删除视频生成任务
    • 海螺Hailuo视频生成
      • 00-概述
      • 01-文生视频-T2V
      • 02-图生视频-I2V
      • 03-首尾帧生成视频-FL2V
      • 04-主体参考视频-S2V
      • 05-查询任务状态
      • 06-视频下载
      • 07-附录-运镜指令与回调
    • 可灵AI视频生成
      • 00-概述
      • 01-文生视频
      • 02-图生视频
      • 03-视频Omni
      • 04-多图参考生视频
      • 05-动作控制
      • 06-多模态视频编辑
      • 07-视频延长
      • 08-对口型
      • 09-数字人
      • 10-文生音效
      • 11-视频配音效
      • 12-语音合成
      • 13-音色克隆
      • 14-图像识别
      • 15-主体管理
      • 16-视频特效
    • Vidu视频生成
      • 00-概述
      • 01-文生视频
      • 02-图生视频
      • 03-参考生视频
      • 04-首尾帧
      • 05-智能多帧
      • 06-场景特效模板
      • 07-模板成片
      • 08-查询任务
    • 即梦视频生成
      • 00-概述
      • 01-3.0Pro视频生成
      • 02-720P文生视频
      • 03-720P图生视频-首帧
      • 04-720P图生视频-首尾帧
      • 05-720P图生视频-运镜
      • 06-1080P文生视频
      • 07-1080P图生视频-首帧
      • 08-1080P图生视频-首尾帧
      • 09-错误码
    • Grok视频生成
      • 00-概述
      • 01-文生视频
      • 02-图生视频
      • 03-参考图生视频
      • 04-视频编辑
      • 05-视频延长
  • 语音接口API文档
    • 语音接口API
    • Gemini TTS 调用API
    • Google DeepMind Lyria API文档
  • 豆包系列-绘画
    • doubao-seededit-3-0-i2i-250628
    • doubao-seedream-4-0-250828-文生图
    • doubao-seedream-4-0-250828-图生图
    • doubao-seedream-4-0-250828-多图生图
  • Rerank重排序模型
    • 重排序
  • 文生音乐Suno
    • 任务提交
      • 生成歌曲(灵感模式)
      • 生成歌曲(自定义模式)
      • 生成歌曲(续写模式)
      • 生成歌曲(歌手风格)
      • 生成歌曲(上传歌曲二次创作)
      • 生成歌曲(拼接歌曲)
      • 生成歌词
      • 歌曲拼接
    • 查询接口
      • 批量获取任务
      • 查询单个任务
  • flux系列
    • flux-kontext-max
  • 谷歌Gemini接口
    • 原生格式
      • 文生图片 控制宽高比 +清晰度
      • 生成图片
      • 文本生成
      • 文本生成-流
      • 文本生成+思考-流
      • 图片生成
      • 格式化输出
      • 函数调用
      • 文档理解
      • URL context [原生格式]
      • 代码执行
      • 视频理解
      • URL context
      • 视频理解-url [原生格式]
      • Imagen 4
      • 音频理解
      • Embeddings
      • 聊天
      • 编辑图片
    • 图生图Base64请求方式
      • 多图融合片生成 gemini-3-pro-image-preview 控制宽高比 +清晰度
      • 图片编辑
      • 单图片 gemini-3-pro-image-preview 控制宽高比 +清晰度
      • 图片生成 gemini-2.5-flash-image
      • 图片生成 gemini-2.5-flash-image 控制宽高比
      • 图片理解
    • 图生图URL请求返回 URL请求格式OpenAI
      • 单图生图 gemini-3-pro-image-preview 控制宽高比 +清晰度
      • 多图融合片生成 gemini-3-pro-image-preview 控制宽高比 +清晰度
      • 图片理解
  1. 语音接口API文档

Google DeepMind Lyria API文档

Music Generation API 接口文档#

版本: v1.0.0  |  更新日期: 2026-06-18  |  模型: lyria-3-pro-preview  |  状态: Preview
本文档基于线上实测请求/响应编写,所有字段名、类型、取值均与实际 API 返回严格一致。

目录#

1. 概述
2. 认证
3. 可用模型
4. 生成内容
4.1 接口地址
4.2 请求体 (Request Body)
4.3 响应体 (Response Body)
4.4 歌词格式规范
4.5 乐曲分析元数据
5. 完整示例
5.1 cURL
5.2 Python
5.3 Node.js
6. 错误码
7. 速率限制
8. 最佳实践
9. 变更记录

1. 概述#

通过 Gemini 兼容接口 (generateContent) 调用 Google DeepMind Lyria 系列模型,实现高保真 AI 音乐生成。
能力说明
Text-to-Music基于自然语言描述生成完整歌曲
Full-length Song单次生成最长约 150 秒的完整乐曲
Vocal + Instrumental支持人声演唱与多轨乐器编排
Auto Lyrics自动生成带精确时间戳的歌词与段落结构标注
Music Analysis返回 BPM、时长、段落配器分析等元数据
MP3 Output输出为标准 MP3 格式 (audio/mpeg),可直接播放
协议兼容性:请求/响应格式与 Google Gemini API generateContent 接口一致。

2. 认证#

所有请求须在 HTTP Header 中携带 API Key:
Authorization: Bearer YOUR_API_KEY
必需请求头:
Header值必填
AuthorizationBearer <API_KEY>是
Content-Typeapplication/json是
安全提示:API Key 为敏感凭证,请勿在客户端代码、公开仓库或日志中暴露。建议通过环境变量或密钥管理服务注入。

3. 可用模型#

Model ID说明输出格式最大时长状态
lyria-3-pro-previewGoogle DeepMind 旗舰音乐生成模型。支持高保真全曲创作,含人声演唱、多轨乐器编排、自动歌词生成与乐曲结构分析。audio/mpeg (MP3)~150 秒Preview

4. 生成内容#

4.1 接口地址#

POST https://platform.dataeyes.ai/v1/models/{model_id}:generateContent
路径参数:
参数类型说明
model_idstring模型标识符,当前可用值:lyria-3-pro-preview

4.2 请求体 (Request Body)#

参数说明#

参数类型必填说明
contentsarray<object>是会话内容数组。
contents[].partsarray<object>是内容分块数组,至少包含一个 text 分块。
contents[].parts[].textstring是生成指令 (prompt)。用自然语言描述期望的音乐风格、乐器、情绪、节奏、演唱方式等。
generationConfigobject否生成配置。
generationConfig.responseModalitiesarray<string>是响应模态列表。音乐生成必须包含 "AUDIO";推荐同时传 "TEXT" 以获取歌词与分析。可选值:"AUDIO"、"TEXT"。

完整 Schema#

{
  "contents": [
    {
      "parts": [
        {
          "text": "<音乐生成 prompt>"
        }
      ]
    }
  ],
  "generationConfig": {
    "responseModalities": ["AUDIO", "TEXT"]
  }
}

4.3 响应体 (Response Body)#

成功时返回 HTTP 200。

顶层字段#

字段类型说明
candidatesarray<object>候选结果数组。当前固定返回 1 个候选项。
usageMetadataobjectToken 用量统计。
modelVersionstring实际使用的模型版本,如 "lyria-3-pro-preview"。
createTimestring (ISO 8601)响应创建时间,如 "2026-06-18T11:59:11.049072Z"。
responseIdstring本次响应的唯一标识符,可用于问题排查与日志追踪。

candidates[] 结构#

字段类型说明
content.rolestring固定值 "model"。
content.partsarray<object>内容分块数组,见下方详细说明。
finishReasonstring生成终止原因。
finishReason 取值:
值含义
STOP正常完成,输出完整。
MAX_TOKENS达到 token 上限,输出可能被截断。
SAFETY触发内容安全策略,请求被拦截。

content.parts[] 详细说明#

音乐生成响应固定包含 3 个 part(基于实测验证):
序号类型字段说明实测示例
Part 0文本text歌词:含段落标识 [[X0]] 和精确时间戳 [sec:],详见 4.4 歌词格式规范1,497 字符
Part 1文本text乐曲分析:BPM、时长、质量评分及逐段落配器/声乐/情绪分析,详见 4.5 乐曲分析元数据7,263 字符
Part 2二进制inlineData音频文件:Base64 编码的 MP3 数据3.39 MB (解码后)

inlineData 对象#

字段类型说明
mimeTypestringMIME 类型,固定为 "audio/mpeg"。
datastringBase64 编码的音频数据。解码后为标准 MP3 文件。

usageMetadata 对象#

字段类型说明
promptTokenCountinteger输入消耗的 token 数。
candidatesTokenCountinteger生成内容消耗的 token 数(含音频 token)。
totalTokenCountinteger总计 = promptTokenCount + candidatesTokenCount。
trafficTypestring流量类型,如 "ON_DEMAND"。
promptTokensDetailsarray<object>输入 token 按模态明细。每项含 modality(如 "TEXT")和 tokenCount。
candidatesTokensDetailsarray<object>输出 token 按模态明细。每项含 modality(如 "AUDIO")和 tokenCount。

实测响应示例#

以下为 2026-06-18 实测响应(音频数据已截断):
{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "[[A0]]\n[[B1]]\n[10.9:] The kettle's singing in the morning light,\n[:] Dusting off the shadows of the night.\n[:] My boots are heavy but my heart is high,\n[:] Matching every color in the eastern sky.\n..."
          },
          {
            "text": "mosic: 4.5\nbpm: 110.0\nduration_secs: 150.5\ngood_crop: 1.0\n[[A0]]\n[0.0:] A bright and inviting Acoustic Folk intro defined by its rhythmic clarity..."
          },
          {
            "inlineData": {
              "mimeType": "audio/mpeg",
              "data": "<Base64 编码,解码后 3,554,545 字节 / 3.39 MB>"
            }
          }
        ]
      },
      "finishReason": "STOP"
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 13,
    "candidatesTokenCount": 3199,
    "totalTokenCount": 3212,
    "trafficType": "ON_DEMAND",
    "promptTokensDetails": [
      { "modality": "TEXT", "tokenCount": 13 }
    ],
    "candidatesTokensDetails": [
      { "modality": "AUDIO", "tokenCount": 3199 }
    ]
  },
  "modelVersion": "lyria-3-pro-preview",
  "createTime": "2026-06-18T11:59:11.049072Z",
  "responseId": "j90zarD_Asaa9LsP5t7F8QU"
}

4.4 歌词格式规范#

Part 0 的 text 字段采用结构化标注格式,包含段落标识符和时间戳两类标记。

段落标识符 [[LetterNumber]]#

字母表示段落功能类型,数字为该段落在整曲中的出场序号(从 0 起)。
字母类型说明实测出现
AIntro / Interlude / Solo器乐段落(前奏、间奏、独奏),无人声[[A0]], [[A5]]
BVerse主歌段落,叙事性演唱[[B1]], [[B3]]
CChorus副歌段落,旋律重复、能量最高[[C2]], [[C4]], [[C6]]
DOutro尾声段落,渐弱收束[[D7]]
注意:A 类型并非仅指"前奏"。实测中 [[A0]] 为前奏,[[A5]] 为曲中口琴独奏间奏。字母指示的是功能角色(器乐/无人声),而非固定位置。

时间戳格式#

标记含义示例
[秒数:]该行歌词的绝对起始时间(秒)[10.9:] = 第 10.9 秒
[:]紧跟上一行,无独立时间标记—

实测歌词结构示例#

[[A0]]                          ← 前奏(纯器乐,无歌词行)
[[B1]]                          ← 主歌 1
[10.9:] The kettle's singing    ← 10.9 秒起
[:] in the morning light,       ← 紧接
[:] Dusting off the shadows...
[[C2]]                          ← 副歌
[37.1:] Oh, let the good...    ← 37.1 秒起
[[B3]]                          ← 主歌 2
[54.6:] I met a friend...      ← 54.6 秒起
[[C4]]                          ← 副歌(重复)
[80.8:] Oh, let the good...
[[A5]]                          ← 间奏/口琴独奏(纯器乐)
[[C6]]                          ← 副歌(最终)
[111.3:] Oh, let the good...
[[D7]]                          ← 尾声
[128.8:] The luckiest man...

4.5 乐曲分析元数据#

Part 1 的 text 字段为模型自动生成的乐曲分析,采用 key-value 头部 + 逐段落描述 的结构。

全局指标(头部 4 行)#

字段类型说明实测值
mosicfloat音乐质量评分 (Music Quality Score),模型自评,范围 0~54.5
bpmfloat节拍速度 (Beats Per Minute)110.0
duration_secsfloat音频总时长(秒)150.5
good_cropfloat可用裁剪比例,1.0 表示全曲可用1.0
注意:字段名 mosic 是 API 实际返回值(非 music 的拼写错误),代码中应按原样解析。

逐段落描述#

头部之后,每个段落标识符(如 [[A0]])后跟该段的详细音乐学分析,包含:
分析维度说明示例摘录
配器 (Instrumentation)使用的乐器及演奏方式"steel-string acoustic guitar playing a steady, rhythmic strumming pattern"
节奏型 (Rhythm)节拍模式与律动特征"rhythmic hand-clapping on the two and four beats"
声乐特征 (Vocals)声线类型、音域、演唱风格"male tenor with a warm, crystalline, and slightly raspy timbre"
情绪/氛围 (Mood)段落的情感基调"jubilant atmosphere of collective celebration"
音乐参考 (Reference)类似的音乐风格或场景联想"reminiscent of traveling singer-songwriters"
每个段落描述还附带时间戳 [sec:],标注该段落在音频中的起始时间。

5. 完整示例#

5.1 cURL#

提示:音乐生成耗时较长(30~120 秒),如使用 curl 建议添加 --max-time 180 防止超时。

5.2 Python#

5.3 Node.js#


6. 错误码#

HTTP 状态码错误码说明处理建议
400INVALID_ARGUMENT请求参数无效。缺少 contents、parts 格式错误,或 responseModalities 未包含 "AUDIO"。检查 JSON 结构完整性,对照 4.2 请求体 中的 Schema。
401UNAUTHENTICATEDAPI Key 缺失、格式错误或已失效。确认 Header 格式为 Authorization: Bearer <key>,检查 Key 是否过期或被撤销。
403PERMISSION_DENIED当前 Key 无权访问指定模型。确认账户已开通音乐生成权限,或联系管理员调整模型授权。
429RESOURCE_EXHAUSTED请求频率超限或 token 配额不足。降低请求频率;查看响应头中的限流信息;必要时升级订阅计划。
500INTERNAL服务端内部错误。使用指数退避重试(见 7. 速率限制)。若持续出现,携带 responseId 联系技术支持。
503UNAVAILABLE服务暂时不可用或过载。使用指数退避重试。

7. 速率限制#

音乐生成为计算密集型任务,受以下维度约束(具体限额取决于订阅计划):
指标说明
RPM (Requests Per Minute)每分钟最大请求数,超限返回 429。
TPM (Tokens Per Minute)每分钟最大 token 消耗量,音频输出按 AUDIO token 计量。
并发数 (Concurrent Requests)最大同时处理的请求数。单次生成耗时 30~120 秒,需合理控制并发。

重试策略#

遇到 429 或 503 时,建议使用 指数退避 + 随机抖动 (Exponential Backoff with Jitter):
wait = min(base * 2^attempt + random(0, 1), max_wait)
参数推荐值
base (初始等待)1 秒
max_wait (最大等待)32 秒
max_attempts (最大重试次数)5 次

8. 最佳实践#

8.1 Prompt 编写#

具体化:明确指定风格 (acoustic folk, electronic, jazz)、乐器 (guitar, piano, drums)、情绪 (cheerful, melancholic, energetic)。
演唱指定:可指定声线类型与风格(如 "male tenor vocal", "female soprano, breathy tone")。
避免模糊:"make a song" 远不如 "Create a melancholic jazz ballad with piano and saxophone, slow tempo, female vocal" 效果好。

8.2 音频处理#

响应中音频为 Base64 编码的 MP3,需 Base64 解码后写入 .mp3 文件。
实测单曲约 3~5 MB(解码后),请确保客户端内存足够处理完整响应体。
HTTP 超时务必设置为 至少 120 秒,推荐 180 秒。音乐生成需要较长的模型推理时间。

8.3 响应解析#

按 part 类型 (text / inlineData) 分别处理,不要硬编码 parts 数组的索引或长度——未来模型版本可能调整 part 数量。
始终检查 finishReason,仅 "STOP" 表示输出完整。

8.4 成本优化#

通过 usageMetadata 跟踪 token 消耗,AUDIO 模态的 candidatesTokenCount 为主要成本项。
生产环境建议对相同 prompt 做去重/缓存,避免重复生成。
开发测试阶段使用简短 prompt 降低成本。

9. 变更记录#

日期版本变更内容
2026-06-18v1.0.0初始发布。支持 lyria-3-pro-preview 模型。

本文档基于 2026-06-18 线上实测编写。测试 Prompt: "Create a cheerful acoustic folk song with guitar and harmonica, bright mood"。实测响应: promptTokenCount=13, candidatesTokenCount=3199, totalTokenCount=3212, 音频 3.39 MB, 时长 150.5 秒。
上一页
Gemini TTS 调用API
下一页
doubao-seededit-3-0-i2i-250628