DataEyes AI 批量推理 (Chat) API 文档

概述

批量推理 (Batch Chat) 是DataEyes AI 平台提供的大规模数据处理能力，底层基于火山方舟批量推理服务。与在线推理相比，批量推理具有以下优势：

更低成本：输入输出单价为在线推理的 50%，命中缓存的输入单价可进一步降低 60%。

改造简单：接口参数与标准 Chat Completions 接口一致，只需关注超时时间和并发策略，无需修改业务逻辑。

适用场景：大批量文本处理、离线数据分析、内容审核、批量翻译、文档摘要等不需要实时响应的场景。

重要说明：多条推理如何处理？

批量推理 ≠ 一个请求处理多条数据。
每次 API 调用仍然只处理一条推理请求，请求体格式与标准 Chat Completions 完全一致。"批量"的含义是：
价格更低（在线推理的 50%）
超时容忍度更高（服务端会排队调度，高峰期可能需等待）
如果您需要处理多条数据，请通过并发发送多个独立的 API 请求来实现（参见下方"批量并发调用示例"章节）。每条数据对应一次独立的 HTTP 请求，互不影响。

接入信息

配置项	值
API 地址	`https://platform.dataeyes.ai/v1/chat/completions`
请求方法	`POST`
模型名称	`pl-ByteDance-Seed-1.8`
鉴权方式	Bearer Token（API Key）

鉴权说明

所有请求需在 HTTP Header 中携带 API Key：

Authorization: Bearer 您的API Key

API Key 可在DataEyes AI 平台控制台获取。

请求参数

Header

参数	类型	必选	说明
`Authorization`	string	是	`Bearer {API_KEY}`
`Content-Type`	string	是	`application/json`

Body

参数	类型	必选	默认值	说明
`model`	string	是	—	模型名称，使用 `pl-ByteDance-Seed-1.8`
`messages`	object[]	是	—	对话消息列表，支持 `system`、`user`、`assistant` 角色
`thinking`	object	否	`{"type":"enabled"}`	控制是否开启深度思考模式。默认开启，可设置 `{"type":"disabled"}` 关闭
`max_tokens`	integer \| null	否	4096	模型回复最大长度（单位 token），不可与 `max_completion_tokens` 同时设置
`max_completion_tokens`	integer \| null	否	—	控制模型输出最大长度（含思维链），取值 [0, 64k]。设置后 `max_tokens` 与思维链最大长度失效，不可与 `max_tokens` 同时设置
`temperature`	float \| null	否	1	采样温度，取值 [0, 2]。值越高输出越随机，值越低越确定。建议不与 `top_p` 同时调整
`top_p`	float \| null	否	0.7	核采样概率阈值，取值 [0, 1]。建议不与 `temperature` 同时调整
`stop`	string \| string[] \| null	否	null	停止词，最多 4 个字符串。深度思考模式不支持此字段
`frequency_penalty`	float \| null	否	0	频率惩罚系数，取值 [-2.0, 2.0]。正值降低重复
`presence_penalty`	float \| null	否	0	存在惩罚系数，取值 [-2.0, 2.0]。正值增加新主题概率
`logprobs`	boolean \| null	否	false	是否返回输出 token 的对数概率
`top_logprobs`	integer \| null	否	0	每个位置返回最可能的 token 数量，取值 [0, 20]。仅当 `logprobs=true` 时有效
`logit_bias`	map \| null	否	null	调整指定 token 出现概率，键为 token ID，值为偏差 [-100, 100]
`tools`	object[] \| null	否	null	工具调用列表，模型可返回待调用工具信息
`stream`	boolean	否	false	是否使用流式输出

messages 结构

[
  {"role": "system", "content": "你是一个有用的助手。"},
  {"role": "user", "content": "你好，请介绍一下你自己。"}
]

thinking 结构

// 开启深度思考（默认）
{"type": "enabled"}

// 关闭深度思考
{"type": "disabled"}

响应参数

非流式返回

参数	类型	说明
`id`	string	本次请求的唯一标识
`model`	string	实际使用的模型名称和版本
`created`	integer	请求创建时间（Unix 时间戳，秒）
`object`	string	固定为 `chat.completion`
`choices`	object[]	模型输出内容
`usage`	object	本次请求的 token 用量

choices 结构

参数	类型	说明
`index`	integer	选项索引
`message`	object	模型回复消息，含 `role` 和 `content`
`finish_reason`	string	结束原因：`stop`（正常结束）、`length`（达到长度限制）、`tool_calls`（工具调用）

usage 结构

参数	类型	说明
`prompt_tokens`	integer	输入 token 数
`completion_tokens`	integer	输出 token 数
`total_tokens`	integer	总 token 数

请求示例

cURL

Python (requests)

Python (OpenAI SDK)

关闭深度思考示例

流式调用示例 (Python)

批量并发调用示例 (Python asyncio)

处理多条数据时，通过并发发送多个请求来实现批量推理：

并发数建议：根据业务量合理控制，推荐 5~20。并发过高可能触发上游 429 限流错误（server overload），此时需降低并发或实现指数退避重试。

响应示例

非流式响应

{
  "id": "chatcmpl-xxxxxxxxxxxx",
  "object": "chat.completion",
  "created": 1719700000,
  "model": "doubao-seed-1-8",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "天空呈现蓝色是因为"瑞利散射"现象。当太阳光进入地球大气层时，波长较短的蓝光比波长较长的红光更容易被空气分子散射，因此我们看到的天空是蓝色的。"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 25,
    "completion_tokens": 68,
    "total_tokens": 93
  }
}

注意事项

每次请求只处理一条：批量推理不支持在一个请求体中发送多条数据，多条数据请通过并发多个请求实现。

超时设置：批量推理响应时间可能较长（高峰期服务端会排队调度），建议客户端超时设置为 24~72 小时（取值支持 1~72 小时）。设置较长超时不会影响配额使用，可放心设置；设置过短则在深度思考、长文本输出等场景容易中途超时断开，既浪费 token 又无法获得输出。

429 限流处理：高峰期上游可能返回 429 server overload 错误，这是正常的流量调度行为。建议：

降低并发数（推荐 5~20）

实现指数退避重试：首次等待 1 秒，之后 2 秒、4 秒、8 秒...，最大等待 60 秒

在超时范围内持续重试，服务端会在负载降低后处理请求

深度思考：默认开启深度思考模式，如不需要可通过 "thinking": {"type": "disabled"} 关闭以节省 token 和响应时间。

Token 计费：批量推理单价为在线推理的 50%，命中缓存的输入 token 可进一步享受 60% 折扣。

兼容性：本接口完全兼容 OpenAI Chat Completions API 格式，可直接使用 OpenAI SDK 调用。

错误码

HTTP 状态码	错误说明	处理建议
400	请求参数错误	检查请求体格式和参数取值范围
401	认证失败	检查 API Key 是否正确
403	无权访问	确认 API Key 是否有该模型的访问权限
429	请求过多（限流）	降低请求频率，实现退避重试
500	服务器内部错误	稍后重试，如持续出现请联系技术支持
503	服务过载	实现指数退避重试策略

联系支持

如在使用过程中遇到问题，请联系DataEyes AI 技术支持团队。

批量推理 (Chat) API 文档

DataEyes AI 批量推理 (Chat) API 文档#

概述#

重要说明：多条推理如何处理？#

接入信息#

鉴权说明#

请求参数#

Header#

Body#

messages 结构#

thinking 结构#

响应参数#

非流式返回#

choices 结构#

usage 结构#

请求示例#

cURL#

Python (requests)#

Python (OpenAI SDK)#

关闭深度思考示例#

流式调用示例 (Python)#

批量并发调用示例 (Python asyncio)#

响应示例#

非流式响应#

注意事项#

错误码#

联系支持#