接口 01
全驱动数字人提交任务
POST /api/v1/apps/image_human/submit全驱动数字人 - 提交任务
POST /api/v1/apps/image_human/submit
根据输入人物图片和参考音频创建全驱动数字人生成任务。未传 prompt 时使用默认提示词。
请求参数
参数 类型 必填 说明
file_url string 是 输入图片 URL。
ref_file_url string 是 输入音频 URL,平台按该音频时长计费。
prompt string 否 用户提示词;未传时使用默认提示词。
duration number 否 音频时长,单位秒;当系统无法自动解析音频时长时必须传入。
mode string 否 生成模式:fast 快速模式,standard 标准模式。默认 standard。
请求示例
{
"file_url": "https://example.com/person.png",
"ref_file_url": "https://example.com/audio.wav",
"prompt": "请根据图片人物和参考音频生成自然、稳定、真实的数字人讲解视频。",
"duration": 40.68,
"mode": "standard"
}接口 02
全驱动数字人查询任务
POST /api/v1/apps/image_human/queryPOST /api/v1/apps/image_human/query
根据提交接口返回的平台任务 ID 查询任务状态和结果。
请求参数
参数 类型 必填 说明
task_id string 是 平台任务 ID,格式通常为 task_xxxxxxxxxxxx。
请求示例
{
"task_id": "task_xxxxxxxxxxxx"
}
运行中返回示例
{
"task_id": "task_xxxxxxxxxxxx",
"status": "running"
}
完成返回示例
{
"task_id": "task_xxxxxxxxxxxx",
"status": "done",
"data": {
"output_url": "https://example.com/output.mp4",
"cover_url": "https://example.com/cover.jpg",
"duration": 40.68
}
}接口 03
语音TTS克隆音色
POST /api/v1/apps/voice_tts/clone_voice上传参考音频或提供音频URL,创建专属语音音色模型
鉴权
Authorization: Bearer <YOUR_API_KEY>
Content-Type: application/json
请求路径
POST /api/v1/apps/voice_tts/clone_voice
业务参数
参数 类型 必填 默认值 可选值 / 范围 示例 说明
tags array 否 — — — 模型标签数组
texts array 否 — — — 与音频对应的文本数组;不传时自动ASR
title string 是 — — — 音色名称
audio_url string 否 — mp3 / wav / ogg / flac — 参考音频URL(与上传文件二选一),支持 mp3/wav/ogg/flac
visibility string 否 — public / unlist / private — 可见性:public / unlist / private,平台默认 private
description string 否 — — — 音色描述
enhance_audio_quality boolean 否 — — — 是否增强音频质量,默认 false
请求示例
{
"tags": [],
"texts": [],
"title": "string",
"audio_url": "mp3",
"visibility": "private",
"description": "string",
"enhance_audio_quality": true
}
成功响应
{
"code": 1,
"msg": "success",
"data": {
"_comment": "具体字段以接口实际返回为准"
}
}
失败响应
{
"error": {
"message": "点数余额不足",
"type": "insufficient_points",
"code": "insufficient_points"
}
}
错误码
HTTP code 含义
400 invalid_request 参数缺失或格式错误
401 auth_failed API Key 缺失或无效
402 insufficient_points 点数余额不足
402 key_quota_exceeded 当前 API Key 点数额度不足
403 permission_denied 当前 API Key 无权调用该模型/应用
404 not_found 模型 / 应用 / 任务不存在
429 queue_limit_exceeded 排队任务已达上限
5xx server_error 服务异常,请稍后重试
请求示例
{
"text": "string",
"model": "s1",
"top_p": 1,
"format": "wav",
"latency": "low",
"prosody": {},
"normalize": true,
"mp3_bitrate": "64",
"sample_rate": 1,
"temperature": 1,
"callback_url": "GET",
"chunk_length": 1,
"opus_bitrate": 1,
"reference_id": "string",
"max_new_tokens": 1,
"min_chunk_length": 1,
"repetition_penalty": 1,
"early_stop_threshold": 1,
"condition_on_previous_chunks": true
}
成功响应
{
"task_id": "tsk_xxxxxxxxxxxxxxxx",
"status": "pending",
"created_at": 1740000000
}
查询任务结果
GET /api/v1/tasks/{task_id}
{
"task_id": "tsk_xxxxxxxxxxxxxxxx",
"status": "completed",
"created_at": 1740000000,
"completed_at": 1740000060,
"result": {
"output": "任务输出内容"
},
"usage": {
"points": 100
}
}
失败响应
{
"error": {
"message": "点数余额不足",
"type": "insufficient_points",
"code": "insufficient_points"
}
}
错误码
HTTP code 含义
400 invalid_request 参数缺失或格式错误
401 auth_failed API Key 缺失或无效
402 insufficient_points 点数余额不足
402 key_quota_exceeded 当前 API Key 点数额度不足
403 permission_denied 当前 API Key 无权调用该模型/应用
404 not_found 模型 / 应用 / 任务不存在
429 queue_limit_exceeded 排队任务已达上限
5xx server_error 服务异常,请稍后重试接口 04
语音TTS文字转语音
POST /api/v1/apps/voice_tts/tts将文本同步合成为语音音频文件(适合短文本,500字符内),直接返回音频URL
鉴权
Authorization: Bearer <YOUR_API_KEY>
Content-Type: application/json
请求路径
POST /api/v1/apps/voice_tts/tts
业务参数
参数 类型 必填 默认值 可选值 / 范围 示例 说明
text string 是 — — — 待合成文本,同步接口建议不超过 500 字符
model string 否 — s1 / s2-pro — TTS 模型,可选 s1 / s2-pro,默认 s2-pro
top_p number 否 — 0 ~ 1 — Top-P 采样,0~1,默认 0.7
format string 否 — wav / pcm / mp3 / opus — 输出格式:wav / pcm / mp3 / opus,默认 mp3
latency string 否 — low / normal / balanced — 延迟模式:low / normal / balanced
prosody object 否 — — — 语调控制对象:speed、volume、normalize_loudness
normalize boolean 否 — — — 文本规范化,默认 true
mp3_bitrate integer 否 — 64 / 128 / 192 — MP3 比特率:64 / 128 / 192
sample_rate integer 否 — — — 采样率按格式限制
temperature number 否 — 0 ~ 1 — 生成温度,0~1,默认 0.7
chunk_length integer 否 — 100 ~ 300 — 文本分块长度,范围 100~300,默认 300
opus_bitrate integer 否 — -1000 / 24 / 32 / 48 / 64 — Opus 比特率:-1000 / 24 / 32 / 48 / 64
reference_id string 否 — — — 音色模型ID。单说话人传 string;多说话人模式可传 string[](仅 s2-pro)
max_new_tokens integer 否 — — — 每个分块最多生成音频 token,默认 1024
min_chunk_length integer 否 — 0 ~ 100 — 最小分块长度,范围 0~100,默认 50
repetition_penalty number 否 — — — 重复惩罚,默认 1.2
early_stop_threshold number 否 — 0 ~ 1 — 提前停止阈值,范围 0~1,默认 1
condition_on_previous_chunks boolean 否 — — — 是否利用前一段音频作为上下文,默认 true
请求示例
{
"text": "string",
"model": "s1",
"top_p": 1,
"format": "mp3",
"latency": "low",
"prosody": {},
"normalize": true,
"mp3_bitrate": "64",
"sample_rate": 1,
"temperature": 1,
"chunk_length": 1,
"opus_bitrate": "-1000",
"reference_id": "string",
"max_new_tokens": 1,
"min_chunk_length": 1,
"repetition_penalty": 1,
"early_stop_threshold": 1,
"condition_on_previous_chunks": true
}
成功响应
{
"code": 1,
"msg": "success",
"data": {
"_comment": "具体字段以接口实际返回为准"
}
}
失败响应
{
"error": {
"message": "点数余额不足",
"type": "insufficient_points",
"code": "insufficient_points"
}
}
错误码
HTTP code 含义
400 invalid_request 参数缺失或格式错误
401 auth_failed API Key 缺失或无效
402 insufficient_points 点数余额不足
402 key_quota_exceeded 当前 API Key 点数额度不足
403 permission_denied 当前 API Key 无权调用该模型/应用
404 not_found 模型 / 应用 / 任务不存在
429 queue_limit_exceeded 排队任务已达上限
5xx server_error 服务异常,请稍后重试接口 05
语音TTS文字转语音(异步)
POST /api/v1/apps/voice_tts/tts_async将文本异步合成为语音音频文件(适合长文本),通过回调或轮询获取结果
鉴权
Authorization: Bearer <YOUR_API_KEY>
Content-Type: application/json
请求路径
POST /api/v1/apps/voice_tts/tts_async
该接口为异步任务,提交后返回 task_id,请通过 GET /api/v1/tasks/{task_id} 查询结果,或在请求中传 callback_url 接收完成回调。
业务参数
参数 类型 必填 默认值 可选值 / 范围 示例 说明
text string 是 — — — 待合成文本,适合长文本(最大约 10000 字符)
model string 否 — s1 / s2-pro — TTS 模型,可选 s1 / s2-pro,默认 s2-pro
top_p number 否 — 0 ~ 1 — Top-P 采样,0~1,默认 0.7
format string 否 — wav / pcm / mp3 / opus — 输出格式:wav / pcm / mp3 / opus,默认 mp3
latency string 否 — low / normal / balanced — 延迟模式:low / normal / balanced
prosody object 否 — — — 语调控制对象:speed、volume、normalize_loudness
normalize boolean 否 — — — 文本规范化,默认 true
mp3_bitrate integer 否 — 64 / 128 / 192 — MP3 比特率:64 / 128 / 192
sample_rate integer 否 — — — 采样率按格式限制
temperature number 否 — 0 ~ 1 — 生成温度,0~1,默认 0.7
callback_url string 否 — — — 回调通知URL;不传则通过任务接口轮询
chunk_length integer 否 — 100 ~ 300 — 文本分块长度,范围 100~300,默认 300
opus_bitrate integer 否 — -1000 / 24 / 32 / 48 / 64 — Opus 比特率:-1000 / 24 / 32 / 48 / 64
reference_id string 否 — — — 音色模型ID。单说话人传 string;多说话人模式可传 string[](仅 s2-pro)
max_new_tokens integer 否 — — — 每个分块最多生成音频 token,默认 1024
min_chunk_length integer 否 — 0 ~ 100 — 最小分块长度,范围 0~100,默认 50
repetition_penalty number 否 — — — 重复惩罚,默认 1.2
early_stop_threshold number 否 — 0 ~ 1 — 提前停止阈值,范围 0~1,默认 1
condition_on_previous_chunks boolean 否 — — — 是否利用前一段音频作为上下文,默认 true
请求示例
{
"text": "string",
"model": "s1",
"top_p": 1,
"format": "wav",
"latency": "low",
"prosody": {},
"normalize": true,
"mp3_bitrate": "64",
"sample_rate": 1,
"temperature": 1,
"callback_url": "string",
"chunk_length": 1,
"opus_bitrate": "-1000",
"reference_id": "string",
"max_new_tokens": 1,
"min_chunk_length": 1,
"repetition_penalty": 1,
"early_stop_threshold": 1,
"condition_on_previous_chunks": true
}
成功响应
{
"task_id": "tsk_xxxxxxxxxxxxxxxx",
"status": "pending",
"created_at": 1740000000
}
查询任务结果
GET /api/v1/tasks/{task_id}
{
"task_id": "tsk_xxxxxxxxxxxxxxxx",
"status": "completed",
"created_at": 1740000000,
"completed_at": 1740000060,
"result": {
"output": "任务输出内容"
},
"usage": {
"points": 100
}
}
失败响应
{
"error": {
"message": "点数余额不足",
"type": "insufficient_points",
"code": "insufficient_points"
}
}
错误码
HTTP code 含义
400 invalid_request 参数缺失或格式错误
401 auth_failed API Key 缺失或无效
402 insufficient_points 点数余额不足
402 key_quota_exceeded 当前 API Key 点数额度不足
403 permission_denied 当前 API Key 无权调用该模型/应用
404 not_found 模型 / 应用 / 任务不存在
429 queue_limit_exceeded 排队任务已达上限
5xx server_error 服务异常,请稍后重试接口 06
语音TTS语音转文字
POST /api/v1/apps/voice_tts/stt将语音音频识别转写为文本,支持文件上传或音频URL
鉴权
Authorization: Bearer <YOUR_API_KEY>
Content-Type: application/json
请求路径
POST /api/v1/apps/voice_tts/stt
业务参数
参数 类型 必填 默认值 可选值 / 范围 示例 说明
language string 否 — — — 识别语言,不传则自动检测
audio_url string 否 — — — 音频文件URL(与文件上传二选一)
ignore_timestamps boolean 否 — — — 是否忽略精确时间戳,默认 true
请求示例
{
"language": "string",
"audio_url": "string",
"ignore_timestamps": true
}
成功响应
{
"code": 1,
"msg": "success",
"data": {
"_comment": "具体字段以接口实际返回为准"
}
}
失败响应
{
"error": {
"message": "点数余额不足",
"type": "insufficient_points",
"code": "insufficient_points"
}
}
错误码
HTTP code 含义
400 invalid_request 参数缺失或格式错误
401 auth_failed API Key 缺失或无效
402 insufficient_points 点数余额不足
402 key_quota_exceeded 当前 API Key 点数额度不足
403 permission_denied 当前 API Key 无权调用该模型/应用
404 not_found 模型 / 应用 / 任务不存在
429 queue_limit_exceeded 排队任务已达上限
5xx server_error 服务异常,请稍后重试接口 07
语音TTS音色列表
GET /api/v1/apps/voice_tts/list_voices查询当前用户创建的语音音色模型列表
鉴权
Authorization: Bearer <YOUR_API_KEY>
Content-Type: application/json
请求路径
GET /api/v1/apps/voice_tts/list_voices
业务参数
参数 类型 必填 默认值 可选值 / 范围 示例 说明
tag string 否 — — — 按标签筛选
title string 否 — — — 按音色名称搜索
sort_by string 否 — score / task_count / created_at — 排序:score / task_count / created_at
language string 否 — — — 按语言筛选
page_size integer 否 — — — 每页数量,官方默认 10
page_number integer 否 — — — 页码,默认 1
title_language string 否 — — — 按标题语言筛选
请求示例
{
"tag": "string",
"title": "string",
"sort_by": "score",
"language": "string",
"page_size": 20,
"page_number": 1,
"title_language": "string"
}
成功响应
{
"code": 1,
"msg": "success",
"data": {
"_comment": "具体字段以接口实际返回为准"
}
}
失败响应
{
"error": {
"message": "点数余额不足",
"type": "insufficient_points",
"code": "insufficient_points"
}
}
错误码
HTTP code 含义
400 invalid_request 参数缺失或格式错误
401 auth_failed API Key 缺失或无效
402 insufficient_points 点数余额不足
402 key_quota_exceeded 当前 API Key 点数额度不足
403 permission_denied 当前 API Key 无权调用该模型/应用
404 not_found 模型 / 应用 / 任务不存在
429 queue_limit_exceeded 排队任务已达上限
5xx server_error 服务异常,请稍后重试
智能剪辑 - 模板列表接口 08
智能剪辑模板列表
GET /api/v1/apps/smart_clip/template?scene=realMan&pageSize=10&sortBy=desc查询智能剪辑可用模板列表。接口为同步免费查询。
基本信息
字段 内容
应用编码 smart_clip
API 编码 template
请求方式 GET
请求路径 /api/v1/apps/smart_clip/template
调用模式 同步
计费方式 免费查询
请求参数
参数 位置 类型 必填 默认值 可选值 说明
pageSize query integer 否 10 - 每页大小
sid query string 否 - - 分页游标,当有值时代表存在下一页,继续查询下一页时需传入该值
scene query string 是 - virtualman / realMan / oralMixCutting / newsMixCutting 模板使用场景
searchKey query string 否 - name / id 搜索字段,name 按名称搜索,id 按模板 ID 搜索
searchValue query string 否 - - 搜索值
sortBy query string 否 desc desc / asc 排序方式,desc 按上架时间倒序,asc 按上架时间正序
scene 枚举
值 说明
virtualman 数字人口播模板
realMan 真人口播模板
oralMixCutting 素材混剪模板
newsMixCutting 新闻混剪模板
请求示例
GET /api/v1/apps/smart_clip/template?scene=realMan&pageSize=10&sortBy=desc
Authorization: Bearer <YOUR_API_KEY>
成功响应说明
字段 类型 必返 说明
code string 是 表示本次请求的状态,值为成功状态时表示成功,其他均为失败
data object 是 结果数据
data.results array 是 模板列表
data.results[].id string 是 模板id
data.results[].name string 是 模板名称
data.results[].coverUrl string 是 封面url
data.results[].scene string 是 场景,枚举同请求参数 scene
data.results[].demoUrl string 是 使用该模板生成的视频样片
data.sid string 否 分页游标,当有值时代表存在下一页,继续查询下一页时需传入该值
message string 否 错误描述信息,失败时返回
智能剪辑 - 模板详情
接口 09
智能剪辑模板详情
GET /api/v1/apps/smart_clip/template_detail?id=67b7ee802b2beb0030cdeaaf按模板 ID 获取模板结构详情。接口为同步免费查询。
基本信息
字段 内容
应用编码 smart_clip
API 编码 template_detail
请求方式 GET
请求路径 /api/v1/apps/smart_clip/template_detail?id={id}
调用模式 同步
计费方式 免费查询
请求参数
参数 位置 类型 必填 示例 说明
id query string 是 67b7ee802b2beb0030cdeaaf 模板id
请求示例
GET /api/v1/apps/smart_clip/template_detail?id=67b7ee802b2beb0030cdeaaf
Authorization: Bearer <YOUR_API_KEY>
成功响应说明
字段 类型 必返 说明
code string 是 表示本次请求的状态,值为成功状态时表示成功,其他均为失败
data object 是 结果数据
data.id string 是 模板id
data.name string 是 模板名称
data.coverUrl string 是 封面url
data.scene string 是 应用场景,同模板列表接口的 scene
data.videoStructInfo object 是 模板结构详情
data.videoStructInfo.editInfo object 是 编辑结构信息
data.videoStructInfo.editInfo.canvas.width integer 是 模板画布尺寸宽
data.videoStructInfo.editInfo.canvas.height integer 是 模板画布尺寸高
data.videoStructInfo.editInfo.headerLayer object 是 标题图层,返回 {} 表示没有相关图层
data.videoStructInfo.editInfo.subtitleLayer object 是 字幕图层,返回 {} 表示没有相关图层
data.videoStructInfo.editInfo.ipLayer object 是 身份栏图层,返回 {} 表示没有相关图层
data.videoStructInfo.editInfo.figureLayer object 是 数字人图层,返回 {} 表示没有相关图层
data.videoStructInfo.editInfo.backgroundLayer object 是 背景图层,返回 {} 表示没有相关图层
requestId string 是 本次请求的唯一标识id
message string 否 错误描述信息,失败时返回
图层数据结构
字段 类型 必返 说明
width integer 是 图层宽
height integer 是 图层高
transform object 否 图层位置数据
transform.anchor integer[] 是 锚点,辅助定位,不支持修改
transform.scalar integer[] 是 缩放,单位:%,不支持修改
transform.position integer[] 是 锚点定位
uri string 否 背景资源图片,仅背景图层返回提交真人口播混剪视频任务。提交成功后返回平台 task_id。请通过平台任务查询接口获取最终状态与结果,或传入 callbackUrl 接收任务通知。
基本信息
字段 内容
应用编码 smart_clip
API 编码 realman_broadcast
请求方式 POST
请求路径 /api/v1/apps/smart_clip/realman_broadcast
调用模式 异步
计费方式 按输入媒体时长计费
请求参数
参数 类型 必填 默认值 可选值 / 范围 说明
styleId string 是 - - 视频模板id
videoUrl string 是 - mp4 / mov 视频url。平台会优先探测该媒体时长用于计费
language string 否 - - 特指视频中(videoUrl)对应的语种,音频驱动时需要传音频中内容的语种,语种参考ASR支持的语种
title string 否 - - 标题;如果期望生成的视频不显示标题,请不要设置标题值
subtitle array 否 - - 字幕信息(兼容subtitles字段),用于填充语音识别(ASR)后的结果;每项包含 startMs、endMs、text
materials array 否 - image / video 素材,素材格式要求详见素材要求;每项包含 type、fileUrl
materialSoundSwitch boolean 否 false true / false 当素材为视频时原声开关
introduceCard object 否 - - 身份栏信息,包含 name、description
packRules object 否 - - 包装规则:仅用于控制标题、素材、字幕、关键词、背景音乐等图层是否参与效果包装
processRules object 否 - - 处理规则,支持 watermarkShow、resourcePreprocessMethod、materialMatchWay、metadata、firstFrameCover
structLayers array 否 - - 需要修改的图层数据
callbackUrl string 否 - HTTPS URL 结果回调地址
特殊字段说明
subtitle(字幕信息)
选填,不设置则由系统智能处理。
如果期望手动修改从视频中识别的文字,可以先调用音频转文字(ASR)接口识别出文本信息,更改其中的文字,然后保持 ASR 返回的格式设置到该字段。
processRules.resourcePreprocessMethod(真人视频预处理方式)
选填,不设置真人视频预处理方式时,默认保持原始视频时长。
roughCut:粗剪,按照系统内置规则智能处理,例如自动去掉无声片段等。
sliceMerge:按照 subtitle 字段中标注的开始/结束时间,自动去掉不连续时间范围的片段。
processRules
字段 类型 必填 默认值 可选值 / 范围 说明
watermarkShow boolean 否 false true / false 是否添加“AI生成”字样水印
resourcePreprocessMethod string 否 - sliceMerge / roughCut 真人视频预处理方式,不设置时默认保持原始视频时长
materialMatchWay string 否 preciseMatch fuzzyMatch / preciseMatch 素材匹配方式
metadata object 否 - - 元水印数据,仅支持写入一组数据,且 value 值需为字符串
firstFrameCover object 否 - - 首帧封面配置
重要规则
视频驱动的 videoUrl、素材 materials[].fileUrl、背景音乐 packRules.backgroundMusic.audioUrl、AI 封面的 resultImageUrl 地址不能重名,重名会导致渲染异常。
packRules 仅用于控制标题、字幕、素材、背景音乐、关键词等图层是否参与效果包装,不能控制对应图层的显示/隐藏。
如果期望生成的视频不显示标题,请不要设置标题值。
callbackUrl 作为平台任务通知地址保存,任务完成或失败后由平台发起通知。
如无法解析有效输入媒体时长,本次请求会被拒绝,不使用默认时长。
通用对象字段
subtitle[]
字段 类型 必填 说明
startMs integer 是 时间戳开始,单位 ms
endMs integer 是 时间戳结束,单位 ms,最大支持 310000ms
text string 是 文本,只支持单字符级别
materials[]
字段 类型 必填 可选值 / 默认值 说明
type string 是 image / video 素材类型
fileUrl string 是 - 素材url
soundSwitch boolean 否 false 当素材为视频时原声开关,素材混剪和新闻体视频支持
introduceCard
字段 类型 必填 说明
name string 否 名称
description string 否 描述
packRules
字段 类型 必填 默认值 说明
headerSwitch boolean 否 - 标题包装开关
materialSwitch boolean 否 - 素材包装开关
subtitleSwitch boolean 否 - 字幕包装开关
keywordSwitch boolean 否 - 关键词包装开关
backgroundMusic object 否 - 背景音乐设置
backgroundMusic.audioSwitch boolean 否 - 音乐开关
backgroundMusic.audioUrl string 否 - 音频url,模板内置背景音乐和传递audioUrl,优先使用audioUrl
backgroundMusic.volume number 否 0.3 音量,保留一位小数,范围 0-1
processRules.firstFrameCover
字段 类型 必填 默认值 说明
coverSwitch boolean 否 false 封面开关
templateId string 否 - 模版ID,如果未设置则系统匹配
imageUrl string 否 - 图片地址,用于生成AI封面图的底图,imageUrl 和 resultImageUrl 二选一必填
resultImageUrl string 否 - 图片生成接口的结果图片地址或其他封面图片地址;传了此值将直接运用作为视频首桢封面,优先级更高
structLayers[]
字段 类型 必填 可选值 说明
markCode string 是 headerLayer / subtitleLayer / ipLayer / backgroundLayer / figureLayer 图层,对应模板详情接口返回的图层数据
show boolean 否 - 是否显示,不设置时默认跟随模板;backgroundLayer、figureLayer 不支持设置,默认显示
showMode string 否 always / customize 显示模式,markCode=headerLayer 时生效,不设置时默认跟随模板
showTime number 条件必填 大于 0 显示时长,markCode=headerLayer 且 showMode=customize 时生效且必填,保留 3 位小数
layer.transform.position integer[] 否 - 锚点定位,对应模板详情 transform.position
layer.uri string 否 - 背景图片资源链接,仅 backgroundLayer 生效
素材与媒体要求
输入视频格式:mp4、mov;视频编码 h264、HEVC(h265);帧率 10-60fps,推荐 25;单边分辨率小于 2000px。
真人口播 videoUrl 时长小于 5 分钟,文件大小小于 500MB,视频中的音频需要能够语音转文本。
素材总量限制:单张图片计算为 2 秒,单个视频素材不能超过 60 秒,所有素材总时长不能超过 5 分钟。
素材图片格式支持 jpg、png、webp 静态图,单边分辨率小于 2000px。
素材视频格式支持 mp4、mov,单个视频小于 500MB,单边分辨率小于 2000px。
背景音乐格式支持 mp3、wav、m4a,文件大小不超过 120MB,时长不超过 5 分钟。
首帧封面 imageUrl、resultImageUrl 格式支持 jpg/jpeg、png,文件大小不超过 10MB,单边分辨率小于 2000px。
请求示例
{
"styleId": "68aebb91b8619ed6f4168f40",
"videoUrl": "https://example.com/a.mp4",
"title": "聊AI行业",
"language": "zh-CN",
"materials": [
{"type": "image", "fileUrl": "https://example.com/a.jpg"},
{"type": "video", "fileUrl": "https://example.com/b.mp4"}
],
"materialSoundSwitch": false,
"introduceCard": {
"name": "廖志勇",
"description": "AI行业领军人物"
},
"packRules": {
"headerSwitch": true,
"materialSwitch": true,
"subtitleSwitch": true,
"keywordSwitch": true,
"backgroundMusic": {
"audioSwitch": true,
"audioUrl": "https://example.com/bg.mp3",
"volume": 1
}
},
"processRules": {
"watermarkShow": true,
"resourcePreprocessMethod": "roughCut",
"materialMatchWay": "fuzzyMatch",
"metadata": {
"AIGC": "{\"Label\":\"1\",\"ContentProducer\":\"AI服务提供者的名称或统一社会信用代码等\",\"ProduceID\":\"XXXXXXXXXXXXXXXXXXX\"}"
}
},
"subtitle": [
{"startMs": 0, "endMs": 500, "text": "A"},
{"startMs": 500, "endMs": 1000, "text": "I"}
],
"structLayers": [
{
"markCode": "headerLayer",
"show": true,
"showMode": "customize",
"showTime": 2,
"layer": {"transform": {"position": [0, 0, 0]}}
}
],
"callbackUrl": "https://example.com/hook"
}
成功响应
{
"code": 1,
"msg": "success",
"data": {
"task_id": "task_xxxxxxxxxxxx",
"status": "processing",
"app": "smart_clip",
"api": "realman_broadcast"
}
}
响应字段
字段 类型 必返 说明
task_id string 是 平台任务 ID
status string 是 平台任务状态,提交后通常为 processing 或 queued
app string 是 应用编码,固定为 smart_clip
api string 是 API 编码
任务结果
任务完成后,平台任务查询结果中的 result 通常包含:
字段 类型 说明
video_url string 视频url地址,视频生成类任务返回
cover_url string 视频封面url地址
duration number 生成的视频或音频时长,单位:秒
data object 完整结果数据
任务失败时返回错误码和错误描述。提交素材混剪视频任务。当前应用仅支持 audioUrl 或素材输入链路;提交时如果传入 content 或 speakerId,平台会返回不支持该分支的明确错误。
基本信息
字段 内容
应用编码 smart_clip
API 编码 broadcast_mixcut
请求方式 POST
请求路径 /api/v1/apps/smart_clip/broadcast_mixcut
调用模式 异步
计费方式 按输入媒体时长计费
请求参数
参数 类型 必填 默认值 可选值 / 范围 说明
styleId string 是 - - 视频模板ID
title string 否 - - 标题;如果期望生成的视频不显示标题,请不要设置标题值
audioUrl string 否 - mp3 / wav / m4a 音频URL,与content字段二选一;当前应用仅支持 audioUrl 或素材输入链路,平台会探测该媒体时长用于计费
content string 否 - 3-1800字符 文本,与audioUrl字段二选一;当前应用不支持 content + speakerId 定制声音分支
language string 否 - - 语种,特指音频(audioUrl)对应的语种,语种参考ASR支持的语种
speakerId string 否 - - 音色ID;当前应用不支持 content + speakerId 定制声音分支
speakerExtra object 否 - - 音色扩展参数;当前应用不支持 content + speakerId 定制声音分支
materials array 是 - image / video 素材,每项包含 type、fileUrl、soundSwitch;缺少 audioUrl 时平台会探测素材媒体时长用于计费
introduceCard object 否 - - 身份栏信息,包含 name、description
packRules object 否 - - 包装规则:仅用于控制标题、素材、字幕、关键词、背景音乐等是否参与模板效果包装
processRules object 否 - - 处理规则,支持 watermarkShow、metadata、firstFrameCover
structLayers array 否 - - 需要修改的图层数据
subtitle array 否 - - 字幕信息(兼容subtitles字段),每项包含 startMs、endMs、text
callbackUrl string 否 - HTTPS URL 结果通知回调地址,由平台在任务完成或失败后通知
视频生成方式
参考文档支持两种方式:
方式 字段 说明
文本内容 + 定制声音 content + speakerId 文本字符数要求 3-1800,声音 ID 为定制声音产生的声音 ID
音频文件 audioUrl 音频时长小于 5 分钟,格式 mp3、wav、m4a,文件大小小于等于 100MB,需要能够语音转文本
当前平台应用仅支持 audioUrl 或素材输入链路,不支持 content + speakerId 定制声音分支。若传入 content 或 speakerId,平台会返回 unsupported_speaker_branch。
speakerExtra
字段 类型 必填 默认值 / 范围 说明
speedRatio number 否 默认 1,范围 0.5-2 语速,支持 1 位小数,1 表示常速,例如 0.6、0.9、1.2
language string 否 - 语种,特指该克隆声音文本(content)支持的语种
marks array 否 - 文本标记特殊处理处,传 content 时有效
marks[].type string 是 break 标记类型,break 表示停顿
marks[].index integer 是 从 0 开始 文本索引处,最大值为 content 文本长度
marks[].time integer 是 100-10000 时长,单位 ms
processRules
字段 类型 必填 默认值 说明
watermarkShow boolean 否 false 是否添加“AI生成”字样水印
metadata object 否 - 元水印数据,仅支持写入一组数据,且 value 值需为字符串
firstFrameCover object 否 - 首帧封面配置
重要规则
音频驱动的 audioUrl、素材 materials[].fileUrl、背景音乐 packRules.backgroundMusic.audioUrl、AI 封面的 resultImageUrl 地址不能重名,重名会导致渲染异常。
packRules 仅用于控制标题、字幕、素材、背景音乐、关键词等图层是否参与效果包装,不能控制对应图层的显示/隐藏。
如果期望生成的视频不显示标题,请不要设置标题值。
callbackUrl 作为平台任务通知地址保存,任务完成或失败后由平台发起通知。
如无法解析有效输入媒体时长,本次请求会被拒绝,不使用默认时长。
通用对象字段
subtitle[]
字段 类型 必填 说明
startMs integer 是 时间戳开始,单位 ms
endMs integer 是 时间戳结束,单位 ms,最大支持 310000ms
text string 是 文本,只支持单字符级别
materials[]
字段 类型 必填 可选值 / 默认值 说明
type string 是 image / video 素材类型
fileUrl string 是 - 素材url
soundSwitch boolean 否 false 当素材为视频时原声开关,素材混剪和新闻体视频支持
introduceCard
字段 类型 必填 说明
name string 否 名称
description string 否 描述
packRules
字段 类型 必填 默认值 说明
headerSwitch boolean 否 - 标题包装开关
materialSwitch boolean 否 - 素材包装开关
subtitleSwitch boolean 否 - 字幕包装开关
keywordSwitch boolean 否 - 关键词包装开关
backgroundMusic object 否 - 背景音乐设置
backgroundMusic.audioSwitch boolean 否 - 音乐开关
backgroundMusic.audioUrl string 否 - 音频url,模板内置背景音乐和传递audioUrl,优先使用audioUrl
backgroundMusic.volume number 否 0.3 音量,保留一位小数,范围 0-1
processRules.firstFrameCover
字段 类型 必填 默认值 说明
coverSwitch boolean 否 false 封面开关
templateId string 否 - 模版ID,如果未设置则系统匹配
imageUrl string 否 - 图片地址,用于生成AI封面图的底图,imageUrl 和 resultImageUrl 二选一必填
resultImageUrl string 否 - 图片生成接口的结果图片地址或其他封面图片地址;传了此值将直接运用作为视频首桢封面,优先级更高
structLayers[]
字段 类型 必填 可选值 说明
markCode string 是 headerLayer / subtitleLayer / ipLayer / backgroundLayer / figureLayer 图层,对应模板详情接口返回的图层数据
show boolean 否 - 是否显示,不设置时默认跟随模板;backgroundLayer、figureLayer 不支持设置,默认显示
showMode string 否 always / customize 显示模式,markCode=headerLayer 时生效,不设置时默认跟随模板
showTime number 条件必填 大于 0 显示时长,markCode=headerLayer 且 showMode=customize 时生效且必填,保留 3 位小数
layer.transform.position integer[] 否 - 锚点定位,对应模板详情 transform.position
layer.uri string 否 - 背景图片资源链接,仅 backgroundLayer 生效
素材与媒体要求
输入视频格式:mp4、mov;视频编码 h264、HEVC(h265);帧率 10-60fps,推荐 25;单边分辨率小于 2000px。
真人口播 videoUrl 时长小于 5 分钟,文件大小小于 500MB,视频中的音频需要能够语音转文本。
素材总量限制:单张图片计算为 2 秒,单个视频素材不能超过 60 秒,所有素材总时长不能超过 5 分钟。
素材图片格式支持 jpg、png、webp 静态图,单边分辨率小于 2000px。
素材视频格式支持 mp4、mov,单个视频小于 500MB,单边分辨率小于 2000px。
背景音乐格式支持 mp3、wav、m4a,文件大小不超过 120MB,时长不超过 5 分钟。
首帧封面 imageUrl、resultImageUrl 格式支持 jpg/jpeg、png,文件大小不超过 10MB,单边分辨率小于 2000px。
请求示例
{
"styleId": "68aebb91b8619ed6f4168f40",
"audioUrl": "https://example.com/a.mp3",
"title": "聊AI行业",
"language": "zh-CN",
"materials": [
{"type": "image", "fileUrl": "https://example.com/a.jpg", "soundSwitch": false},
{"type": "video", "fileUrl": "https://example.com/b.mp4", "soundSwitch": false}
],
"introduceCard": {
"name": "廖志勇",
"description": "AI行业领军人物"
},
"packRules": {
"headerSwitch": true,
"materialSwitch": true,
"subtitleSwitch": true,
"keywordSwitch": true,
"backgroundMusic": {
"audioSwitch": true,
"audioUrl": "https://example.com/bg.mp3",
"volume": 1
}
},
"processRules": {
"watermarkShow": true,
"metadata": {
"AIGC": "{\"Label\":\"1\",\"ContentProducer\":\"AI服务提供者的名称或统一社会信用代码等\",\"ProduceID\":\"XXXXXXXXXXXXXXXXXXX\"}"
}
},
"subtitle": [
{"startMs": 0, "endMs": 500, "text": "A"},
{"startMs": 500, "endMs": 1000, "text": "I"}
],
"callbackUrl": "https://example.com/hook"
}
成功响应
{
"code": 1,
"msg": "success",
"data": {
"task_id": "task_xxxxxxxxxxxx",
"status": "processing",
"app": "smart_clip",
"api": "broadcast_mixcut"
}
}
响应字段
字段 类型 必返 说明
task_id string 是 平台任务 ID
status string 是 平台任务状态,提交后通常为 processing 或 queued
app string 是 应用编码,固定为 smart_clip
api string 是 API 编码
任务结果
任务完成后,平台任务查询结果中的 result 通常包含:
字段 类型 说明
video_url string 视频url地址,视频生成类任务返回
cover_url string 视频封面url地址
duration number 生成的视频或音频时长,单位:秒
data object 完整结果数据
任务失败时返回错误码和错误描述。提交新闻体视频任务。如未传 processRules.videoDuration,平台会探测素材媒体时长用于计费;无法获取有效输入媒体时长时会拒绝提交。
基本信息
字段 内容
应用编码 smart_clip
API 编码 news_mixcut
请求方式 POST
请求路径 /api/v1/apps/smart_clip/news_mixcut
调用模式 异步
计费方式 按输入媒体时长计费
请求参数
参数 类型 必填 默认值 可选值 / 范围 说明
styleId string 是 - - 视频模板ID
title string 是 - 3-1800字符 标题
materials array 是 - image / video 素材,每项包含 type、fileUrl、soundSwitch;平台会探测素材媒体时长用于计费
introduceCard object 否 - - 身份栏信息,包含 name、description
packRules object 否 - - 包装规则:仅用于控制标题、素材、字幕、关键词、背景音乐等是否参与模板效果包装
processRules.watermarkShow boolean 否 false true / false 是否添加“AI生成”字样水印
processRules.videoDuration integer 否 - 5-300 视频时长,单位秒,默认跟随素材资源时长
processRules.metadata object 否 - - 元水印数据,仅支持写入一组数据,且value值需为字符串
processRules.materialComposition string 否 random random / order 素材组合方式
processRules.firstFrameCover object 否 - - 首帧封面配置
structLayers array 否 - - 需要修改的图层数据
callbackUrl string 否 - HTTPS URL 结果通知回调地址,由平台在任务完成或失败后通知
processRules
字段 类型 必填 默认值 可选值 / 范围 说明
watermarkShow boolean 否 false true / false 是否添加“AI生成”字样水印
videoDuration integer 否 跟随素材资源时长 5-300 视频时长,单位:秒
metadata object 否 - - 元水印数据,仅支持写入一组数据,且 value 值需为字符串
materialComposition string 否 random random / order 素材组合方式,random 随机,order 顺序
firstFrameCover object 否 - - 首帧封面配置
重要规则
素材 materials[].fileUrl、背景音乐 packRules.backgroundMusic.audioUrl、AI 封面的 resultImageUrl 地址不能重名,重名会导致渲染异常。
packRules 仅用于控制标题、字幕、素材、背景音乐、关键词等图层是否参与效果包装,不能控制对应图层的显示/隐藏。
如果期望生成的视频不显示标题,请不要设置标题值。
callbackUrl 作为平台任务通知地址保存,任务完成或失败后由平台发起通知。
如无法解析有效输入媒体时长,本次请求会被拒绝,不使用默认时长。
通用对象字段
subtitle[]
字段 类型 必填 说明
startMs integer 是 时间戳开始,单位 ms
endMs integer 是 时间戳结束,单位 ms,最大支持 310000ms
text string 是 文本,只支持单字符级别
materials[]
字段 类型 必填 可选值 / 默认值 说明
type string 是 image / video 素材类型
fileUrl string 是 - 素材url
soundSwitch boolean 否 false 当素材为视频时原声开关,素材混剪和新闻体视频支持
introduceCard
字段 类型 必填 说明
name string 否 名称
description string 否 描述
packRules
字段 类型 必填 默认值 说明
headerSwitch boolean 否 - 标题包装开关
materialSwitch boolean 否 - 素材包装开关
subtitleSwitch boolean 否 - 字幕包装开关
keywordSwitch boolean 否 - 关键词包装开关
backgroundMusic object 否 - 背景音乐设置
backgroundMusic.audioSwitch boolean 否 - 音乐开关
backgroundMusic.audioUrl string 否 - 音频url,模板内置背景音乐和传递audioUrl,优先使用audioUrl
backgroundMusic.volume number 否 0.3 音量,保留一位小数,范围 0-1
processRules.firstFrameCover
字段 类型 必填 默认值 说明
coverSwitch boolean 否 false 封面开关
templateId string 否 - 模版ID,如果未设置则系统匹配
imageUrl string 否 - 图片地址,用于生成AI封面图的底图,imageUrl 和 resultImageUrl 二选一必填
resultImageUrl string 否 - 图片生成接口的结果图片地址或其他封面图片地址;传了此值将直接运用作为视频首桢封面,优先级更高
structLayers[]
字段 类型 必填 可选值 说明
markCode string 是 headerLayer / subtitleLayer / ipLayer / backgroundLayer / figureLayer 图层,对应模板详情接口返回的图层数据
show boolean 否 - 是否显示,不设置时默认跟随模板;backgroundLayer、figureLayer 不支持设置,默认显示
showMode string 否 always / customize 显示模式,markCode=headerLayer 时生效,不设置时默认跟随模板
showTime number 条件必填 大于 0 显示时长,markCode=headerLayer 且 showMode=customize 时生效且必填,保留 3 位小数
layer.transform.position integer[] 否 - 锚点定位,对应模板详情 transform.position
layer.uri string 否 - 背景图片资源链接,仅 backgroundLayer 生效
素材与媒体要求
输入视频格式:mp4、mov;视频编码 h264、HEVC(h265);帧率 10-60fps,推荐 25;单边分辨率小于 2000px。
真人口播 videoUrl 时长小于 5 分钟,文件大小小于 500MB,视频中的音频需要能够语音转文本。
素材总量限制:单张图片计算为 2 秒,单个视频素材不能超过 60 秒,所有素材总时长不能超过 5 分钟。
素材图片格式支持 jpg、png、webp 静态图,单边分辨率小于 2000px。
素材视频格式支持 mp4、mov,单个视频小于 500MB,单边分辨率小于 2000px。
背景音乐格式支持 mp3、wav、m4a,文件大小不超过 120MB,时长不超过 5 分钟。
首帧封面 imageUrl、resultImageUrl 格式支持 jpg/jpeg、png,文件大小不超过 10MB,单边分辨率小于 2000px。
请求示例
{
"styleId": "68aebb91b8619ed6f4168f40",
"title": "聊AI行业",
"materials": [
{"type": "image", "fileUrl": "https://example.com/a.jpg", "soundSwitch": false},
{"type": "video", "fileUrl": "https://example.com/b.mp4", "soundSwitch": false}
],
"introduceCard": {
"name": "廖志勇",
"description": "AI行业领军人物"
},
"packRules": {
"headerSwitch": true,
"materialSwitch": true,
"subtitleSwitch": true,
"keywordSwitch": true,
"backgroundMusic": {
"audioSwitch": true,
"audioUrl": "https://example.com/bg.mp3",
"volume": 1
}
},
"processRules": {
"materialComposition": "random",
"watermarkShow": true,
"videoDuration": 30,
"metadata": {
"AIGC": "{\"Label\":\"1\",\"ContentProducer\":\"AI服务提供者的名称或统一社会信用代码等\",\"ProduceID\":\"XXXXXXXXXXXXXXXXXXX\"}"
}
},
"structLayers": [
{
"markCode": "headerLayer",
"show": true,
"showMode": "customize",
"showTime": 2,
"layer": {"transform": {"position": [0, 0, 0]}}
}
],
"callbackUrl": "https://example.com/hook"
}
成功响应
{
"code": 1,
"msg": "success",
"data": {
"task_id": "task_xxxxxxxxxxxx",
"status": "processing",
"app": "smart_clip",
"api": "news_mixcut"
}
}
响应字段
字段 类型 必返 说明
task_id string 是 平台任务 ID
status string 是 平台任务状态,提交后通常为 processing 或 queued
app string 是 应用编码,固定为 smart_clip
api string 是 API 编码
任务结果
任务完成后,平台任务查询结果中的 result 通常包含:
字段 类型 说明
video_url string 视频url地址,视频生成类任务返回
cover_url string 视频封面url地址
duration number 生成的视频或音频时长,单位:秒
data object 完整结果数据
任务失败时返回错误码和错误描述。