API接口.txt / 智能剪辑API.txt

接口说明

模型价格
接口 01

全驱动数字人提交任务

POST /api/v1/apps/image_human/submit
全驱动数字人 - 提交任务
POST /api/v1/apps/image_human/submit

根据输入人物图片和参考音频创建全驱动数字人生成任务。未传 prompt 时使用默认提示词。

请求参数
参数	类型	必填	说明
file_url	string	是	输入图片 URL。
ref_file_url	string	是	输入音频 URL,平台按该音频时长计费。
prompt	string	否	用户提示词;未传时使用默认提示词。
duration	number	否	音频时长,单位秒;当系统无法自动解析音频时长时必须传入。
mode	string	否	生成模式:fast 快速模式,standard 标准模式。默认 standard。
请求示例
{
  "file_url": "https://example.com/person.png",
  "ref_file_url": "https://example.com/audio.wav",
  "prompt": "请根据图片人物和参考音频生成自然、稳定、真实的数字人讲解视频。",
  "duration": 40.68,
  "mode": "standard"
}
接口 02

全驱动数字人查询任务

POST /api/v1/apps/image_human/query
POST /api/v1/apps/image_human/query

根据提交接口返回的平台任务 ID 查询任务状态和结果。

请求参数
参数	类型	必填	说明
task_id	string	是	平台任务 ID,格式通常为 task_xxxxxxxxxxxx。
请求示例
{
  "task_id": "task_xxxxxxxxxxxx"
}
运行中返回示例
{
  "task_id": "task_xxxxxxxxxxxx",
  "status": "running"
}
完成返回示例
{
  "task_id": "task_xxxxxxxxxxxx",
  "status": "done",
  "data": {
    "output_url": "https://example.com/output.mp4",
    "cover_url": "https://example.com/cover.jpg",
    "duration": 40.68
  }
}
接口 03

语音TTS克隆音色

POST /api/v1/apps/voice_tts/clone_voice
上传参考音频或提供音频URL,创建专属语音音色模型

鉴权
Authorization: Bearer <YOUR_API_KEY>
Content-Type: application/json
请求路径
POST /api/v1/apps/voice_tts/clone_voice
业务参数
参数	类型	必填	默认值	可选值 / 范围	示例	说明
tags	array	否	—	—	—	模型标签数组
texts	array	否	—	—	—	与音频对应的文本数组;不传时自动ASR
title	string	是	—	—	—	音色名称
audio_url	string	否	—	mp3 / wav / ogg / flac	—	参考音频URL(与上传文件二选一),支持 mp3/wav/ogg/flac
visibility	string	否	—	public / unlist / private	—	可见性:public / unlist / private,平台默认 private
description	string	否	—	—	—	音色描述
enhance_audio_quality	boolean	否	—	—	—	是否增强音频质量,默认 false
请求示例
{
    "tags": [],
    "texts": [],
    "title": "string",
    "audio_url": "mp3",
    "visibility": "private",
    "description": "string",
    "enhance_audio_quality": true
}
成功响应
{
    "code": 1,
    "msg": "success",
    "data": {
        "_comment": "具体字段以接口实际返回为准"
    }
}
失败响应
{
    "error": {
        "message": "点数余额不足",
        "type": "insufficient_points",
        "code": "insufficient_points"
    }
}
错误码
HTTP	code	含义
400	invalid_request	参数缺失或格式错误
401	auth_failed	API Key 缺失或无效
402	insufficient_points	点数余额不足
402	key_quota_exceeded	当前 API Key 点数额度不足
403	permission_denied	当前 API Key 无权调用该模型/应用
404	not_found	模型 / 应用 / 任务不存在
429	queue_limit_exceeded	排队任务已达上限
5xx	server_error	服务异常,请稍后重试

请求示例
{
    "text": "string",
    "model": "s1",
    "top_p": 1,
    "format": "wav",
    "latency": "low",
    "prosody": {},
    "normalize": true,
    "mp3_bitrate": "64",
    "sample_rate": 1,
    "temperature": 1,
    "callback_url": "GET",
    "chunk_length": 1,
    "opus_bitrate": 1,
    "reference_id": "string",
    "max_new_tokens": 1,
    "min_chunk_length": 1,
    "repetition_penalty": 1,
    "early_stop_threshold": 1,
    "condition_on_previous_chunks": true
}
成功响应
{
    "task_id": "tsk_xxxxxxxxxxxxxxxx",
    "status": "pending",
    "created_at": 1740000000
}
查询任务结果
GET /api/v1/tasks/{task_id}
{
    "task_id": "tsk_xxxxxxxxxxxxxxxx",
    "status": "completed",
    "created_at": 1740000000,
    "completed_at": 1740000060,
    "result": {
        "output": "任务输出内容"
    },
    "usage": {
        "points": 100
    }
}
失败响应
{
    "error": {
        "message": "点数余额不足",
        "type": "insufficient_points",
        "code": "insufficient_points"
    }
}
错误码
HTTP	code	含义
400	invalid_request	参数缺失或格式错误
401	auth_failed	API Key 缺失或无效
402	insufficient_points	点数余额不足
402	key_quota_exceeded	当前 API Key 点数额度不足
403	permission_denied	当前 API Key 无权调用该模型/应用
404	not_found	模型 / 应用 / 任务不存在
429	queue_limit_exceeded	排队任务已达上限
5xx	server_error	服务异常,请稍后重试
接口 04

语音TTS文字转语音

POST /api/v1/apps/voice_tts/tts
将文本同步合成为语音音频文件(适合短文本,500字符内),直接返回音频URL

鉴权
Authorization: Bearer <YOUR_API_KEY>
Content-Type: application/json
请求路径
POST /api/v1/apps/voice_tts/tts
业务参数
参数	类型	必填	默认值	可选值 / 范围	示例	说明
text	string	是	—	—	—	待合成文本,同步接口建议不超过 500 字符
model	string	否	—	s1 / s2-pro	—	TTS 模型,可选 s1 / s2-pro,默认 s2-pro
top_p	number	否	—	0 ~ 1	—	Top-P 采样,0~1,默认 0.7
format	string	否	—	wav / pcm / mp3 / opus	—	输出格式:wav / pcm / mp3 / opus,默认 mp3
latency	string	否	—	low / normal / balanced	—	延迟模式:low / normal / balanced
prosody	object	否	—	—	—	语调控制对象:speed、volume、normalize_loudness
normalize	boolean	否	—	—	—	文本规范化,默认 true
mp3_bitrate	integer	否	—	64 / 128 / 192	—	MP3 比特率:64 / 128 / 192
sample_rate	integer	否	—	—	—	采样率按格式限制
temperature	number	否	—	0 ~ 1	—	生成温度,0~1,默认 0.7
chunk_length	integer	否	—	100 ~ 300	—	文本分块长度,范围 100~300,默认 300
opus_bitrate	integer	否	—	-1000 / 24 / 32 / 48 / 64	—	Opus 比特率:-1000 / 24 / 32 / 48 / 64
reference_id	string	否	—	—	—	音色模型ID。单说话人传 string;多说话人模式可传 string[](仅 s2-pro)
max_new_tokens	integer	否	—	—	—	每个分块最多生成音频 token,默认 1024
min_chunk_length	integer	否	—	0 ~ 100	—	最小分块长度,范围 0~100,默认 50
repetition_penalty	number	否	—	—	—	重复惩罚,默认 1.2
early_stop_threshold	number	否	—	0 ~ 1	—	提前停止阈值,范围 0~1,默认 1
condition_on_previous_chunks	boolean	否	—	—	—	是否利用前一段音频作为上下文,默认 true
请求示例
{
    "text": "string",
    "model": "s1",
    "top_p": 1,
    "format": "mp3",
    "latency": "low",
    "prosody": {},
    "normalize": true,
    "mp3_bitrate": "64",
    "sample_rate": 1,
    "temperature": 1,
    "chunk_length": 1,
    "opus_bitrate": "-1000",
    "reference_id": "string",
    "max_new_tokens": 1,
    "min_chunk_length": 1,
    "repetition_penalty": 1,
    "early_stop_threshold": 1,
    "condition_on_previous_chunks": true
}
成功响应
{
    "code": 1,
    "msg": "success",
    "data": {
        "_comment": "具体字段以接口实际返回为准"
    }
}
失败响应
{
    "error": {
        "message": "点数余额不足",
        "type": "insufficient_points",
        "code": "insufficient_points"
    }
}
错误码
HTTP	code	含义
400	invalid_request	参数缺失或格式错误
401	auth_failed	API Key 缺失或无效
402	insufficient_points	点数余额不足
402	key_quota_exceeded	当前 API Key 点数额度不足
403	permission_denied	当前 API Key 无权调用该模型/应用
404	not_found	模型 / 应用 / 任务不存在
429	queue_limit_exceeded	排队任务已达上限
5xx	server_error	服务异常,请稍后重试
接口 05

语音TTS文字转语音(异步)

POST /api/v1/apps/voice_tts/tts_async
将文本异步合成为语音音频文件(适合长文本),通过回调或轮询获取结果

鉴权
Authorization: Bearer <YOUR_API_KEY>
Content-Type: application/json
请求路径
POST /api/v1/apps/voice_tts/tts_async
该接口为异步任务,提交后返回 task_id,请通过 GET /api/v1/tasks/{task_id} 查询结果,或在请求中传 callback_url 接收完成回调。

业务参数
参数	类型	必填	默认值	可选值 / 范围	示例	说明
text	string	是	—	—	—	待合成文本,适合长文本(最大约 10000 字符)
model	string	否	—	s1 / s2-pro	—	TTS 模型,可选 s1 / s2-pro,默认 s2-pro
top_p	number	否	—	0 ~ 1	—	Top-P 采样,0~1,默认 0.7
format	string	否	—	wav / pcm / mp3 / opus	—	输出格式:wav / pcm / mp3 / opus,默认 mp3
latency	string	否	—	low / normal / balanced	—	延迟模式:low / normal / balanced
prosody	object	否	—	—	—	语调控制对象:speed、volume、normalize_loudness
normalize	boolean	否	—	—	—	文本规范化,默认 true
mp3_bitrate	integer	否	—	64 / 128 / 192	—	MP3 比特率:64 / 128 / 192
sample_rate	integer	否	—	—	—	采样率按格式限制
temperature	number	否	—	0 ~ 1	—	生成温度,0~1,默认 0.7
callback_url	string	否	—	—	—	回调通知URL;不传则通过任务接口轮询
chunk_length	integer	否	—	100 ~ 300	—	文本分块长度,范围 100~300,默认 300
opus_bitrate	integer	否	—	-1000 / 24 / 32 / 48 / 64	—	Opus 比特率:-1000 / 24 / 32 / 48 / 64
reference_id	string	否	—	—	—	音色模型ID。单说话人传 string;多说话人模式可传 string[](仅 s2-pro)
max_new_tokens	integer	否	—	—	—	每个分块最多生成音频 token,默认 1024
min_chunk_length	integer	否	—	0 ~ 100	—	最小分块长度,范围 0~100,默认 50
repetition_penalty	number	否	—	—	—	重复惩罚,默认 1.2
early_stop_threshold	number	否	—	0 ~ 1	—	提前停止阈值,范围 0~1,默认 1
condition_on_previous_chunks	boolean	否	—	—	—	是否利用前一段音频作为上下文,默认 true
请求示例
{
    "text": "string",
    "model": "s1",
    "top_p": 1,
    "format": "wav",
    "latency": "low",
    "prosody": {},
    "normalize": true,
    "mp3_bitrate": "64",
    "sample_rate": 1,
    "temperature": 1,
    "callback_url": "string",
    "chunk_length": 1,
    "opus_bitrate": "-1000",
    "reference_id": "string",
    "max_new_tokens": 1,
    "min_chunk_length": 1,
    "repetition_penalty": 1,
    "early_stop_threshold": 1,
    "condition_on_previous_chunks": true
}
成功响应
{
    "task_id": "tsk_xxxxxxxxxxxxxxxx",
    "status": "pending",
    "created_at": 1740000000
}
查询任务结果
GET /api/v1/tasks/{task_id}
{
    "task_id": "tsk_xxxxxxxxxxxxxxxx",
    "status": "completed",
    "created_at": 1740000000,
    "completed_at": 1740000060,
    "result": {
        "output": "任务输出内容"
    },
    "usage": {
        "points": 100
    }
}
失败响应
{
    "error": {
        "message": "点数余额不足",
        "type": "insufficient_points",
        "code": "insufficient_points"
    }
}
错误码
HTTP	code	含义
400	invalid_request	参数缺失或格式错误
401	auth_failed	API Key 缺失或无效
402	insufficient_points	点数余额不足
402	key_quota_exceeded	当前 API Key 点数额度不足
403	permission_denied	当前 API Key 无权调用该模型/应用
404	not_found	模型 / 应用 / 任务不存在
429	queue_limit_exceeded	排队任务已达上限
5xx	server_error	服务异常,请稍后重试
接口 06

语音TTS语音转文字

POST /api/v1/apps/voice_tts/stt
将语音音频识别转写为文本,支持文件上传或音频URL

鉴权
Authorization: Bearer <YOUR_API_KEY>
Content-Type: application/json
请求路径
POST /api/v1/apps/voice_tts/stt
业务参数
参数	类型	必填	默认值	可选值 / 范围	示例	说明
language	string	否	—	—	—	识别语言,不传则自动检测
audio_url	string	否	—	—	—	音频文件URL(与文件上传二选一)
ignore_timestamps	boolean	否	—	—	—	是否忽略精确时间戳,默认 true
请求示例
{
    "language": "string",
    "audio_url": "string",
    "ignore_timestamps": true
}
成功响应
{
    "code": 1,
    "msg": "success",
    "data": {
        "_comment": "具体字段以接口实际返回为准"
    }
}
失败响应
{
    "error": {
        "message": "点数余额不足",
        "type": "insufficient_points",
        "code": "insufficient_points"
    }
}
错误码
HTTP	code	含义
400	invalid_request	参数缺失或格式错误
401	auth_failed	API Key 缺失或无效
402	insufficient_points	点数余额不足
402	key_quota_exceeded	当前 API Key 点数额度不足
403	permission_denied	当前 API Key 无权调用该模型/应用
404	not_found	模型 / 应用 / 任务不存在
429	queue_limit_exceeded	排队任务已达上限
5xx	server_error	服务异常,请稍后重试
接口 07

语音TTS音色列表

GET /api/v1/apps/voice_tts/list_voices
查询当前用户创建的语音音色模型列表

鉴权
Authorization: Bearer <YOUR_API_KEY>
Content-Type: application/json
请求路径
GET /api/v1/apps/voice_tts/list_voices
业务参数
参数	类型	必填	默认值	可选值 / 范围	示例	说明
tag	string	否	—	—	—	按标签筛选
title	string	否	—	—	—	按音色名称搜索
sort_by	string	否	—	score / task_count / created_at	—	排序:score / task_count / created_at
language	string	否	—	—	—	按语言筛选
page_size	integer	否	—	—	—	每页数量,官方默认 10
page_number	integer	否	—	—	—	页码,默认 1
title_language	string	否	—	—	—	按标题语言筛选
请求示例
{
    "tag": "string",
    "title": "string",
    "sort_by": "score",
    "language": "string",
    "page_size": 20,
    "page_number": 1,
    "title_language": "string"
}
成功响应
{
    "code": 1,
    "msg": "success",
    "data": {
        "_comment": "具体字段以接口实际返回为准"
    }
}
失败响应
{
    "error": {
        "message": "点数余额不足",
        "type": "insufficient_points",
        "code": "insufficient_points"
    }
}
错误码
HTTP	code	含义
400	invalid_request	参数缺失或格式错误
401	auth_failed	API Key 缺失或无效
402	insufficient_points	点数余额不足
402	key_quota_exceeded	当前 API Key 点数额度不足
403	permission_denied	当前 API Key 无权调用该模型/应用
404	not_found	模型 / 应用 / 任务不存在
429	queue_limit_exceeded	排队任务已达上限
5xx	server_error	服务异常,请稍后重试

智能剪辑 - 模板列表
接口 08

智能剪辑模板列表

GET /api/v1/apps/smart_clip/template?scene=realMan&pageSize=10&sortBy=desc
查询智能剪辑可用模板列表。接口为同步免费查询。

基本信息
字段	内容
应用编码	smart_clip
API 编码	template
请求方式	GET
请求路径	/api/v1/apps/smart_clip/template
调用模式	同步
计费方式	免费查询
请求参数
参数	位置	类型	必填	默认值	可选值	说明
pageSize	query	integer	否	10	-	每页大小
sid	query	string	否	-	-	分页游标,当有值时代表存在下一页,继续查询下一页时需传入该值
scene	query	string	是	-	virtualman / realMan / oralMixCutting / newsMixCutting	模板使用场景
searchKey	query	string	否	-	name / id	搜索字段,name 按名称搜索,id 按模板 ID 搜索
searchValue	query	string	否	-	-	搜索值
sortBy	query	string	否	desc	desc / asc	排序方式,desc 按上架时间倒序,asc 按上架时间正序
scene 枚举
值	说明
virtualman	数字人口播模板
realMan	真人口播模板
oralMixCutting	素材混剪模板
newsMixCutting	新闻混剪模板
请求示例
GET /api/v1/apps/smart_clip/template?scene=realMan&pageSize=10&sortBy=desc
Authorization: Bearer <YOUR_API_KEY>
成功响应说明
字段	类型	必返	说明
code	string	是	表示本次请求的状态,值为成功状态时表示成功,其他均为失败
data	object	是	结果数据
data.results	array	是	模板列表
data.results[].id	string	是	模板id
data.results[].name	string	是	模板名称
data.results[].coverUrl	string	是	封面url
data.results[].scene	string	是	场景,枚举同请求参数 scene
data.results[].demoUrl	string	是	使用该模板生成的视频样片
data.sid	string	否	分页游标,当有值时代表存在下一页,继续查询下一页时需传入该值
message	string	否	错误描述信息,失败时返回


智能剪辑 - 模板详情
接口 09

智能剪辑模板详情

GET /api/v1/apps/smart_clip/template_detail?id=67b7ee802b2beb0030cdeaaf
按模板 ID 获取模板结构详情。接口为同步免费查询。

基本信息
字段	内容
应用编码	smart_clip
API 编码	template_detail
请求方式	GET
请求路径	/api/v1/apps/smart_clip/template_detail?id={id}
调用模式	同步
计费方式	免费查询
请求参数
参数	位置	类型	必填	示例	说明
id	query	string	是	67b7ee802b2beb0030cdeaaf	模板id
请求示例
GET /api/v1/apps/smart_clip/template_detail?id=67b7ee802b2beb0030cdeaaf
Authorization: Bearer <YOUR_API_KEY>
成功响应说明
字段	类型	必返	说明
code	string	是	表示本次请求的状态,值为成功状态时表示成功,其他均为失败
data	object	是	结果数据
data.id	string	是	模板id
data.name	string	是	模板名称
data.coverUrl	string	是	封面url
data.scene	string	是	应用场景,同模板列表接口的 scene
data.videoStructInfo	object	是	模板结构详情
data.videoStructInfo.editInfo	object	是	编辑结构信息
data.videoStructInfo.editInfo.canvas.width	integer	是	模板画布尺寸宽
data.videoStructInfo.editInfo.canvas.height	integer	是	模板画布尺寸高
data.videoStructInfo.editInfo.headerLayer	object	是	标题图层,返回 {} 表示没有相关图层
data.videoStructInfo.editInfo.subtitleLayer	object	是	字幕图层,返回 {} 表示没有相关图层
data.videoStructInfo.editInfo.ipLayer	object	是	身份栏图层,返回 {} 表示没有相关图层
data.videoStructInfo.editInfo.figureLayer	object	是	数字人图层,返回 {} 表示没有相关图层
data.videoStructInfo.editInfo.backgroundLayer	object	是	背景图层,返回 {} 表示没有相关图层
requestId	string	是	本次请求的唯一标识id
message	string	否	错误描述信息,失败时返回
图层数据结构
字段	类型	必返	说明
width	integer	是	图层宽
height	integer	是	图层高
transform	object	否	图层位置数据
transform.anchor	integer[]	是	锚点,辅助定位,不支持修改
transform.scalar	integer[]	是	缩放,单位:%,不支持修改
transform.position	integer[]	是	锚点定位
uri	string	否	背景资源图片,仅背景图层返回
接口 10

智能剪辑真人口播混剪

提交真人口播混剪视频任务。提交成功后返回平台 task_id。请通过平台任务查询接口获取最终状态与结果,或传入 callbackUrl 接收任务通知。

基本信息
字段	内容
应用编码	smart_clip
API 编码	realman_broadcast
请求方式	POST
请求路径	/api/v1/apps/smart_clip/realman_broadcast
调用模式	异步
计费方式	按输入媒体时长计费
请求参数
参数	类型	必填	默认值	可选值 / 范围	说明
styleId	string	是	-	-	视频模板id
videoUrl	string	是	-	mp4 / mov	视频url。平台会优先探测该媒体时长用于计费
language	string	否	-	-	特指视频中(videoUrl)对应的语种,音频驱动时需要传音频中内容的语种,语种参考ASR支持的语种
title	string	否	-	-	标题;如果期望生成的视频不显示标题,请不要设置标题值
subtitle	array	否	-	-	字幕信息(兼容subtitles字段),用于填充语音识别(ASR)后的结果;每项包含 startMs、endMs、text
materials	array	否	-	image / video	素材,素材格式要求详见素材要求;每项包含 type、fileUrl
materialSoundSwitch	boolean	否	false	true / false	当素材为视频时原声开关
introduceCard	object	否	-	-	身份栏信息,包含 name、description
packRules	object	否	-	-	包装规则:仅用于控制标题、素材、字幕、关键词、背景音乐等图层是否参与效果包装
processRules	object	否	-	-	处理规则,支持 watermarkShow、resourcePreprocessMethod、materialMatchWay、metadata、firstFrameCover
structLayers	array	否	-	-	需要修改的图层数据
callbackUrl	string	否	-	HTTPS URL	结果回调地址
特殊字段说明
subtitle(字幕信息)
选填,不设置则由系统智能处理。
如果期望手动修改从视频中识别的文字,可以先调用音频转文字(ASR)接口识别出文本信息,更改其中的文字,然后保持 ASR 返回的格式设置到该字段。
processRules.resourcePreprocessMethod(真人视频预处理方式)
选填,不设置真人视频预处理方式时,默认保持原始视频时长。
roughCut:粗剪,按照系统内置规则智能处理,例如自动去掉无声片段等。
sliceMerge:按照 subtitle 字段中标注的开始/结束时间,自动去掉不连续时间范围的片段。
processRules
字段	类型	必填	默认值	可选值 / 范围	说明
watermarkShow	boolean	否	false	true / false	是否添加“AI生成”字样水印
resourcePreprocessMethod	string	否	-	sliceMerge / roughCut	真人视频预处理方式,不设置时默认保持原始视频时长
materialMatchWay	string	否	preciseMatch	fuzzyMatch / preciseMatch	素材匹配方式
metadata	object	否	-	-	元水印数据,仅支持写入一组数据,且 value 值需为字符串
firstFrameCover	object	否	-	-	首帧封面配置
重要规则
视频驱动的 videoUrl、素材 materials[].fileUrl、背景音乐 packRules.backgroundMusic.audioUrl、AI 封面的 resultImageUrl 地址不能重名,重名会导致渲染异常。
packRules 仅用于控制标题、字幕、素材、背景音乐、关键词等图层是否参与效果包装,不能控制对应图层的显示/隐藏。
如果期望生成的视频不显示标题,请不要设置标题值。
callbackUrl 作为平台任务通知地址保存,任务完成或失败后由平台发起通知。
如无法解析有效输入媒体时长,本次请求会被拒绝,不使用默认时长。
通用对象字段
subtitle[]
字段	类型	必填	说明
startMs	integer	是	时间戳开始,单位 ms
endMs	integer	是	时间戳结束,单位 ms,最大支持 310000ms
text	string	是	文本,只支持单字符级别
materials[]
字段	类型	必填	可选值 / 默认值	说明
type	string	是	image / video	素材类型
fileUrl	string	是	-	素材url
soundSwitch	boolean	否	false	当素材为视频时原声开关,素材混剪和新闻体视频支持
introduceCard
字段	类型	必填	说明
name	string	否	名称
description	string	否	描述
packRules
字段	类型	必填	默认值	说明
headerSwitch	boolean	否	-	标题包装开关
materialSwitch	boolean	否	-	素材包装开关
subtitleSwitch	boolean	否	-	字幕包装开关
keywordSwitch	boolean	否	-	关键词包装开关
backgroundMusic	object	否	-	背景音乐设置
backgroundMusic.audioSwitch	boolean	否	-	音乐开关
backgroundMusic.audioUrl	string	否	-	音频url,模板内置背景音乐和传递audioUrl,优先使用audioUrl
backgroundMusic.volume	number	否	0.3	音量,保留一位小数,范围 0-1
processRules.firstFrameCover
字段	类型	必填	默认值	说明
coverSwitch	boolean	否	false	封面开关
templateId	string	否	-	模版ID,如果未设置则系统匹配
imageUrl	string	否	-	图片地址,用于生成AI封面图的底图,imageUrl 和 resultImageUrl 二选一必填
resultImageUrl	string	否	-	图片生成接口的结果图片地址或其他封面图片地址;传了此值将直接运用作为视频首桢封面,优先级更高
structLayers[]
字段	类型	必填	可选值	说明
markCode	string	是	headerLayer / subtitleLayer / ipLayer / backgroundLayer / figureLayer	图层,对应模板详情接口返回的图层数据
show	boolean	否	-	是否显示,不设置时默认跟随模板;backgroundLayer、figureLayer 不支持设置,默认显示
showMode	string	否	always / customize	显示模式,markCode=headerLayer 时生效,不设置时默认跟随模板
showTime	number	条件必填	大于 0	显示时长,markCode=headerLayer 且 showMode=customize 时生效且必填,保留 3 位小数
layer.transform.position	integer[]	否	-	锚点定位,对应模板详情 transform.position
layer.uri	string	否	-	背景图片资源链接,仅 backgroundLayer 生效
素材与媒体要求
输入视频格式:mp4、mov;视频编码 h264、HEVC(h265);帧率 10-60fps,推荐 25;单边分辨率小于 2000px。
真人口播 videoUrl 时长小于 5 分钟,文件大小小于 500MB,视频中的音频需要能够语音转文本。
素材总量限制:单张图片计算为 2 秒,单个视频素材不能超过 60 秒,所有素材总时长不能超过 5 分钟。
素材图片格式支持 jpg、png、webp 静态图,单边分辨率小于 2000px。
素材视频格式支持 mp4、mov,单个视频小于 500MB,单边分辨率小于 2000px。
背景音乐格式支持 mp3、wav、m4a,文件大小不超过 120MB,时长不超过 5 分钟。
首帧封面 imageUrl、resultImageUrl 格式支持 jpg/jpeg、png,文件大小不超过 10MB,单边分辨率小于 2000px。
请求示例
{
  "styleId": "68aebb91b8619ed6f4168f40",
  "videoUrl": "https://example.com/a.mp4",
  "title": "聊AI行业",
  "language": "zh-CN",
  "materials": [
    {"type": "image", "fileUrl": "https://example.com/a.jpg"},
    {"type": "video", "fileUrl": "https://example.com/b.mp4"}
  ],
  "materialSoundSwitch": false,
  "introduceCard": {
    "name": "廖志勇",
    "description": "AI行业领军人物"
  },
  "packRules": {
    "headerSwitch": true,
    "materialSwitch": true,
    "subtitleSwitch": true,
    "keywordSwitch": true,
    "backgroundMusic": {
      "audioSwitch": true,
      "audioUrl": "https://example.com/bg.mp3",
      "volume": 1
    }
  },
  "processRules": {
    "watermarkShow": true,
    "resourcePreprocessMethod": "roughCut",
    "materialMatchWay": "fuzzyMatch",
    "metadata": {
      "AIGC": "{\"Label\":\"1\",\"ContentProducer\":\"AI服务提供者的名称或统一社会信用代码等\",\"ProduceID\":\"XXXXXXXXXXXXXXXXXXX\"}"
    }
  },
  "subtitle": [
    {"startMs": 0, "endMs": 500, "text": "A"},
    {"startMs": 500, "endMs": 1000, "text": "I"}
  ],
  "structLayers": [
    {
      "markCode": "headerLayer",
      "show": true,
      "showMode": "customize",
      "showTime": 2,
      "layer": {"transform": {"position": [0, 0, 0]}}
    }
  ],
  "callbackUrl": "https://example.com/hook"
}
成功响应
{
  "code": 1,
  "msg": "success",
  "data": {
    "task_id": "task_xxxxxxxxxxxx",
    "status": "processing",
    "app": "smart_clip",
    "api": "realman_broadcast"
  }
}
响应字段
字段	类型	必返	说明
task_id	string	是	平台任务 ID
status	string	是	平台任务状态,提交后通常为 processing 或 queued
app	string	是	应用编码,固定为 smart_clip
api	string	是	API 编码
任务结果
任务完成后,平台任务查询结果中的 result 通常包含:

字段	类型	说明
video_url	string	视频url地址,视频生成类任务返回
cover_url	string	视频封面url地址
duration	number	生成的视频或音频时长,单位:秒
data	object	完整结果数据
任务失败时返回错误码和错误描述。
接口 11

智能剪辑素材混剪

提交素材混剪视频任务。当前应用仅支持 audioUrl 或素材输入链路;提交时如果传入 content 或 speakerId,平台会返回不支持该分支的明确错误。

基本信息
字段	内容
应用编码	smart_clip
API 编码	broadcast_mixcut
请求方式	POST
请求路径	/api/v1/apps/smart_clip/broadcast_mixcut
调用模式	异步
计费方式	按输入媒体时长计费
请求参数
参数	类型	必填	默认值	可选值 / 范围	说明
styleId	string	是	-	-	视频模板ID
title	string	否	-	-	标题;如果期望生成的视频不显示标题,请不要设置标题值
audioUrl	string	否	-	mp3 / wav / m4a	音频URL,与content字段二选一;当前应用仅支持 audioUrl 或素材输入链路,平台会探测该媒体时长用于计费
content	string	否	-	3-1800字符	文本,与audioUrl字段二选一;当前应用不支持 content + speakerId 定制声音分支
language	string	否	-	-	语种,特指音频(audioUrl)对应的语种,语种参考ASR支持的语种
speakerId	string	否	-	-	音色ID;当前应用不支持 content + speakerId 定制声音分支
speakerExtra	object	否	-	-	音色扩展参数;当前应用不支持 content + speakerId 定制声音分支
materials	array	是	-	image / video	素材,每项包含 type、fileUrl、soundSwitch;缺少 audioUrl 时平台会探测素材媒体时长用于计费
introduceCard	object	否	-	-	身份栏信息,包含 name、description
packRules	object	否	-	-	包装规则:仅用于控制标题、素材、字幕、关键词、背景音乐等是否参与模板效果包装
processRules	object	否	-	-	处理规则,支持 watermarkShow、metadata、firstFrameCover
structLayers	array	否	-	-	需要修改的图层数据
subtitle	array	否	-	-	字幕信息(兼容subtitles字段),每项包含 startMs、endMs、text
callbackUrl	string	否	-	HTTPS URL	结果通知回调地址,由平台在任务完成或失败后通知
视频生成方式
参考文档支持两种方式:

方式	字段	说明
文本内容 + 定制声音	content + speakerId	文本字符数要求 3-1800,声音 ID 为定制声音产生的声音 ID
音频文件	audioUrl	音频时长小于 5 分钟,格式 mp3、wav、m4a,文件大小小于等于 100MB,需要能够语音转文本
当前平台应用仅支持 audioUrl 或素材输入链路,不支持 content + speakerId 定制声音分支。若传入 content 或 speakerId,平台会返回 unsupported_speaker_branch。

speakerExtra
字段	类型	必填	默认值 / 范围	说明
speedRatio	number	否	默认 1,范围 0.5-2	语速,支持 1 位小数,1 表示常速,例如 0.6、0.9、1.2
language	string	否	-	语种,特指该克隆声音文本(content)支持的语种
marks	array	否	-	文本标记特殊处理处,传 content 时有效
marks[].type	string	是	break	标记类型,break 表示停顿
marks[].index	integer	是	从 0 开始	文本索引处,最大值为 content 文本长度
marks[].time	integer	是	100-10000	时长,单位 ms
processRules
字段	类型	必填	默认值	说明
watermarkShow	boolean	否	false	是否添加“AI生成”字样水印
metadata	object	否	-	元水印数据,仅支持写入一组数据,且 value 值需为字符串
firstFrameCover	object	否	-	首帧封面配置
重要规则
音频驱动的 audioUrl、素材 materials[].fileUrl、背景音乐 packRules.backgroundMusic.audioUrl、AI 封面的 resultImageUrl 地址不能重名,重名会导致渲染异常。
packRules 仅用于控制标题、字幕、素材、背景音乐、关键词等图层是否参与效果包装,不能控制对应图层的显示/隐藏。
如果期望生成的视频不显示标题,请不要设置标题值。
callbackUrl 作为平台任务通知地址保存,任务完成或失败后由平台发起通知。
如无法解析有效输入媒体时长,本次请求会被拒绝,不使用默认时长。
通用对象字段
subtitle[]
字段	类型	必填	说明
startMs	integer	是	时间戳开始,单位 ms
endMs	integer	是	时间戳结束,单位 ms,最大支持 310000ms
text	string	是	文本,只支持单字符级别
materials[]
字段	类型	必填	可选值 / 默认值	说明
type	string	是	image / video	素材类型
fileUrl	string	是	-	素材url
soundSwitch	boolean	否	false	当素材为视频时原声开关,素材混剪和新闻体视频支持
introduceCard
字段	类型	必填	说明
name	string	否	名称
description	string	否	描述
packRules
字段	类型	必填	默认值	说明
headerSwitch	boolean	否	-	标题包装开关
materialSwitch	boolean	否	-	素材包装开关
subtitleSwitch	boolean	否	-	字幕包装开关
keywordSwitch	boolean	否	-	关键词包装开关
backgroundMusic	object	否	-	背景音乐设置
backgroundMusic.audioSwitch	boolean	否	-	音乐开关
backgroundMusic.audioUrl	string	否	-	音频url,模板内置背景音乐和传递audioUrl,优先使用audioUrl
backgroundMusic.volume	number	否	0.3	音量,保留一位小数,范围 0-1
processRules.firstFrameCover
字段	类型	必填	默认值	说明
coverSwitch	boolean	否	false	封面开关
templateId	string	否	-	模版ID,如果未设置则系统匹配
imageUrl	string	否	-	图片地址,用于生成AI封面图的底图,imageUrl 和 resultImageUrl 二选一必填
resultImageUrl	string	否	-	图片生成接口的结果图片地址或其他封面图片地址;传了此值将直接运用作为视频首桢封面,优先级更高
structLayers[]
字段	类型	必填	可选值	说明
markCode	string	是	headerLayer / subtitleLayer / ipLayer / backgroundLayer / figureLayer	图层,对应模板详情接口返回的图层数据
show	boolean	否	-	是否显示,不设置时默认跟随模板;backgroundLayer、figureLayer 不支持设置,默认显示
showMode	string	否	always / customize	显示模式,markCode=headerLayer 时生效,不设置时默认跟随模板
showTime	number	条件必填	大于 0	显示时长,markCode=headerLayer 且 showMode=customize 时生效且必填,保留 3 位小数
layer.transform.position	integer[]	否	-	锚点定位,对应模板详情 transform.position
layer.uri	string	否	-	背景图片资源链接,仅 backgroundLayer 生效
素材与媒体要求
输入视频格式:mp4、mov;视频编码 h264、HEVC(h265);帧率 10-60fps,推荐 25;单边分辨率小于 2000px。
真人口播 videoUrl 时长小于 5 分钟,文件大小小于 500MB,视频中的音频需要能够语音转文本。
素材总量限制:单张图片计算为 2 秒,单个视频素材不能超过 60 秒,所有素材总时长不能超过 5 分钟。
素材图片格式支持 jpg、png、webp 静态图,单边分辨率小于 2000px。
素材视频格式支持 mp4、mov,单个视频小于 500MB,单边分辨率小于 2000px。
背景音乐格式支持 mp3、wav、m4a,文件大小不超过 120MB,时长不超过 5 分钟。
首帧封面 imageUrl、resultImageUrl 格式支持 jpg/jpeg、png,文件大小不超过 10MB,单边分辨率小于 2000px。
请求示例
{
  "styleId": "68aebb91b8619ed6f4168f40",
  "audioUrl": "https://example.com/a.mp3",
  "title": "聊AI行业",
  "language": "zh-CN",
  "materials": [
    {"type": "image", "fileUrl": "https://example.com/a.jpg", "soundSwitch": false},
    {"type": "video", "fileUrl": "https://example.com/b.mp4", "soundSwitch": false}
  ],
  "introduceCard": {
    "name": "廖志勇",
    "description": "AI行业领军人物"
  },
  "packRules": {
    "headerSwitch": true,
    "materialSwitch": true,
    "subtitleSwitch": true,
    "keywordSwitch": true,
    "backgroundMusic": {
      "audioSwitch": true,
      "audioUrl": "https://example.com/bg.mp3",
      "volume": 1
    }
  },
  "processRules": {
    "watermarkShow": true,
    "metadata": {
      "AIGC": "{\"Label\":\"1\",\"ContentProducer\":\"AI服务提供者的名称或统一社会信用代码等\",\"ProduceID\":\"XXXXXXXXXXXXXXXXXXX\"}"
    }
  },
  "subtitle": [
    {"startMs": 0, "endMs": 500, "text": "A"},
    {"startMs": 500, "endMs": 1000, "text": "I"}
  ],
  "callbackUrl": "https://example.com/hook"
}
成功响应
{
  "code": 1,
  "msg": "success",
  "data": {
    "task_id": "task_xxxxxxxxxxxx",
    "status": "processing",
    "app": "smart_clip",
    "api": "broadcast_mixcut"
  }
}
响应字段
字段	类型	必返	说明
task_id	string	是	平台任务 ID
status	string	是	平台任务状态,提交后通常为 processing 或 queued
app	string	是	应用编码,固定为 smart_clip
api	string	是	API 编码
任务结果
任务完成后,平台任务查询结果中的 result 通常包含:

字段	类型	说明
video_url	string	视频url地址,视频生成类任务返回
cover_url	string	视频封面url地址
duration	number	生成的视频或音频时长,单位:秒
data	object	完整结果数据
任务失败时返回错误码和错误描述。
接口 12

智能剪辑新闻体视频

提交新闻体视频任务。如未传 processRules.videoDuration,平台会探测素材媒体时长用于计费;无法获取有效输入媒体时长时会拒绝提交。

基本信息
字段	内容
应用编码	smart_clip
API 编码	news_mixcut
请求方式	POST
请求路径	/api/v1/apps/smart_clip/news_mixcut
调用模式	异步
计费方式	按输入媒体时长计费
请求参数
参数	类型	必填	默认值	可选值 / 范围	说明
styleId	string	是	-	-	视频模板ID
title	string	是	-	3-1800字符	标题
materials	array	是	-	image / video	素材,每项包含 type、fileUrl、soundSwitch;平台会探测素材媒体时长用于计费
introduceCard	object	否	-	-	身份栏信息,包含 name、description
packRules	object	否	-	-	包装规则:仅用于控制标题、素材、字幕、关键词、背景音乐等是否参与模板效果包装
processRules.watermarkShow	boolean	否	false	true / false	是否添加“AI生成”字样水印
processRules.videoDuration	integer	否	-	5-300	视频时长,单位秒,默认跟随素材资源时长
processRules.metadata	object	否	-	-	元水印数据,仅支持写入一组数据,且value值需为字符串
processRules.materialComposition	string	否	random	random / order	素材组合方式
processRules.firstFrameCover	object	否	-	-	首帧封面配置
structLayers	array	否	-	-	需要修改的图层数据
callbackUrl	string	否	-	HTTPS URL	结果通知回调地址,由平台在任务完成或失败后通知
processRules
字段	类型	必填	默认值	可选值 / 范围	说明
watermarkShow	boolean	否	false	true / false	是否添加“AI生成”字样水印
videoDuration	integer	否	跟随素材资源时长	5-300	视频时长,单位:秒
metadata	object	否	-	-	元水印数据,仅支持写入一组数据,且 value 值需为字符串
materialComposition	string	否	random	random / order	素材组合方式,random 随机,order 顺序
firstFrameCover	object	否	-	-	首帧封面配置
重要规则
素材 materials[].fileUrl、背景音乐 packRules.backgroundMusic.audioUrl、AI 封面的 resultImageUrl 地址不能重名,重名会导致渲染异常。
packRules 仅用于控制标题、字幕、素材、背景音乐、关键词等图层是否参与效果包装,不能控制对应图层的显示/隐藏。
如果期望生成的视频不显示标题,请不要设置标题值。
callbackUrl 作为平台任务通知地址保存,任务完成或失败后由平台发起通知。
如无法解析有效输入媒体时长,本次请求会被拒绝,不使用默认时长。
通用对象字段
subtitle[]
字段	类型	必填	说明
startMs	integer	是	时间戳开始,单位 ms
endMs	integer	是	时间戳结束,单位 ms,最大支持 310000ms
text	string	是	文本,只支持单字符级别
materials[]
字段	类型	必填	可选值 / 默认值	说明
type	string	是	image / video	素材类型
fileUrl	string	是	-	素材url
soundSwitch	boolean	否	false	当素材为视频时原声开关,素材混剪和新闻体视频支持
introduceCard
字段	类型	必填	说明
name	string	否	名称
description	string	否	描述
packRules
字段	类型	必填	默认值	说明
headerSwitch	boolean	否	-	标题包装开关
materialSwitch	boolean	否	-	素材包装开关
subtitleSwitch	boolean	否	-	字幕包装开关
keywordSwitch	boolean	否	-	关键词包装开关
backgroundMusic	object	否	-	背景音乐设置
backgroundMusic.audioSwitch	boolean	否	-	音乐开关
backgroundMusic.audioUrl	string	否	-	音频url,模板内置背景音乐和传递audioUrl,优先使用audioUrl
backgroundMusic.volume	number	否	0.3	音量,保留一位小数,范围 0-1
processRules.firstFrameCover
字段	类型	必填	默认值	说明
coverSwitch	boolean	否	false	封面开关
templateId	string	否	-	模版ID,如果未设置则系统匹配
imageUrl	string	否	-	图片地址,用于生成AI封面图的底图,imageUrl 和 resultImageUrl 二选一必填
resultImageUrl	string	否	-	图片生成接口的结果图片地址或其他封面图片地址;传了此值将直接运用作为视频首桢封面,优先级更高
structLayers[]
字段	类型	必填	可选值	说明
markCode	string	是	headerLayer / subtitleLayer / ipLayer / backgroundLayer / figureLayer	图层,对应模板详情接口返回的图层数据
show	boolean	否	-	是否显示,不设置时默认跟随模板;backgroundLayer、figureLayer 不支持设置,默认显示
showMode	string	否	always / customize	显示模式,markCode=headerLayer 时生效,不设置时默认跟随模板
showTime	number	条件必填	大于 0	显示时长,markCode=headerLayer 且 showMode=customize 时生效且必填,保留 3 位小数
layer.transform.position	integer[]	否	-	锚点定位,对应模板详情 transform.position
layer.uri	string	否	-	背景图片资源链接,仅 backgroundLayer 生效
素材与媒体要求
输入视频格式:mp4、mov;视频编码 h264、HEVC(h265);帧率 10-60fps,推荐 25;单边分辨率小于 2000px。
真人口播 videoUrl 时长小于 5 分钟,文件大小小于 500MB,视频中的音频需要能够语音转文本。
素材总量限制:单张图片计算为 2 秒,单个视频素材不能超过 60 秒,所有素材总时长不能超过 5 分钟。
素材图片格式支持 jpg、png、webp 静态图,单边分辨率小于 2000px。
素材视频格式支持 mp4、mov,单个视频小于 500MB,单边分辨率小于 2000px。
背景音乐格式支持 mp3、wav、m4a,文件大小不超过 120MB,时长不超过 5 分钟。
首帧封面 imageUrl、resultImageUrl 格式支持 jpg/jpeg、png,文件大小不超过 10MB,单边分辨率小于 2000px。
请求示例
{
  "styleId": "68aebb91b8619ed6f4168f40",
  "title": "聊AI行业",
  "materials": [
    {"type": "image", "fileUrl": "https://example.com/a.jpg", "soundSwitch": false},
    {"type": "video", "fileUrl": "https://example.com/b.mp4", "soundSwitch": false}
  ],
  "introduceCard": {
    "name": "廖志勇",
    "description": "AI行业领军人物"
  },
  "packRules": {
    "headerSwitch": true,
    "materialSwitch": true,
    "subtitleSwitch": true,
    "keywordSwitch": true,
    "backgroundMusic": {
      "audioSwitch": true,
      "audioUrl": "https://example.com/bg.mp3",
      "volume": 1
    }
  },
  "processRules": {
    "materialComposition": "random",
    "watermarkShow": true,
    "videoDuration": 30,
    "metadata": {
      "AIGC": "{\"Label\":\"1\",\"ContentProducer\":\"AI服务提供者的名称或统一社会信用代码等\",\"ProduceID\":\"XXXXXXXXXXXXXXXXXXX\"}"
    }
  },
  "structLayers": [
    {
      "markCode": "headerLayer",
      "show": true,
      "showMode": "customize",
      "showTime": 2,
      "layer": {"transform": {"position": [0, 0, 0]}}
    }
  ],
  "callbackUrl": "https://example.com/hook"
}
成功响应
{
  "code": 1,
  "msg": "success",
  "data": {
    "task_id": "task_xxxxxxxxxxxx",
    "status": "processing",
    "app": "smart_clip",
    "api": "news_mixcut"
  }
}
响应字段
字段	类型	必返	说明
task_id	string	是	平台任务 ID
status	string	是	平台任务状态,提交后通常为 processing 或 queued
app	string	是	应用编码,固定为 smart_clip
api	string	是	API 编码
任务结果
任务完成后,平台任务查询结果中的 result 通常包含:

字段	类型	说明
video_url	string	视频url地址,视频生成类任务返回
cover_url	string	视频封面url地址
duration	number	生成的视频或音频时长,单位:秒
data	object	完整结果数据
任务失败时返回错误码和错误描述。