基于 IndexTTS 的文字转语音服务
上传声纹 · 调整参数 · 生成高质量语音
🎛️ GPT-2 采样参数
📐 分句与生成长度
🎧 生成结果
上传新声纹
提示:上传一段 5–15 秒的清晰语音作为声纹参考(.wav 格式)。名称仅允许字母、数字、连字符和下划线。
相同声纹 + 相同文本 + 相同参数的请求将直接返回缓存音频,无需重新生成。
默认无需身份验证;若配置环境变量 TTS_ACCESS_TOKEN,则所有 API 调用都必须带 Authorization: Bearer <token>。Base URL 即本服务地址。
/v1/audio/speech — OpenAI 兼容接口| 参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
model | string | tts-1 | 模型名称(可忽略) |
input | string | — | 必填,要合成的文本 |
voice | string | — | 必填,声纹名称。若不存在则自动回退到第一个可用声纹 |
response_format | string | mp3 | 格式:mp3, opus, aac, flac, wav, pcm |
speed | float | 1.0 | 语速 (0.25–4.0) |
OpenAIhttp://<IP>:8000/v1TTS_ACCESS_TOKEN (若未开启则随便填)reporter-zh)
/api/tts — 文字转语音(支持全部高级参数)voice 和 text 外,其余参数均为可选。
| 参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
voice | string | — | 必填,声纹名称 |
text | string | — | 必填,要合成的文字 |
temperature | float | 1.0 | 采样温度 (0.05–2.0) |
top_p | float | 0.8 | Nucleus 采样概率 (0–1) |
top_k | int | 30 | Top-K 采样 (0=不限) |
do_sample | bool | true | 是否随机采样 |
num_beams | int | 2 | 束搜索宽度 (1–10) |
repetition_penalty | float | 10.0 | 重复惩罚 (0.1–20) |
length_penalty | float | 0.0 | 长度偏好 (-2–2) |
max_mel_tokens | int | 300 | 单句 mel-token 上限 (50–2000) |
max_text_tokens_per_segment | int | 120 | 分句粒度 (20–300) |
fast_mode | bool | true | 启用 batched-bucket 快速推理 |
bucket_size | int | 1 | 快速推理分桶大小 (1–8) |
speech_rate | float | 1.2 | 输出语速倍率 (0.5–2.0) |
/api/voices — 获取声纹列表name、filename、size_kb。/api/voices — 上传声纹name + file)。/api/voices/{name} — 删除声纹/api/system — 系统信息与默认参数/api/cache — 缓存统计/api/cache — 清空缓存/health — 健康检查{"status":"ok"} 或 {"status":"degraded"}。