Moear 最近的时间轴更新
Moear

Moear

V2EX 第 611813 号会员,加入于 2023-01-31 15:58:21 +08:00
Moear 最近回复了
@Hansah cosyvoice 最长大概 20s 左右吧 单句过长了会自动截断分成若干个任务,然后分开跑,当然你也可以自行截断(在文本编辑页面换行 然后丢到计划任务里面去), 程序在最后提供了 FFmpeg 一键合成音频的方式,此时从理论上来说无限长度 控制符可以看一下 23 楼的那个回答
@Hansah 那玩意阿里巴巴没开源😭只开源了 0.5b 参数量的版本
@MindMindMax 苹果大带宽的内存跑 ai 啥的还是挺香的😂
@MindMindMax 我自己的显卡是 4070m(笔记本 当做 4060ti 8gb 版本就行了) rtf(Real-Time Factor ,实时因子)大致在 0.8~1.6(越低越好 说明推理数值越快 rtf 是 1 的话就说明显卡花 1s 的算力可以推理出 1s 的音频来) 纯靠 cpu 的话我用 q1hy(13900hk es)的 rtf 大概是 10,30s 时间能推理出 3s 的音频来
@Xhack 可以自行找一段 Moss 的 3s 到 10s 的无底噪的音频截取下来,来源可以是在 b 站搜一下[ [流浪地球①] MOSS/550W 语录/语音集 (自存)] 作为参考音频推理使用 现在的 tts 模型基本都支持了这种无训练方式复刻音色的功能了
@Frankcox 官方的暂时没有😂他只给了一个训练的 train.py 脚本,就是得自己改代码了
@Bantes 仁者见仁智者见智 可能是你对 tts 不感兴趣吧
@Frankcox 不知道 建议问问别人 gptsovits 没咋用过
@noming 零样本复刻模式/修复模式下必须要填参考文本+参考音频(参考文本一定得是参考音频的完整文字部分) 指令模式/精细控制下必须要填参考音频
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2805 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 08:36 · PVG 16:36 · LAX 00:36 · JFK 03:36
♥ Do have faith in what you're doing.