当前位置：首页 > news >正文

GptSoVits音频教程

news 来源：原创 2024/5/9 21:09:09

这个号称5秒克隆，或者用1分钟音频训练10分钟就能达到原声效果。

5秒的号称，只要是，什么几秒的，大家可以完全不要想了，什么知更鸟，什么火山，包括本次的GptSoVits的效果肯定是不行的，数据太短效果不可能达到。所以这些都听不出来本人的声音。

新测试，拿35秒的高质量音频训练，效果确实还可以吊打目前世面一切中文训练的。

新测试，过长的音频会出现漏字和多读的问题，这不是vits的问题，不管是数字人还是音频都会出现刚开始很好，越来越差的情况。这种情况不是问题，分步用短的音频或者视频合成，然后在将多段短音频合并就能得到完美的结果。

重点关注1分钟的音频训练10分钟，是否能赶超阿里的kantts。阿里1分钟音频训练10分钟出来，音色是比较像的，但是杂音和混响严重。这也是本文的目的。

由于是测试这里就不部署linux版本，直接用作者提供的整合包

资源位置（123网盘）

GPT-SoVITS官方版下载丨最新版下载丨绿色版下载丨APP下载-123云盘

环境:

win10，我显卡是3060ti（12g显存），装了nvida驱动。内存建议16G（2条8g才60块钱，很便宜，9成新）

1.安装

由于是整合包，解压就行，这里用7z解压，因为rar压缩包里面有2个7z的文件，是2个版本的。

2.数据集准备

2.1去混响

我是干净的人声，但是有空调声，我试一下这个功能

然后会自动弹出一个新页面，进行下图操作

然后点转换，等待每一条处理完成

完毕后，UVR5-WebUI（关闭这个页面，取消对钩就行）

2.2切分文件，降低显存，用于每条每条训练

我已经是切分过的了，就不用切分了，我以前写了个程序更方便切分

https://shiao.blog.csdn.net/article/details/133700129

2.3使用funAsr进行文本标注

这边是我以前写的单独做asr标注的，这个中文效果比openAi的whisper好。

中文语音标注工具FunASR（语音识别）-CSDN博客

本文中是用他集成好的asr，修改输入和输出

之后点击开启批量ASR,看黑窗口，他会去下载模型（第一次比较慢，请耐心等待）

成功后

2.4文本校对，就是用耳朵听，看看哪个地方不对

输入刚刚合成的【文件路径】，然后勾选启动打标WebUI

稍后会弹出新页面

听声音，看哪个不对，就改掉。觉得声音完全不对的，可以勾选yes然后点deleteAudio按钮删除。

想听下一批点击next index。最后点击SaveFile。

3.训练

进入训练步骤

3.1执行特征提取

和sovits一样，推理的同样会默认保存在logs中

输入实验名，然后给定标注路径还有音频路径，点击一键三连开始训练。

3.2训练微调

参数的话我显存12G，我就调高了一点，大家也可以用默认。

点击开始sovits训练，然后看窗口，没有报错就行。

训练完成后，然后，开始GPT训练，我GPU占用率百分之40。

4.推理

4.1推理模型配置

点击推理界面，先刷新模型，然后点击推理，然后打钩

打钩后，稍等一会儿就会弹出一个推理界面

4.2推理测试

刷新模型路径，上传语音，然后输入文本，点击合成语音

结果:

效果很不错，清晰度居然超过了kantts-sambert预训练16k。但是有个别吐字错误的情况。不过效果确实不错，我训练的数据是300句录音棚数据。

参考：

语音克隆神器GPT-SoVITS，只需一分钟素材训练模型，AI文字转语音效果堪比真人 | 科技与狠活

耗时两个月自主研发的低成本AI音色克隆软件，免费送给大家！【GPT-SoVITS】_哔哩哔哩_bilibili

设计模式-创建型模式-原型模式

宏观视角下的浏览器

Selenium定位不到元素怎么办？一定要这么做

电路设计（26）——速度表的multisim仿真

计算机设计大赛深度学习卷积神经网络的花卉识别

fastApi笔记01-路径参数

分类预测 | Matlab实现CWT-DSCNN-MSA基于时序特征、cwt小波时频图的双流卷积融合注意力机制的分类预测

外贸消息多发工具开发常用源代码!

JSON语法

【Nginx】Nginx配置反向代理和 https

ApexRBp在线粒子传感器在电动汽车电池制造的应用

微服务篇之分布式系统理论

UnityWebGL 设置全屏

设计模式复习

Java架构师之路四、分布式系统：分布式架构、分布式数据存储、分布式事务、分布式锁、分布式缓存、分布式消息中间件、分布式存储等。

【vuex入门系列02】mutation接收单个参数和多个参数

Dubbo 整合 Pinpoint 做分布式服务请求跟踪

Hexo+码云+git快速搭建免费的静态Blog

java 多线程基础, 我觉得还是有必要看看的

MySQL-事务管理（基础）

React16时代，该用什么姿势写 React ?

电商搜索引擎的架构设计和性能优化

记一次用 NodeJs 实现模拟登录的思路

一套莫尔斯电报听写、翻译系统

用element的upload组件实现多图片上传和压缩

这几个编码小技巧将令你 PHP 代码更加简洁

“十年磨一剑”--有赞的HBase平台实践和应用之路 ...

LevelDB 入门 —— 全面了解 LevelDB 的功能特性

Python 之网络式编程

快速排序（四）——挖坑法，前后指针法与非递归

#QT（智能家居界面-界面切换）

#ubuntu# #git# repository git config --global --add safe.directory

(zt)最盛行的警世狂言（爆笑）

（分类）KNN算法- 参数调优

(附源码)springboot宠物医疗服务网站毕业设计688413

（六）激光线扫描-三维重建

（转）淘淘商城系列——使用Spring来管理Redis单机版和集群版

.NET Core 中的路径问题

.net framework4与其client profile版本的区别

.net 程序发生了一个不可捕获的异常

.NET/C# 推荐一个我设计的缓存类型（适合缓存反射等耗性能的操作，附用法）

.NET/C# 阻止屏幕关闭，阻止系统进入睡眠状态

.NET：自动将请求参数绑定到ASPX、ASHX和MVC（菜鸟必看）

.net对接阿里云CSB服务

.Net转前端开发-启航篇，如何定制博客园主题

.pyc文件是什么？

/bin/bash^M: bad interpreter: No such file ordirectory

@autowired注解作用_Spring Boot进阶教程——注解大全（建议收藏！）

@FeignClient注解，fallback和fallbackFactory

@javax.ws.rs Webservice注解

[ C++ ] STL priority_queue(优先级队列)使用及其底层模拟实现，容器适配器，deque(双端队列)原理了解

[ JavaScript ] JSON方法

[ vulhub漏洞复现篇 ] ThinkPHP 5.0.23-Rce

[04] Android逐帧动画（一）

[1181]linux两台服务器之间传输文件和文件夹