3年多以前,我还在玩sovits的时候,那个时候声音的模型是需要分离(去环境背景音)出干声,然后做训练的。


然后需要对数据集进行一个筛选,去掉底噪大的部分,然后开始进行训练。
一般训练8000步左右,音色还原度最佳,如果超过8000步,评分还在25以下,这个数据集和训练基本就废了,如果你硬要继续训练,一口气训练到超过14000步,就会出现所谓的“发散”,最终导致出来的声音要么是“电音严重”要么就是“人不人鬼不鬼”。
这里像不像量化交易的开发步骤?提取干声的过程,就是给机器自学习和预测模型找数据集的过程,去掉底噪大的部分,就是筛选掉里面的无效行情(1m暴涨暴跌的部分),训练8000步,不会出现严重的过拟合,训练到14000步“发散”(严重过拟合)最终导致实盘结果无限接近于:抛硬币。
虽然不在一个赛道里,但是底层逻辑是相同的。
会不会在未来某一天,击败我们的不是行业本身的人,而是跨行踩过来的人,就真不好说了。。。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论