有香港科技大学和微软亚研院联手开发的一致性AI唱歌模型CoMoSVC

挚爱湘伦
和汗青且浅,相去复几许,盈盈一水间,脉脉不得语。

CoMoSVC:基于一致性模型的歌声转换


作者:Yiwen Lu、Zhen Ye、Wei Xue†、Xu Tan、Qifeng Liu、Yike Guo†


1 香港科技大学


2 微软亚洲研究院


摘要


基于扩散的歌声转换(SVC)方法已取得显著成果,能够生成与目标音色高度相似的自然音频。然而,迭代采样过程导致推理速度较慢,因此加速变得至关重要。本文提出了CoMoSVC,一种基于一致性模型的SVC方法,旨在实现高质量生成和高速采样。首先设计了专门用于SVC的扩散模型教师模型,然后在自一致性属性下进一步蒸馏出学生模型,实现一步采样。单张NVIDIA GTX 4090 GPU上的实验显示,虽然CoMoSVC的推理速度远快于最先进(SOTA)的基于扩散的SVC系统,但其转换性能在主观和客观指标上仍然可比甚至优于SOTA系统。音频样本和代码可在 https://comosvc.github.io/ 获取。


关键词:歌声转换,扩散模型,一致性模型


### 1. 引言


歌声转换(SVC)旨在将一个歌手的声音转换为另一个歌手的声音,同时保持内容和旋律。在音乐娱乐、歌声美化和艺术创作中有广泛应用。传统的SVC方法需要源和目标歌手的并行训练数据,这通常难以实现,因此无并行的SVC方法成为主流。SVC通常采用两阶段方法:第一阶段提取歌手独立和依赖的特征;第二阶段通过替换歌手依赖特征生成转换后的音频。第二阶段对音质影响巨大,因此许多生成模型被用于SVC的解码,包括自回归(AR)模型、生成对抗网络(GAN)、正常化流和扩散模型。


尽管扩散模型方法如DiffSVC显著提高了转换性能,但其迭代采样过程导致推理速度慢。新提出的生成模型“一致性模型”实现了一步生成。受此启发,本文开发了一种基于一致性模型的SVC方法——CoMoSVC,旨在实现高质量、高相似性和高速的SVC。我们设计了一种扩散教师模型,具有出色的生成能力,并从中蒸馏出学生模型以实现一步采样。实验显示,CoMoSVC的采样速度比扩散模型的SoVITS-SVC和DiffSVC分别快约500倍和50倍,同时保持了可比的性能甚至在质量和相似性上有所提升。


### 2. 背景


扩散模型通过在前向过程中向数据中加入噪声,在逆向过程中重构数据结构。通常需要多次迭代来解决概率流ODE,使得采样速度较慢。而一致性模型基于自一致性属性,实现一步采样。


### 3. 提出的方法


CoMoSVC采用两阶段模型,第一阶段编码提取的特征和歌手身份为嵌入,第二阶段生成mel频谱图,进一步使用预训练声码器转为音频。


#### 3.1 编码


这一部分编码歌手独立和依赖的特征,包括内容、音高和响度特征,和歌手ID作为歌手依赖信息。


#### 3.2 解码


该阶段生成mel频谱图。我们首先训练教师模型并从中蒸馏出学生模型。教师模型使用EDM架构,学生模型通过一致性蒸馏实现一步采样。


### 4. 实验


实验在M4Singer和OpenSinger两个数据集上进行。所有音频重新采样至24kHz并标准化。训练于NVIDIA GTX 4090 GPU上进行,批量大小为48。对不同方法的重构能力和转换能力进行了评估。


### 5. 结论


CoMoSVC在高质量歌声转换中实现了显著的加速性能,实验结果表明其在转换性能和相似性上优于现有SOTA方法。

发表于:2024-11-13 20:10
0个回复
  • 消灭零回复
您还没有登录,登录后才可回复。 登录 注册