CoMoSVC:基于一致性模型的歌声转换
作者:Yiwen Lu、Zhen Ye、Wei Xue†、Xu Tan、Qifeng Liu、Yike Guo†
1 香港科技大学
2 微软亚洲研究院
摘要
基于扩散的歌声转换(SVC)方法已取得显著成果,能够生成与目标音色高度相似的自然音频。然而,迭代采样过程导致推理速度较慢,因此加速变得至关重要。本文提出了CoMoSVC,一种基于一致性模型的SVC方法,旨在实现高质量生成和高速采样。首先设计了专门用于SVC的扩散模型教师模型,然后在自一致性属性下进一步蒸馏出学生模型,实现一步采样。单张NVIDIA GTX 4090 GPU上的实验显示,虽然CoMoSVC的推理速度远快于最先进(SOTA)的基于扩散的SVC系统,但其转换性能在主观和客观指标上仍然可比甚至优于SOTA系统。音频样本和代码可在 https://comosvc.github.io/ 获取。
关键词:歌声转换,扩散模型,一致性模型
### 1. 引言
歌声转换(SVC)旨在将一个歌手的声音转换为另一个歌手的声音,同时保持内容和旋律。在音乐娱乐、歌声美化和艺术创作中有广泛应用。传统的SVC方法需要源和目标歌手的并行训练数据,这通常难以实现,因此无并行的SVC方法成为主流。SVC通常采用两阶段方法:第一阶段提取歌手独立和依赖的特征;第二阶段通过替换歌手依赖特征生成转换后的音频。第二阶段对音质影响巨大,因此许多生成模型被用于SVC的解码,包括自回归(AR)模型、生成对抗网络(GAN)、正常化流和扩散模型。
尽管扩散模型方法如DiffSVC显著提高了转换性能,但其迭代采样过程导致推理速度慢。新提出的生成模型“一致性模型”实现了一步生成。受此启发,本文开发了一种基于一致性模型的SVC方法——CoMoSVC,旨在实现高质量、高相似性和高速的SVC。我们设计了一种扩散教师模型,具有出色的生成能力,并从中蒸馏出学生模型以实现一步采样。实验显示,CoMoSVC的采样速度比扩散模型的SoVITS-SVC和DiffSVC分别快约500倍和50倍,同时保持了可比的性能甚至在质量和相似性上有所提升。
### 2. 背景
扩散模型通过在前向过程中向数据中加入噪声,在逆向过程中重构数据结构。通常需要多次迭代来解决概率流ODE,使得采样速度较慢。而一致性模型基于自一致性属性,实现一步采样。
### 3. 提出的方法
CoMoSVC采用两阶段模型,第一阶段编码提取的特征和歌手身份为嵌入,第二阶段生成mel频谱图,进一步使用预训练声码器转为音频。
#### 3.1 编码
这一部分编码歌手独立和依赖的特征,包括内容、音高和响度特征,和歌手ID作为歌手依赖信息。
#### 3.2 解码
该阶段生成mel频谱图。我们首先训练教师模型并从中蒸馏出学生模型。教师模型使用EDM架构,学生模型通过一致性蒸馏实现一步采样。
### 4. 实验
实验在M4Singer和OpenSinger两个数据集上进行。所有音频重新采样至24kHz并标准化。训练于NVIDIA GTX 4090 GPU上进行,批量大小为48。对不同方法的重构能力和转换能力进行了评估。
### 5. 结论
CoMoSVC在高质量歌声转换中实现了显著的加速性能,实验结果表明其在转换性能和相似性上优于现有SOTA方法。
目录
CoMoSVC:基于一致性模型的歌声转换
作者:Yiwen Lu、Zhen Ye、Wei Xue†、Xu Tan、Qifeng Liu、Yike Guo†
1 香港科技大学
2 微软亚洲研究院
摘要
基于扩散的歌声转换(SVC)方法已取得显著成果,能够生成与目标音色高度相似的自然音频。然而,迭代采样过程导致推理速度较慢,因此加速变得至关重要。本文提出了CoMoSVC,一种基于一致性模型的SVC方法,旨在实现高质量生成和高速采样。首先设计了专门用于SVC的扩散模型教师模型,然后在自一致性属性下进一步蒸馏出学生模型,实现一步采样。单张NVIDIA GTX 4090 GPU上的实验显示,虽然CoMoSVC的推理速度远快于最先进(SOTA)的基于扩散的SVC系统,但其转换性能在主观和客观指标上仍然可比甚至优于SOTA系统。音频样本和代码可在 https://comosvc.github.io/ 获取。
关键词:歌声转换,扩散模型,一致性模型
### 1. 引言
歌声转换(SVC)旨在将一个歌手的声音转换为另一个歌手的声音,同时保持内容和旋律。在音乐娱乐、歌声美化和艺术创作中有广泛应用。传统的SVC方法需要源和目标歌手的并行训练数据,这通常难以实现,因此无并行的SVC方法成为主流。SVC通常采用两阶段方法:第一阶段提取歌手独立和依赖的特征;第二阶段通过替换歌手依赖特征生成转换后的音频。第二阶段对音质影响巨大,因此许多生成模型被用于SVC的解码,包括自回归(AR)模型、生成对抗网络(GAN)、正常化流和扩散模型。
尽管扩散模型方法如DiffSVC显著提高了转换性能,但其迭代采样过程导致推理速度慢。新提出的生成模型“一致性模型”实现了一步生成。受此启发,本文开发了一种基于一致性模型的SVC方法——CoMoSVC,旨在实现高质量、高相似性和高速的SVC。我们设计了一种扩散教师模型,具有出色的生成能力,并从中蒸馏出学生模型以实现一步采样。实验显示,CoMoSVC的采样速度比扩散模型的SoVITS-SVC和DiffSVC分别快约500倍和50倍,同时保持了可比的性能甚至在质量和相似性上有所提升。
### 2. 背景
扩散模型通过在前向过程中向数据中加入噪声,在逆向过程中重构数据结构。通常需要多次迭代来解决概率流ODE,使得采样速度较慢。而一致性模型基于自一致性属性,实现一步采样。
### 3. 提出的方法
CoMoSVC采用两阶段模型,第一阶段编码提取的特征和歌手身份为嵌入,第二阶段生成mel频谱图,进一步使用预训练声码器转为音频。
#### 3.1 编码
这一部分编码歌手独立和依赖的特征,包括内容、音高和响度特征,和歌手ID作为歌手依赖信息。
#### 3.2 解码
该阶段生成mel频谱图。我们首先训练教师模型并从中蒸馏出学生模型。教师模型使用EDM架构,学生模型通过一致性蒸馏实现一步采样。
### 4. 实验
实验在M4Singer和OpenSinger两个数据集上进行。所有音频重新采样至24kHz并标准化。训练于NVIDIA GTX 4090 GPU上进行,批量大小为48。对不同方法的重构能力和转换能力进行了评估。
### 5. 结论
CoMoSVC在高质量歌声转换中实现了显著的加速性能,实验结果表明其在转换性能和相似性上优于现有SOTA方法。