1. CSI(Cover Song identification)定义:
多版本音乐可能会在音质、速度、结构、语言等方面有很多不同。
任务:给定一段音乐作为查询,从数据库中返回一个按相似度排序的歌曲列表.
与前几天说的音频指纹的区别:通常认为音乐流派分类是低相似性要求,音频指纹是高相似性要求,而多版本音乐识别则是中等程度的相似性要求
工作基础与难度:
基础:同源音乐的不同版本在主旋律及和声进行方面一般会保持一致或接近一致
难度:但各个版本音乐在其它重要的音乐要素如音色、速度、节奏、基调、歌词、和声、甚至整体结构上通常会存在差异甚至完全不同。
2. 关键技术概述
2.1 研究思路:
(1)从音乐认知学方面出发,该方向由于认知学方面的限制,具有很大的度,研究成果不是很多.
(2)另一种是目前大多数多版本音乐识别.算法所采用的基本思想.即从整首音乐或者片段中提取表现比较稳定的一些音乐要素作为稳定特征,然后在各个版本间进行匹配计算其相似性
2.2 鲁棒性要求:由于几种重要特性如音色、基调、和声、速度、时序、结构等在音乐的不同版本下都可能发生变化,故要得到正确的结果多版本音乐识别系统就必须对这些变化的音乐要素具有高度的鲁棒性
2.3 特征选择;
2.3.1 又一次介绍Chroma(Pich classes Profiles)
优:考虑了和声的存在,对噪声和非音调声音鲁棒,与绝对音调、音色及演奏乐器、音量
和力度无关
缺: 尽管如此,速度、基调、结构这三种要素由于在音乐各版本之间变化较大,依靠音频特征本身并不能克服它们的改变。
中层旋律特征就是Chroma,它通常在短时帧(如lOOms)内逐帧计算,将给定频带范围内(如200-2000Hz)的频谱能量量化成12个与八度无关的半阶音符类(C、C#、D、D#、E、F、F#、G、G#、A、A#、B)
Chl’oma特征代表单音调或复调音乐的音阶类分布,考虑了和声的存在,对噪声和非音调声音鲁棒,与绝对音调、音色及演奏乐器、音量和力度无关
2.3.2 为了克服以上的缺点,采取五个功能模块即:特征提取、基调不变性、速度不变性、结
构不变性以及最后的相似度计算分别阐述多版本音乐识别的系统功能
2.3.3 特征提取:
(1)和声:音调(Tonality)通常用于表示一系列音高(Pitch)之间的关系,从而形成旋律线或和声.同一音乐作品的不同版本间通常会保持与基调无关且几乎一样的主旋律线或和声进行,因此音调或和声内容就成为多版本音乐识别首要考虑的鲁棒中层特征。
(2)旋律:它是音乐最重要的要素之一。
(3)中层旋律特征:Chroma/和弦序列
和弦序列介绍:
两个步骤:
1)将音频按短时帧变换成特征矢量例如PCP;
2)使用模板匹配或隐马尔可夫模型HMM的Viterbi算法从这些矢量中倒推出最可能的和弦序列。
通常用于训练的常用和弦模板有12个大调和12个小调共24个和弦,也有些研究集成了更复杂的和弦种类如七和弦、九和弦、增和弦、减和弦等 .相比于计算简单的PCP特征,和弦序列估计本身就是一个尚未解决的难题,到目前为止准确率不高且未经大规模实验验证.
(4)速度不变性
速度改变的原因:版本不同速度不同波形不同
保持速度不变性的方法:
1) 一个直观的办法就是对两首长度不同的音乐信号通过重采样进行扩展或压缩,变为等长后再逐帧划分并计算特征矢量相似性.由于重采样影响音频质量,会给特征矢量的计算带来一定误差。
2)第二个方法是如果能精确提取符号形式的旋律音符序列,可以采用两个连续音符间隔的比例作为相对速度表示.如果和相对音调编码结合,就可以得到一个对基调和速度都不变的表示.但是。提取多声部旋律本身就是一个重大难题,因此本方法目前还无法实用.
3)拍序列对齐法.首先对不同版本的音乐分别估计速度和节拍.因节拍位置一般属于听觉感知重要的音乐边缘,所以在大多数失真下仍可以保持稳定。将节拍序列对齐后即可得到两首歌之间帧与帧的对应关系,进而在对齐的音频帧中计算旋律、PCP等音频描述子或和弦序列
Therefore
动态规划技术尤其是动态时间规整DTW(Dynamic TimeWarping)和编辑距离。由于其在某些邻域约束下能自动发现最优对齐路径的能力,已在多版本音乐识别中得到了广泛的应用.
(5) 结构不变性
提取出重复最多的部分作为摘要(Mu.sic Summary)代表该段音乐。如果两段音乐的摘要被判断为相似,那么就认为整段音乐也是相似的.重复性最高的部分未必就是最具代表性的,因此采用这种策略也具有很大的局限性.
2.4 相似性计算:
传统的:相似性度量如互相关、Frobenius范数、欧氏距离、点积
基于动态规划的系统:编辑距离和DTW本身输出的相似度.基于局部对齐技术的算法经常使用匹配子串的长度作为相似性度量.
还有个别:定义特殊的相似性度量如归一化压缩距离NCD(Normalized Compression distance)、HMM的最可能隐含状态序列等
3. 下一步计划:
下一步的研究方向是提取更加精确的旋律或和弦序列表示,采用基于矩阵理论的距离度量、或者机器学习领域的分类、聚类等方法进行版本识别。