https://arxiv.org/abs/2403.03947
Can Audio Reveal Music Performance Difficulty? Insights from the Piano Syllabus Dataset
- 🎶 本研究通过引入PSyllabus数据集,首次解决了从音频录音中估计音乐演奏难度的挑战,该数据集包含7,901首钢琴曲,涵盖11个难度级别。
- 🎹 团队提出了一种基于CRNN的识别框架,能够处理CQT和piano-roll等不同音频输入表示,并发现piano-roll表示以及早期的多模态融合(MM)在难度估计任务中表现最佳。
- 📈 广泛的实验证明了多任务学习(特别是音乐时代识别)能提高模型泛化能力,同时整合多重演奏结果能增强预测的稳健性,为音乐教育和MIR领域提供了宝贵见解。

论文提出了一种利用音频记录自动估计音乐演奏难度的方法,旨在弥补现有音乐信息检索 (MIR) 领域中主要关注符号乐谱或乐谱图像的空白。
I. 引言与背景
在音乐教育领域,自动评估音乐作品的演奏难度对于个性化课程设计至关重要。尽管手动评估耗时且主观,但专业人士通常能在粗略范围内达成共识。MIR 领域的研究者已在此方面投入十余年努力,但主要集中于钢琴音乐,并使用如 MusicXML 格式的符号乐谱或乐谱图像作为信息源。现有的解决方案多将此任务视为分类问题,也有基于规则或分析的方法。然而,鉴于音乐的多模态特性,当前难度估计领域对记谱音乐的偏重限制了其应用范围。
本文旨在通过直接分析音频记录来填补这一空白,具有重要的教学和 MIR 意义。该方法面临三个核心挑战:
1. 缺乏带有难度标签的音频数据集。
2. 获取适合分析的音频信号表示。
3. 设计能够处理不同音频表示(无论是单模态还是多模态)的深度学习框架。
II. PSyllabus 数据集
为了解决数据稀缺问题,本文推出了 PSyllabus 数据集,这是首个基于音频的难度估计数据集。该数据集从 Piano Syllabus 社区收集,经过精心策划和清洗:
* 数据收集与整理: 从 Piano Syllabus 网站的 12,000 首作品中,通过 YouTube 检索到 9,829 首。通过过滤低质量录音、超出范围的曲目(如二重奏)、以及去除具有多个难度等级的相同作品后,剩余 8,426 首。为了解决同一录音在作品中难度不一致(例如,肖斯塔科维奇的 Op. 34 前奏曲中的不同难度)或标注与实际视频不符(例如,奏鸣曲的完整标注链接到单乐章视频)的问题,作者利用 ChatGPT (version 4) 通过提示工程(如 Fig. 2 和 Fig. 3 所示)验证了标注的一致性。最终,PSyllabus 数据集包含 7,901 首钢琴作品。
* 数据分析与统计:
* PSyllabus 是目前最大的难度估计数据集,包含 7,901 首作品,涵盖 11 个难度等级,来自 1,233 位作曲家,且平均不平衡比率 (Average Imbalance Ratio, AIR) 接近 1,表明类别分布均衡。
* 作品的音乐时代分布显示,浪漫主义时期和 20 世纪西方古典音乐的作品最多,现代时期也有显著存在。
* 作曲家分布呈长尾效应,D. Scarlatti、F. Liszt、J. S. Bach 和 F. Chopin 等少数作曲家占比较大,但也有大量其他作曲家的作品。
* 难度等级分布方面,男性作曲家的作品覆盖所有等级,在 10 级作品最多;女性作曲家的作品则集中在 3 级左右,但女性作曲家作品占比超过 14%,这对于通常被低估的女性作曲家群体来说是积极的。
* 通过 Kendall rank correlation coefficient (\tau_c) 与其他知名考试委员会的难度排名(如 ABRSM、Trinity 等)进行比较,PSyllabus 与其他排名的一致性很高,平均 \tau_c = 0.81,证明了其标注的可靠性。
* 基准数据集:
* Hidden Voices 数据集: 包含 57 首作品,7 个难度等级,主要来自被低估的黑人女性作曲家。
* Multiple Performances 数据集: 包含 55 首作品(每个难度等级一首,每首有 5 个不同演奏版本),用于评估不同演奏版本融合对难度预测的影响。
III. 方法论
难度估计任务被建模为序数分类(Ordinal Classification),也被称为序数回归(Ordinal Regression)。
* 任务形式化: 给定输入表示 X(声学录音)和目标难度空间 Y,模型旨在近似函数 f: X \to Y。对于一个数据点 x_i \in X,目标难度级别 C 表示为一个多标签向量 y_i = [\lambda_1, \ldots, \lambda_C],其中 \lambda_j \in {0, 1},且 \lambda_j \leq \lambda_{j-1} 对于所有 j > 1。这种编码确保了序数关系。从多标签向量 y_i 映射到难度级别 l 的函数定义为:$\zeta(y_i) = \text{argmax}{l \in \mathbb{N} \cap [1, C]}(|\lambda_j = 1 \forall j \leq l| = l)$。
* 输入表示: 论文比较了两种音频表示方法:
1. 谱中层表示 (Spectral Mid-level Representation): 采用 Constant-Q Transform (CQT) [35],具有 88 个音高分箱 (bins),每八度 12 个音高分箱,跳跃长度 (hop length) 为 160 采样点。
2. 钢琴卷帘表示 (Piano Roll Representation): 通过 Kong et al. [24] 预训练在 Maestro 数据集 [38] 上的自动音乐转录 (Automatic Music Transcription, AMT) 方法获得。它包含两类矩阵:逐帧的音高激活 (frame-wise pitch activations)(包含偏移信息)和起始音信息 (onset information)。输出空间固定为 88 个音符。
两种表示形式均为 X \in \mathbb{R}^{b \times t \times c},其中 b 是音高分箱数, t 是时间步长,c 是通道数(CQT 为 1,钢琴卷帘为 2)。所有表示在时间维度上被后处理并下采样至 5 帧/秒。
* 识别框架: 采用带注意力机制的卷积循环神经网络 (Convolutional-Recurrent Neural Network, CRNN),如图 8 所示。
* 模型接收输入 x \in \mathbb{R}^{b \times t \times c}。
* 初始卷积网络 (CNN): 包含残差连接,提取特征图 x_f \in \mathbb{R}^{b’ \times t’ \times c’}。
* 重塑: 特征图被重塑为序列 $F={F^{t’}{0},\ldots,F^{t’}{n}}\in\mathbb{R}^{t’\times(b’\cdot c’)}$。
* 循环阶段 (Recurrent Stage): 由 GRU 层处理 F,输出 $Z={Z^{t’}{0}, \ldots, Z^{t’}{n}}\in\mathbb{R}^{t’\times m}(m$ 是嵌入大小)。
* 上下文注意力 (Context Attention): 将 Z 序列总结为单个向量 R \in \mathbb{R}^m。
* 分类器: 基于神经网络的线性分类器,输出 C 维多标签向量 \hat{y} 表示估计的难度。
* 推理阶段,对 \hat{y} 的每个元素应用 0.5 的阈值。
* 多任务学习:如果同时使用多个任务,模型将包含多个分类/回归头。
* 多模态方法:
* 早期融合 (Early-fusion, MM): 将 CQT $x{cqt} \in \mathbb{R}^{b \times t \times 1}和钢琴卷帘x_{pr} \in \mathbb{R}^{b \times t \times 2}在通道层面进行拼接,生成多模态编码x_{mm} \in \mathbb{R}^{b \times t \times 3}$,然后由上述 CRNN 框架处理。
* 后期融合 (Late-fusion, ENSEMBLE): 为 CQT 和钢琴卷帘分别训练单独的模型,然后在推理时将它们的预测结果平均,即 $\hat{y}{ENSEMBLE} = (\hat{y}{CQT} + \hat{y}_{PR}) / 2$。
IV. 实验设置
* 数据集: PSyllabus 用于训练和评估,Hidden Voices 和 Multiple Performances 仅用于测试。
* 交叉验证: 5 折交叉验证,60% 训练集,其余为验证集和测试集。
* 模型架构: CNN 包含 3 个残差块(3×3 卷积层、批量归一化、ReLU 激活、最大池化、Dropout)。GRU 层由两个双向层组成。上下文注意力机制有 4 个头。
* 训练细节:
* 使用均方误差 (MSE) 作为损失函数。
* 批处理大小 (batch size) 为 16。
* 优化器为 Adam,学习率为 10^{-3}。
* 采用梯度裁剪 (gradient clipping) 和权重衰减 (weight decay) 防止过拟合。
* 早停机制 (early-stopping) 监控验证集的准确率 (Acc) 和 MSE,耐心值为 50 个 epoch。
* 多任务训练:作曲家识别使用分类交叉熵损失;音乐时代/时期估计和额外难度排名信息使用与主任务相同的序数损失。
* 评估指标: 准确率 (Acc)、均方误差 (MSE) 和 Kendall Rank Correlation (\tau_c)。

* B. 多任务训练方案 (Table III):
* 音乐时代分类任务的整合在所有训练场景中均取得了最佳性能提升,尤其是在准确率方面。
* 作曲家识别任务未能带来任何性能提升,甚至低于单任务基线,这可能是由于不同作曲家的多样化风格阻碍了模型的泛化能力。
* 多个排名任务的整合结果不一,虽有小幅提升,但不如时代分类任务显著,与一些乐谱图像研究的结论相悖。
* 1) 音乐时代对难度估计的影响 (Table IV):
* 将音乐时代识别作为多任务方法的一部分,在巴洛克、古典、浪漫和现代时期均提高了模型的性能,表明时代特定的特征在音乐难度预测中具有重要意义。
VI. 女性作曲家案例研究

* A. 模型在女性作曲家作品上的表现 (Table V):
* MM 模型在混合性别数据上表现最佳,但测试女性作曲家作品时性能显著下降。尽管 MSE 较低,但 MSE 和准确率的标准差显著较高。这暗示模型对女性作曲家作品的预测在粗粒度上与真实值接近,但在细粒度上存在偏差。这可能源于音乐特征的固有差异或难度标注中存在的潜在偏见。
VII. 多重演奏案例研究
本节研究了利用音乐作品的不同演奏版本(由不同演奏者演奏的多个录音)来提高整体识别结果的有效性。假设对给定音乐作品的不同演奏版本的难度得分进行决策级融合 (decision-level fusion) 可以获得更稳健的估计。
* 方法: 对于每首作品的 5 个随机演奏版本,计算难度估计集合,并评估均值 (mean)、中位数 (median) 和众数 (mode) 作为整合这些独立估计的统计指标。

* 结果 (Table VII):
* 均值操作符是最佳的整合策略,在大多数情况下获得了最佳识别率。
* 中位数操作符也表现良好,但不如均值。
* 众数操作符在整合独立估计方面没有优势。
* 所有提出的整合策略均优于随机选择基线,表明特定的整合策略对于任务的成功至关重要。
* 多任务(含音乐时代)在此案例研究中未显示出显著优势。
VIII. 结论与未来工作
本文旨在弥合音乐难度估计领域中音频分析的空白,并做出了两项主要贡献:PSyllabus 数据集(首个基于音频的难度估计数据集)以及一个能够处理多种音频输入表示的识别框架。广泛的实验证明了该任务的可行性以及模型在零样本识别场景中的鲁棒性。所有代码、模型和数据均已公开,以促进音乐教育领域的协作。
未来工作计划:
* 通过提供作品的真实转录数据来研究该难度估计框架的性能上限。
* 考虑采用表示学习技术来更好地捕捉钢琴演奏特征。
* 探索更细粒度的难度估计(例如,音乐动机、段落级别),而非目前的全局得分。
* 将数据集与其他模态(如符号音乐表示、乐谱图像和文本描述)对齐,以创建多模态数据集。
* 探索可解释性框架,以便音乐教育者可以基于模型提供有价值的课程开发见解。
* 让教育者参与到任务中,以确保解决方案的实用性和影响力。