Music Plagiarism Detection: Problem Formulation and a Segment-Based Solution
Authors: Seonghyeon Go, Yumin Kim
Institution: MIPPIA Inc.
arXiv: 2601.21260v2
https://arxiv.org/abs/2601.21260
音乐抄袭近年来成为高频法律与社会争议问题。现有 MIR 研究虽然涉及“相似性检测”,但缺乏对“音乐抄袭检测任务”本身的清晰定义,导致:
作者指出,当前许多工作使用人工构造数据进行训练(如 [3][4][5][6]),模型可能过拟合于“可计算相似性”,难以泛化到真实抄袭场景。
因此,本文的核心贡献是:
重新定义音乐抄袭检测任务,并提出一个基于片段转录(segment transcription)的系统框架。
作者明确区分了音乐抄袭检测与两个相近任务:
2.1 Cover Song Identification (CSI)
目标:判断整首歌是否为翻唱版本
典型方法:
Conformer 结构(CoverHunter)[11]
2.2 Audio Fingerprinting
常用于流媒体识别 [12]
2.3 抄袭检测的特殊性
作者指出音乐抄袭检测具有两个核心特征:
① 局部相似性(Partial Similarity)
抄袭往往发生在某一小段,而不是整首歌。
② 选择性音乐元素(Selective Element Similarity)
例如: 旋律相同,但编曲、混音、音色完全不同,因此不能只依赖声学特征。
2.4 正式任务定义
给定一首完整歌曲 A:
Task 1:从大规模数据库中找出可能抄袭 A 的歌曲 A′
Task 2:指出 A 与 A′ 哪些片段相似
Task 3:解释相似原因(旋律、和声、节奏等)
流程包括:
Raw Audio
↓
Segment Transcription
↓
Segment-level Similarity
↓
Song-level Filtering
3.1 Music Segment Transcription
将音频转为结构化片段表示。
使用模型包括:
All-in-one model:结构分析 [15]
AST:人声转录 [16]
SheetSage:旋律转录 [17]
Harmony Transformer:和声转录 [18]
每个片段包含:
Segment embedding
Metadata(调性、和弦、歌词、结构)
片段长度:4 小节
3.2 片段相似度计算方法
方法一:基于音乐知识的算法(Music-domain similarity)
计算:
Onset 节奏相似度
Chord 相似度
加权组合得到最终分数。
优点: 可解释(支持 Task 3)
缺点:算法方法较传统;难以理论证明有效性
方法二:深度学习方法
Pianoroll CNN + Siamese [3]
Multimodal 双编码器 + cross-attention
作者指出:
MERT 可能受“选择性元素问题”影响,而基于转录的 CNN 方法更鲁棒。
4.1 SMP Dataset(Similar Music Pair)
论文新构建数据集 :
包含真实抄袭与翻唱案例
每对包含时间戳标注
每个相似段落用 acoustic index 标记
覆盖多种音乐类型
4.2 Covers80 Dataset (80 个翻唱组)
来源:Ellis 2007 [20]
用于:
与 CSI 方法对比
5.1 实验设置
GPU:NVIDIA RTX 5090
学习率:1e-4
Batch size:32
训练轮数:100
优化器:Adam
5-fold 训练
片段长度:4 bars
5.2 评估指标
片段级(Task 2)
指标:Rec.1s@k
定义:若检索到的片段时间戳与 GT 时间误差 ≤1 秒,视为命中。
实验设置三种规模:
SMP 全片段
Full Indices(包含 Covers80)
歌曲级(Task 1)
通过 top-20 片段加权投票。
评估指标:
MR1(第一个正确结果的平均排名)
6.1 片段级结果(Table 2 2601.21260v2)

趋势:
多模态方法表现未达预期(可能数据不足)
音乐规则方法较稳定
问题:
随着数据库规模扩大,性能显著下降。
说明:
大规模 segment retrieval 可扩展性存在挑战
6.2 歌曲级结果(Table 3 2601.21260v2)
与 CSI 方法对比:
解释:
CSI 优化的是整首相似性,
而抄袭检测强调精确片段定位。
作者强调:
其系统在“可解释性”与“时间定位精度”上具有优势。
本文贡献:
提出基于 segment transcription 的完整 pipeline
构建真实案例 SMP 数据集
验证 segment-based 框架可行
作者指出该方向仍处于早期阶段。
未来方向:
专用过滤算法
规模扩展能力优化
更先进 MIR 模型迁移
主题 文献
Siamese CNN 抄袭检测 Park et al., 2022 [3]
MelodySim Lu et al., 2025 [4]
NLP-based 抄袭检测 Malandrino et al., 2022 [5]
Audio Fingerprinting Chang et al., 2021 [12]
Bytecover3 Du et al., 2023 [10]
CoverHunter Liu et al., 2023 [11]
MERT Li et al., 2023 [19]
SheetSage Donahue et al., 2022 [17]
Harmony Transformer Chen et al., 2019 [18]
Covers80 Ellis, 2007 [20]
这篇论文的真正创新点在于:
将“音乐抄袭检测”正式从“音乐相似性任务”中剥离出来,给出清晰任务结构。
方法层面不是 SOTA,但:
强调可解释性
强调 segment-level 结构建模
对于 MIR 社区,这是一个问题建模层面的贡献。