MIR:music information retrieval
机器听觉分为:
1. 语音信号处理与识别(传统热点)
2. 一般音频信号分析 (一般语音:除了语音信号以外的各种音频信号)
3. 基于内容的音乐音频信号分析(近期热点)
下面的总结是对于3且1990年后的成果做总结:
这个研究领域中比较重要的期 刊和会议包括
IEEE Transaction on Speech andAudio Processing;
IEEE Transaction on PatternAnalysis and Machine Intelligence;
IEEE(Transac—tion on)Multimedia;
IEEE Transaction on SignalProcessing;
IEEE International Conference onAcoustics, Speech, and Signal Processing(IC—ASSP) ;
IEEE International Conference on Multi—media and Expo(1CME)和 International Symposi—um on Music Information Retrieval (ISMIR)等。
1. 基于内容的音频/音乐分类与识别
1.1 针对音乐数据的自动分别与识别
1.1.1 针对不同音乐类型的自动分类
(1)两类分类问题:音乐中只包含两种不同的混合音乐类型的数据。
eg:摇滚乐和古典音乐的自动分类(MML);流行歌曲中的演唱部分和伴奏部分。
(2)多分类问题:音乐类数据为主的三层音频分类树。
(3)非监督分类(聚类分析)
1.1.2 基于内容的乐器(音色)自动分类与识别
(1)独立演奏下的乐器识别:大多是的乐器识别工作都是在该假设下完成的。
(2)混合情况下的乐器识别:多乐器混响的情况下进行机器识别较困难。研究较少。不过已经有人对二重奏、四重奏乐器识别问题做了特征比较研究。
1.1.3 歌手自动识别
解决该问题有助于歌曲泪多媒体数据的自动管理与检索。
(1) 无伴奏情况下的歌手识别
(2) 有伴奏情况下的歌手识别
1.2 包含音乐数据的一般音频分类
1.2.1 语音与音乐类数据的区分。 研究的文献资料比较多。
1.2.2 其他多分类问题。
有人这样分:音频信号=语音+非语音 非语音=音乐+环境声音+静音
也有人将音频信号分为七类:静音、环境噪音、单人语音、多人语音、音乐、 语音和音乐的混合信号、 噪音背景下的语音。
1.3 不包含音乐数据的一般音频分类研究较少。
1.4 总结
(1)对于一般音频和音乐的自动分类都用到了机器学习算法
(2) 模式识别的核心是特征的提取与选择,目前广泛使用的仍是低层次特征:MFCC、线性预测系数以及各种时域、频域特征及其统计量。之后需要提取更有效的特征。
2 基于内容的音频流分割
定义:将一段音频流数据按内容自动地分割为若干片段,使得每个片段在内容上具有一致性。是基于内容的音频和多媒体数据分析领域中一个非常重要的问题。
例如:电台的音频信号划分为广告、语音、古典音乐、流行歌曲、传统戏剧等等,实用价值非常大。
2.1 说话人分割
根据每个人的嗓音不同,可以将音频流中属于不同说话者的声音片都拿分割出来。
2.2 语音/音乐数据流分割
2.3 其他多类音频流分割
一类属于非监督的音频流分割方法(如通过检测音频特征值的突变点或对音频信号作局部相似性分析对音频流进行分割)
2.4 利用音频分析技术的试听多媒体数据分割
对于又有图像又有声音的多媒体数据,找出自己想要的片段。音频分割是为了辅助视频信息分割。
2.5 总结
2.5.1. 基于内容的音频流算法主要分为两种:
(1) 基于特征值的突变检测或音频流相似性分析
(2) 对于音频片段的监督分类
2.5.2. 对于分割算法,分割精度真是分割点检测率和虚假分割率都是很重要的指标,但是对于虚假分割性能分析研究较少。
3. 基于内容的音频数据自动检测
之前说的1分类与2分割都可以用于检索目的。
3.1 针对音乐类数据的自动检索
传统检索方法有依据曲名、演唱者、出版商等附属文字信息。已经不能满足用户快速查找音乐作品的需要了。
3.1.1 基于原曲局部相似性匹配检索
允许用户提供需要查找的某一片断,系统经过对于这个片段的处理,提取特征,在音乐中自动寻找到该音乐的完整文件或者与之内容相似的作品。
3.1.2 歌曲“哼唱”检索
是一种非常理想的基于内容的音乐检索方式,将用户哼唱的一段旋律作为查询内容。
3.1.3 基于情感的音乐检索
3.2 针对一般音频对象的自动检索
研究的较少。1.3中介绍的研究工作在这里都可以用。
3.3 小结
基于内容的音频检索核心在于如何提取特征并有效定义相似性度量。
这也是一个知识表达层面的难题。
目前仅处于实验研究阶段,和真正实用还有较大差距。
4. 基于内容的音乐分析
4.1 音乐作品结构分析
结构层次不一定和音乐学本身相关,可能是更适合于音乐信号的自动处理。
4.2 音乐自动摘要
对一段音乐信号生成一个高度简约有能反映出音乐特点的摘要信息。
因为音乐的高度复杂性,结构化、非语义性以及人们对音乐理解的主观性,如何生成摘要加大了难度。
4.3 音乐建模
十分困难,十分必要。可以用在数字音乐图书馆中的数据检索和查询。
4.4 乐谱的自动识别
乐谱自动识别与分析是将音乐演奏的声学信号所对应的乐谱信息自动翻译出来。对于信号处理的研究价值也非常大。现在多对于MIDI格式有较大的依赖性。
4.4.1 音高估计与音符识别
乐谱自动识别的基础。单乐器演奏的单个音符很准确。
4.4.2 节拍或节奏识别
如对四分之一音符的节拍信息进行检测。
4.4.3 旋律或和声提取
音乐作品中的旋律与和声是高级信息,从一般音频信号的音乐记录中提取出来十分困难。
4.4.4 复调音乐乐谱识别
复调乐谱识别:多乐器(包括演唱者)混响下的乐谱识别。近两年文献增多。
4.5 自动伴奏
一般研究者会给计算机提供机器刻度的乐谱,既包含乐队要演奏的的部分,也包含计算机要演奏的部分。计算机需要一边听乐队演奏,一边同步位置伴奏。这个的难点有二:1.演奏者的演出可能会随时变化,2.计算机及时准确了解演奏者的进度很困难。需要十分可靠、实时的自动识别与分析系统。
4.6 音乐情感分析
三个步骤:1. 乐谱自动识别;2. 音乐粗分析,在得到音符序列的基础上,结合乐理知识从音符序列中提取节奏、和声、旋律等音乐高级结构。3. 在此基础上设计一些列的启发式规则来达到音乐情感的提取。
4.7 小结
计算机音乐的分析与识别基本有两个思路:。一种自底向上,即分析法;一种是对设计到音乐理解层面的问题进行分析和研究。
5. 其他相关工作
5.1 计算机音乐合成
5.1.1 音效合成:利用计算机自动生成音乐演奏或一些特殊的效果和音色。
5.1.2 自动作曲:如可以经过分析音乐模式,进行重组,创造出新的音乐。
5.2 其他
还可以通过一个人歌声判断其是否为专业歌手。
判断是不是盗版音频。