声音场景/事件分析的一个小介绍[论文阅读]

一、背景
1.1 范畴
声音场景与事件检测属于计算机听觉范畴。和语音识别、说话人识别以及音乐信息检索息息相关。
1.2 问题
面对的问题有声音源多变，相应的声音特征也千变万化，尤其是在生物声学方面。另外，在实际场景中，多声源的声音同时发声，还会出现发射的情况，这样就更复杂了。

二、分类
主要分为两类，声音场景分类（ASC）与声音事件（AER）检测。ASC主要将声音分为不同的场景，如地铁站、吵闹的街道等等。AER对于声音的划分更为精确，如敲门声、枪击声、人群说话声，此外还有一些更特殊的分类，如海洋哺乳动物声音、鸟叫声等生物声音。

三、应用技术
本篇文章主要整理了ASC中的7篇，AER中的10篇。还有在动物声音方面的3篇，鸟叫识别、鸟行为分析以及鸡病检测。这些文章总体体现了该领域的三种趋势。
3.1 趋势一无监督特征学习
NMF+deep audo-encoder/spheical k-means 在鸟行为识别上
NMF: extensional bag-of-features framework using codebook leanning and temporalmodelling 应用在表示不同的声音场景上。
Probabilistic counterpart of NMF: supervised representation learning and Probabilistic Lantent Component Analysis 应用在场景检测上。
3.2 趋势二深度学习
Fully DNN framework 用在音频标注和无监督特征学习上
Feed-forward fully connected DNN 用在ASC特征提取上
获取上下文信息： CNN 用在特征提取和表示学习上； CNN+RNN用在声音事件识别上；TDNN（Time-Delay Neural Networks）用在声音场景和时间识别上。
3.3 趋势三使用稀疏信息或继承融合概念来提高识别的鲁棒性
融合方面：继承分类器来合并时域和频域上的信息；使用多模态信息；
稀疏信息方面：文本系数频谱特征；二元场景分析技巧等

Reference
Prerna Arora, Reinhold Haeb-Umbach, “A study on transfer learning for acoustic event detection in a real life scenario”, Multimedia Signal Processing (MMSP) 2017 IEEE 19th International Workshop on, pp. 1-6, 2017, ISSN 2473-3628.

厉害

谢谢表扬！

您好，请问可以共享下整理的文献吗？谢谢啦~

Taste Stars

TASTE STARS

声音场景/事件分析的一个小介绍[论文阅读]

Leave a Comment 取消回复

About Author

JOANNA JIANG

心愿

近期文章

分类