真正的“音乐搜索”是可以通过音乐本身来搜索,也就是“用音乐搜索音乐”。我们经常会有这样的经历,某首歌只能记得很短的一段旋律,但是想不起来歌名,甚至连歌词都不太记得。在这样的情况下,怎样才能把歌曲找出来呢?这时,基于内容的音乐搜索就能派上用场了。
从根本上来说,基于内容的音乐搜索是通过语音识别的相关技术来实现的,我们可以称为音乐识别。与对人声的语音识别不一样的是,在音乐识别当中,核心的语音识别技术可以对语音内容给出有价值的信息,但是还有其他的音频数据需要处理。音乐搜索是以音乐为**的搜索,因此可以利用音乐的音符和旋律等音乐特性来进行识别,,然后再使用同样的特征在音乐数据库中进行搜索。音乐识别与通常的语音识别的迥异之处在于,音乐识别利用的是诸如节奏、音符、乐器等特征。节奏是可度量的节拍,是音乐中的一种周期特性和表示,而音乐的乐谱是典型的事件描述形式,如以起始时间、持续时间和一组声学参数来描述一个音乐事件。
从人耳听感上来说,对音乐的认知主要基于时间及频率两大因素。时间的分析��于振幅统计,分析的结果是现代音乐中的“拍子”。频率分析则获得音乐和声的基频,并将其作为搜索特征。对音乐的搜索主要分为三个步骤:首先对输入的音频进行处理,把音频文件分帧,对每帧进行离散傅立叶变换(DFT)或快速傅立叶变换(FFT),计算它的音频特征;然后对音频特征发生突然变化的地方进行自动分割,从音频文件中自动识别出语音、音乐、环境音响等,也可以从音乐文件中分割伴奏部分和演唱部分;*后是对音频文件的聚类和检索从音频文件中自动抽取的音频特征经过不同组合,形成特征向量来对音频文件进行标引,用各种算法计算音频文件之间的相似度,从而在音频特征向量空间里将特定的音频文件进行聚类。对音乐搜索,目前研究者们的主要研究方向集中在以下几个方面:
(1)集成的检索方法:把音频特征与视频搜索技术以及其他媒体特征相结合,以提高搜索的效率和能力;
(2)互联网上基于内容的音乐搜索:由于互联网的特性,互联网上的音乐搜索需要快速地对大规模音频库的浏览、搜索和连续音频内容的提交;
(3)长音频的浏览和搜索:结构化表示音频流,并设计出新形式的音频内容浏览界面,在时间轨迹上匹配一组特征;
(4)其他音频特征:继续研究有效的可区分性的听觉解析特征;
(5)用户的音频查询接口:让用户可以使用易用的接口来提交搜索,包括音频轨迹的可视表示、查询表达、交互和求精、结构化浏览等;
(6)音频索引:多维特征索引结构的建立,以满足大容量数据库和互联网搜索的要求。
……