曾金芳,白冰,徐林涛(湘潭大学物理与光电工程学院,湖南 湘潭 411105)
摘 要:针对低信噪比下的环境声响辨认作用欠安的情况,提出一种不同信噪比布景下的环境声响辨认办法。
以伽玛通(Gammatone)改换的谱图为目标提取特征,生成灰度频谱图后映射成3种单色图,别离提取各单色图的扇形投影特征,在对得到的各方向的投影特征进行离散小波改换得到特征矩阵,并结合改善的最小均方差错(IMMSE)声响增强算法作为前端处理以减小噪声搅扰,最终,使用支撑向量机对带噪声响进行分类辨认。试验成果标明:在-5dB的低噪布景下仍能获得较高辨认率。
要害词:最小均方差错;声响辨认;声响增强;谱图特征;扇形投影;支撑向量机
*基金项目:湖南省自然科学基金(2018JJ3486);湘潭大学校级科研项目(16XZX02);湘潭大学博士发动基金项目(15QDZ28)
0 导言
声响信号与人类的日子密切相关,声响信号不受光线和视界影响而且需求的存储空间及处理难度低于视频信号,通过对环境声响信号进行辨认可以获取丰厚的信息,公共场所的声响事情辨认可以有用地提醒该环境下的事情情况,可以补偿光线缺乏、受遮挡情况下的监控作用,声响辨认技能广泛应用于安全监控、声响事情盯梢定位等范畴,提取鲁棒性较好的声响特征 [1] ,有利于声响辨认技能在实践环境中的适用性,所以布景噪声下的声响辨认研讨具有较高的实用价值。
在声响辨认过程中,提取适宜的特征向量对辨认作用起要害的作用,声响辨认的大多数的特征提取办法来源于语音辨认 [2] ,常用的提取办法有Mel频率倒谱参数(MFCC)、短时能量、线性猜测倒谱系数(LPCC) [3]等。近期的环境声响辨认的研讨主要有使用匹配追寻(MP)算法获得有用的时频特征,在MFCC特征的基础上使用原子字典进行特征挑选,发生灵敏、直观的特征向量然后用支撑向量机(SVM)进行分类辨认 [4] 。以上办法尽管简略有用,但实在的环境中存在各种布景噪声导致其辨认作用显着变差。Dennis等提出子带功率散布(SPD)的特征提取来进行声响事情分类 [5] ,在声谱图的基础上提出子带能量散布对声响事情和噪声进行区别,使用图画处理的办法进行伪上色处理提取谱图的中心矩特征 [5] ,该办法在布景噪声下的辨认具有必定有用性但在信噪比较低的情况下的辨认作用有待进步。
实践环境中遍及存在着各种布景噪声,在前端处理中选用声响增强算法能改善辨认作用,本文提出声谱图的扇形投影特征(Spectrogram Fan projection,SFP)算法。首先将环境声响信号转化为声谱图,然后将得到的声谱图进行扇形投影改换,得到各方向的投影系数组成特征向量,最终使用SVM分类器对特征向量进行分类辨认。关于带噪声信号,提出改善的最小均方差错估量(IMMSE)算法作为前端处理来到达声信号的去噪作用。
1 声响增强算法
1.1 改善的logM M SE算法
考虑到环境声响噪声对错平稳的,传统的对数谱最小均方差错(Log-spectral AmplitudeMMSE,LSA-MMSE)能有针对性的减小噪声,其要害在于能否精确地估量先验信噪比, 本文选用改善的最小递归均匀算法来估量噪声方差,结合logMMSE来到达声响增强作用,试验证明该办法对声响增强和消除“音乐噪声”有较好的作用。
树立加性噪声模型,设带噪声信号为:
式中,y(n)标明带噪声信号; x(n) 标明无噪声信号;d(n) 标明噪声信号;该算法从带噪声信号 y(n) 中估量出无噪声信号 x(n) 。纯洁信号经短时傅里叶改换得到第k个频谱重量:Ak和Y(k) 。
由文献[6]中信号的估量可标明为带噪信号与增益函数的乘积:
式中, λx(k) 、 λd(k) 别离标明无噪信号和噪声信号的第k个频谱重量的方差; ξ k 、 γ k 别离标明先验信噪比和后验信噪比,先验信噪比是第k个频谱重量的实践信噪比,后验信噪比是参加噪声后第k个频谱重量所测得的信噪比。
1.2 IM M SE算法的完成
本文使用改善的最小值束缚的递归均匀(IMCRA)算法估量噪声方差。该算法使用滑润参数对噪声方差进行接连估量,滑润参数是时变参数,该算法是声信号中声响存在的概率的递归均匀算法。声响不存在: H 0k 和声响存在:H 1k 的噪声估量标明为:
式中,i、k别离标明帧数和频点数,依据递归算法的通用办法 [7] ,可将噪声估量标明为:
式(6)中的噪声估量标明为前一帧的噪声估量与当时带噪频谱的加权均匀,式中, αd(i,k)=α+(1-α)p^(i,k),标明时频相关的滑润因子,使用存在声响的条件概率 p∧( i,k ) 来核算滑润因子, 存在声响的条件概率p(i,k) 使用声信号功率谱与其部分最小值之比Sr (i,k) 作为阈值判别,依据递归算法的通用办法同理可得声信号的递归功率谱S(i ,k) 如下:
声响存在概率的估量使用时域滑润递归求得:
由于所取声响样本频率散布规模较广,故选用多阈值函数 δ ( k ) 选用频率相关函数来标明:
式中,fs为采样频率。结合公式所求得滑润因子α d ( i,k ) ,使用式(6),即可更新噪声功率谱估量,得到更新的噪声功率谱估量后,使用式(3)可求得增益函数,以此估量纯洁声信号。
将 提 出 的 I M M S E 增 强 算 法 与 多 频 带 谱 减 法(Multiband Spectral Subtraction,MSS)比照,各增强算法的时域波形图如图1所示。其间横纵坐标别离标明信号采样点数和幅值。图1可了解IMMSE算法去噪作用较好。
为进一步查验不同增强算法的去噪作用,对各增强算法检测其输出信噪比,依据检测带噪声响信号的目标界说:
式中,核算出SNR的值越大,标明声响的质量越高,去噪作用越好,各增强算法的输出信噪比如表1所示。
2 特征提取
2.1 提取子带能量谱图
声谱图比较于传统的时域特征能表征愈加丰厚的声响信息,选用声谱图作为特征能一起剖析声响的时域和频域特征,本文选用SPD谱图并对其进行增强改善,使声响的功率谱散布更显着。选用 Gammatone滤波器组生成的声谱图作为时频剖析。参数设置为:100组中心频率为50 Hz到fs/2 Hz。将SPD归一化到对数域,表达式为:
对数域的功率谱紧缩了谱图的动态规模,以增强SPD中的频谱功率较高的像素点。谱图G(t,f)中像素点值的规模是固定的,SPD可标明为:
式中,b标明频谱功率;f标明频率;t标明样本的时刻;试验中取b的值为100,1 b 标明指示函数,根据“键盘敲击声”的SPD如图2所示。
2.2 扇形投影特征
扇形投影 [7] 特用于检测物体图画内部结构,核算图画沿指定方向由一点发出点光束,发散成一个扇形区域的投影改换,投影改换是图画沿x-y平面中指定方向的线积分。谱图H(b,f)的扇形投影改换的原理如下:
式中,g (ρ,θ) 标明通过扇形投影改换后重构的图画。
对每个声响样本的谱图H(b,f)进行扇形投影改换,视点 α 标明扇形投影的旋转视点,取值规模为[0,360],规则旋转视点从x轴按逆时针的方向旋转每个视点的投影能将图画转换成一维的投影系数,图画各方向的投影系数组成的特征矩阵保留了图画的信息的一起降低了图画的参数巨细,可以进步辨认功率。
3 试验设计与成果剖析
3.1 声响数据集
试验选用16类环境声响(键盘打字声、脚步声、锯子声等),为保证试验数据的独立性,同类声响取自不同声响片段,一类包含20个样本,一共320个样本,具有较高信噪比,试验将其作为纯洁声响样本,声响样本均来自于Freesound [16] 声响数据库,样本采样率为44.1kHz,量化精度为16 bit,单个样本长度2~3 s。试验中,随机选取每类样本的一半作为训练样本,另一半作为测验样本,依照信噪比20 dB、10 dB、0 dB、-5 dB作为测验。
3.2 试验参数
声响样本的预处理环节,对各声响样本分帧加窗处理,取帧长20 ms、帧移10 ms、窗函数选用汉明窗。
1)本文提出的SFP算法,扇形投影的旋转视点,在[0,360]中以15°为步长,取24个方向的投影改换。
2) MFCC算法,选用32组Mel滤波器组,每一帧提取13个倒谱系数构成MFCC特征。
3)关于SPD [5] 算法,选用64组Gammatone滤波器,提取2、3阶中心矩。
4)正交匹配追寻(OMP) [7] 算法,对声响信号进行稀少重构,信号重构后提取MFCC特征,组成OMP的复合特征。
5)选用支撑向量机(SVM)作为分类器,选用多分类的办法树立分类器。
3.3 试验成果与剖析
将SFP与SPD、MFCC、OMP、几种常用的声响辨认算法进行试验比照。4种声响辨认算法在不同噪声布景下的辨认率如表2所示。纯洁布景下,辨认率如表3所示。本文的SFP算法在4种噪声下有较高辨认率,特别是信噪比为-5 dB和0 dB的低噪条件下,在-5 dB的噪声情况下,最高比SPD算法高17.51%,均匀辨认率最高高出7.9%,比OMP和MFCC高出27.63%以上,均匀辨认率如图3所示。尽管文章算法在信噪比较高条件下的提高较少,但在低信噪比下比较其他算法能获得较高辨认率。
将提出的IMMSE增强算法与其他常用的声响增强算法进行比较,在4种不同的布景噪声的低噪条件下,信噪比别离取-5 dB、0 dB、5 dB、10 dB。
如图6所示为0dB的说话噪声布景下不同声响增强算法辨认率。噪声条件下,本文的IMMSE的辨认率高于其他增强算法,在-5dB和0 dB的低信噪比条件下不增强办法的辨认率比增强后的辨认率低,所以低信噪比条件下选用增强算法是可行的,阐明SFP算法自身具有较好的抗噪性,试验证明SFP算法结合IMMSE增强算法在各种布景噪声下能获得较好的辨认作用,适用于实在环境下的声响辨认。
4 定论
针对实在环境的低噪条件下的声响辨认,提出SFP算法,将谱图的扇形投影作为特征提取办法结合IMMSE声响增强算法,试验标明,在无布景噪声条件下,辨认率到达96.72%;低噪条件下,均匀辨认率能到达73.05%;本文的办法噪声条件下具有较好鲁棒性,比照现有的SPD、OMP等算法,分类辨认作用更好。
参考文献
[1] REN J, JIANG X, YUAN J, et al. Sound-EventClassification Using Robust Texture Features for RobotHearing[J].IEEE Transactions on Multimedia,2017, (99):1-1.
[2] BRADLOW A R, ALEXANDER J A. Semantic andphonetic enhancements for speech-in-noise recognition bynative and non-native listeners[J].Journal of the AcousticalSociety of America,2016,121(4):2339-49.
[3] JIAN-Chao Y U, ZHANG R L. Speaker recognitionmethod using MFCC and LPCC features[J].ComputerEngineering & Design,2009,30(5):1189-1191.
[4] CHU S, NARAYANAN S, KUO C CJ. Environmentalsound recognition with time-frequency audio features[M].
Institute of Electrical and Electronics Engineers Inc. The,2009.
[5] DENNIS J, TRAN H D, CHNG E S. ImageFeature Representation of the Subband PowerDistribution for Robust Sound Event Classification[J].IEEE Transactions on Audio Speech & LanguageProcessing,2012,21(2):367-377.
[6] SHIH J L, CHEN L H. Colour image retrieval based onprimitives of colour moments[J].IEE Proceedings-Vision,Image and Signal Processing,2002,149(6):370-376.
[7] NARASIMHADHAN A V, SHARMA A, MISTRY D. ImageReconstruction from Fan-Beam Projections without Back-Projection Weight in a 2-D Dynamic CT: Compensationof Time-Dependent Rotational, Uniform Scaling andTranslational Deformations[J].Open Journal of MedicalImaging, 2013, 3(4):136-143.
[8] SOUSSEN C, GRIBONVAL R, IDIER J, et al.JointK-Step Analysis of Orthogonal Matching Pursuit andOrthogonal Least Squares[J].IEEE Transactions onInformation Theory,2013,59(5):3158-3174.
本文来源于科技期刊《电子产品世界》2019年第9期第34页,欢迎您写论文时引证,并注明出处。