一、运用远景
虚拟盘绕声技能是差异于多通道盘绕声技能的另一类声重放体系,它运用声源到双耳的传递函数(HRTF)经过双耳(即空间两点)声信号的传输与重放,完结声响空间信息的传输与重放,这种体系只需两路独立的传输信号和重放扬声器(或耳机) ,因而在一些不便于装置多通道放声体系的环境下,对改善电视机、手机、MP3/MP4等等电子产品的音频声效有很大的协助。
二、项目布景
虚拟听觉空间(VAS)是一门新式的边际交叉学科,触及听觉心理学、听觉生理学、多传感器集成与交融、人工智能、并行计算和高性能计算机体系等多个研讨范畴。VAS有时也称为虚拟听觉显现(Virtual Auditory Display)、三维声再现体系(3D Sound Rendering/Reproducing System)、虚拟声再现体系(Virtual Sound Rendering/Reproducing System)、空间声响再现体系(Spatial Sound Rendering System)、虚拟空间/三维听觉体系(Virtual Spatial/(3D)Auditory Systems)、声响空间化体系(Sound Spatialization System )和双耳技能(Binaural Technology)等,是经过对双耳的声响信号进行捡拾、模仿和重放,让倾听者在虚拟环境中听到的声信号逼近在实在环境声场中听到的声信号,因而在电影院、家庭影院中得到了很好的运用。其间多通路盘绕声经过许多年的开展,也获得了很好的作用,也先后呈现了5.1、6.1、7.1乃至10.2通路的盘绕声体系,并且5.1通路盘绕声体系也为世界电信联盟(ITU)所引荐。
此外,为了习惯音频的播映,特构建了一款音频DSP处理器以习惯本体系。
三、项目立意
在耳机声源定位算法的框架上,选用MIT媒体试验室的KEMAR人工头HRTF数据库对3D虚拟盘绕声的滤波器规划进行改善;
改善通用处理器体系结构,移植适合于音频处理DSP IP Core到FPGA上;
运用硬件描绘言语直接完结算法,并与DSP IP Core进行集成;
在FPGA渠道上进行IP核的规划,在Xilinx的FPGA渠道上予以验证,并对功耗和时钟进行优化
四、原理和技能特色
1.本体系由以下三大部分构成:
A.虚拟盘绕声模块;B.DSP处理器模块(包含了音频解码,音效叠加等模块);C.音频复原。整体框图大致如图1所示,
图1体系整体框图
DSP音频处理器是本体系的中心,担任音频解码,信号叠加等处理。虚拟盘绕声模块,担任针对音频信号发生虚拟的盘绕声响频作用。DAC担任复原出音频信号。在这些基本功用的础基上,完结比如音频检索等新功用。
2. 虚拟盘绕声原理介绍
因为虚拟盘绕是以人耳的声源定位为根底的,故在此首要对人耳的声源定位予以介绍。心理声学的基本要素是抵达人耳的声响的频率、强度和谱结构。以下将进一步评论依据心理声学的声源定位、间隔感知及围住感等。
2. 1 人耳对声源的定位
在天然听音中,人的听觉体系对声源的定位取决于多个要素——双耳接收到的信号差异用来决议声源的水平方位,由外耳对高频信号的反射所引起的耳郭效应决议声源的笔直方位,而人耳的某些心理声学特性关于声源的定位也起到很大的作用。
2.2 双耳效应
在天然听音环境中,双耳信号之间的差异关于声源的定位是非常重要的。该要素能够在直达声场的听音环境中得到最好解说,如图2所示。
图2 声源S与镜像声源S′引进最大程度类似的双耳要素
声源坐落水平面上,水平方位角为θ,与人头中心的间隔为r,抵达左右耳的间隔分别为SL和SR。因为SL>SR,声响首要抵达右耳,然后在抵达双耳的时刻先后上构成时刻差。这种时刻差被界说为双耳时刻差(interaural time difference,ITD),它与声源的水平方位角θ有关。当θ = 0°时, = 0;当θ = ±90°时,抵达最大值,对一般人头来说,为0.6~0.7ms 的数量级。
在低中频(f 1.5kHz)状况下,双耳时刻差是定位的首要要素,这时对固定频率的声响,双耳时刻差与双耳相位差是相对应的。可是关于更高的频率,尽管双耳时刻差的概念仍然正确,但双耳相位差的概念将变得模糊不清。以正弦声响为例来进行解说,设双耳时刻差的最大值为Δtmax,则角频率为ω的正弦声响在左、右两耳发生的相位差为ΔΦ = ωΔtmax。能够看出,当ω较小时,声响频率较低,波长较长,由时刻差所构成的相位差有确认的含义,双耳能够依据它来断定声源的方位;当ω较大时,即声响频率较高、波长较短时,由时刻差所构成的相位差数值将较大,乃至会超越180°,使人不能判别是超前仍是滞后,因而失去了作为声源定位要素的含义。所以双耳相位差只对低频声的方位判别起首要作用,而双耳时刻差(严厉说是群延时)则可作为1.5~4.0kHz的一个定位要素。
别的一方面,人头对入射声波起到了阻止作用,导致了两耳信号间的声级差(interaural intensity difference,IID)。声级差除与入射声波的水平方位角有关外,还与入射声波的频率有关。在低频时,声响波长大于人头尺度,声响能够绕射过人头而使双耳信号没有显着的声级差。跟着频率的添加,波长越来越短,头部对声波发生的阻止越来越大,使得双耳信号间的声级差越来越显着——这便是咱们常说的人头遮盖效应。关于1.5~4.0kHz的频率规模来说,声级差和时刻差是声源定位的一起要素,而当f > 5.0kHz时,双耳声级差是定位的首要要素,与时刻差构成互补。总的来说,双耳时刻差和声级差涵盖了整个声响频率规模。
可是假如只考虑双耳时刻差和声级差两个要素,还不足以彻底解说定位问题,其间最典型的问题便是前后镜像声源的定位。假定人头是一个球体,不存在外耳,如图3所示,水平方位角为θ的声源和水平方位角为180°.θ的镜像声源在人耳处会发生相同的IID和ITD。关于实践的人头来说,尽管IID和ITD不会彻底相同,可是它们会在很大程度上类似。当只考虑双耳时刻差和声级差时,就会发生前后镜像声源的混杂,其实这仅仅空间锥形区域声像混杂(cones of confusion)的一种特例。为了处理这个问题,就要依赖于其他的要素进行声源定位了。
图3 空间锥形区域声像混杂
2.3 耳郭效应
在听觉体系中用于对声源进行笔直定位的要素通常被认为是“单耳信号”。耳郭具有不规则的形状,构成一个共振腔。当声波抵达耳郭时,一部分声波直接进中听道,另一部分则经过耳郭反射后才进中听道。因为声响抵达的方向不同,反射声和直达声之间强度比不只发生改变,并且反射声与直达声之间在不同频率上发生不同的时刻差和相位差,使反射声与直达声在鼓膜处构成一种与声源方向方位有关的频谱特性,听觉神经据此判别声响的空间方向。耳郭效应的实质便是改动不同空间方向声响的频谱特性,也便是说人类听觉体系功用上相当于梳状滤波器,将不同空间方向的声响进行不同的滤波。
频谱特性的改动首要是针关于高频信号,因为高频信号波长短,经耳郭折向耳道的各个反射波之间会呈现同相相加、反相相减,乃至彼此抵消的干涉现象,构成频谱上的峰谷,也即耳郭对高频声波起到了梳状滤波作用。
耳郭效应对声源的笔直定位起到很重要的作用。图4显现的是声源坐落中垂面,仰角φ分别为.10°、0°和10°在人头模型上测得的耳郭呼应曲线。由图能够看出,在高频处呼应曲线改变比较大,因而能够对声源进行定位。例如对坐落前后镜像的声源进行定位时,尽管坐落(r , θ , φ)的声源和坐落(r , 180°.θ , .φ)的镜像声源会在人耳处发生极类似的ITD和IID,可是能够经过耳郭效应对声源作准确认位。
图4 人头模型丈量的耳郭效应
耳郭效应进行声响定位,首要是将每次接收到的声响与曩昔存储在大脑里的重复声摆放或梳状动摇回忆进行比较,然后判别定位。因每个人耳郭尺度不同,所以每个人在大脑中存储的回忆是不同的,这一点应引起留意。
2.4 人头滚动要素
如图5所示在低频或较差的听音环境中,当双耳效应和耳郭效应对声源的定位不能给出清晰的信息时,听音者会滚动头部来消除不确认性。最常常运用这种办法的状况是呈现空间锥形区域声像混杂现象时,因为这样会构成不确认的双耳效应。
图5 头部滚动防止声源方位前后混杂
2.5 优先效应
声响的定位除了以上要素外还有其他要素。在混响环境中,优先效应起到重要作用。它是心理声学的特性之一。所谓的优先效应是指当同一声源的直达声和反射声被人耳听届时,听音者会将声源定位在直达声传来的方向上,因为直达声会首要抵达人耳处,即便反射声的强度比直达声高达10dB。因而,声源能够在空间中进行正确的定位,而与来自不同方向的反射声无关。可是优先效应不会彻底消除反射声的影响。反射声能够添加声响的空间感和响度感。
当优先效运用在混响环境中辨认语音时,就发生了哈斯效应(Haas effect)。哈斯观察到,只需前期反射声抵达人耳满足早就不会影响语音的辨认,相反,因为添加了语音的强度,还会有利于语音的辨认。并且哈斯发现,相关于音乐来说,语音对反射延时时刻和混响的改变更为灵敏。关于言语声来说,只要滞后直达声50ms以上的推迟声才会对语音的辨认构成影响。所以50ms被称为哈斯效应的最大延时量。在哈斯的平衡试验证明,当延时为10~20ms时,先导声会对滞后声有最大程度的按捺。
以上阐明,仅仅对虚拟盘绕声的简略介绍,更具体的介绍拜见附见。
3.DSP音频处理器结构阐明
因为本体系的音频处理器首要以一款现在的音频处理器为参阅进行开发,故对音频处理器只作简略阐明。
如图6所示
图6 音频DSP处理器结构
图示为一款商用DSP核的结构,差异于一般MCU处理器的是其选用了典型的哈佛结构,存储部分装备了X,Y,XY等部分,以适合于音频处理,至于数据通路和一般处理器比较差异不大,故考虑以移植为主。
五、完结目标
运用数字信号处理技能对数字滤波器的规划进行改善,首要对传递函数零极点处理;
选用Matlab进行原理性的仿实在验,验证滤波器作用和算法的正确性;
运用VerilogHDL硬件描绘言语进行电路建模,划分好电路模块,分模块予以完结,终究完结整个IP核;
用ModelSim对IP Core进行硬件仿真,验证电路的正确性以及是否具有优化空间;
在Xilinx的Vertex系列或是Spartan系列FPGA上予以验证;
对整个3D虚拟盘绕声体系进行片面归纳点评。
六、预期作用
虚拟盘绕声的算法的verilog完结;
将虚拟盘绕声模块参加DSP音频处理器核,构成新的音频处理器;
在Vertex系列FPGA完结终究处理器;
运用ARM或是其它MCU完结对音频处理器操控,使之能播映音乐,并实虚拟盘绕声作用;
使播映器具有其它立异特性的功用(在项目完结过程中开掘)。