序言
跟着人们日子质量的进步,对日子各面都提出了更高的要求。家居安全成了人们重视的问题。一起,钥匙的丢掉或失窃成为了一般钥匙的最大坏处。由此人们急需一种更便利,更安全的门锁体系。无疑,声纹识锁是现在最好的考虑。但因为人声易被复制,整个锁价格贵重,所以无法在一般家庭进行推行。别的,一把语音锁只能由一个人敞开,不合适家庭等需求多成员的场所运用。所以,作者另辟蹊径,发明晰音纹辨认锁,用音乐来开锁。它简直彻底具有声纹辨认锁的一切功用。一起,它造价低价,便利带着。只需记住音乐的片段,就能够用音乐播映设备进行敞开。彻底不怕丢掉,假如想把钥匙“配”给其它人,只需求告知他音乐的片段的信息就能够了,运用起来十分便利。
一,音乐辨认完结进程介绍
本文介绍的音乐电子门锁是一种在单片机上完结的与文本有关的身份承认体系。该体系主要由语音辨认模块、电磁铁以及门锁等部分组成。在练习时,音乐经过音频接口进入音乐信号收集前端电路,由音乐信号处理电路对收集的音乐信号进行特征化和音乐处理,提取音乐音纹的特性特征参数并进行存储,构成音纹参数数据库(母版)。在辨认时,将待辨认音乐与音纹参数数据库进行匹配,经过输出电路操控电磁铁的通断,终究完结对门锁的操控。
图1
由结构图1能够看出,此辨认进程的安全性有4个确保点。榜首个是在输入密钥的时分,直接输入数字信号,无法被偷听。剩余的3个确保点别离是三次音乐辨认进程。辨认三段音乐,这三段音乐能够是一首歌中的音乐,也能够别离来自不同的音乐,不承认性加强了。一起,此辨认进程需求三段音乐一起辨认成功最终才干成功,每次辨认都需求按键,音乐的精准度有了确保。选用不同的按键输入,按键次序随时改动,因而,从某种含义上来讲又成为了一种暗码。因而,假如想拿出一个存满音乐的mp3或许就仅仅一首歌来逐一的试出打开锁的暗码音乐,那样无异于难如登天。
(母版声纹暗码)
(声纹钥匙)
此图可直观的看出,声纹信息不一致,因而无法辨认!
二,音纹辨认与声纹辨认的比较
生物辨认技能是运用人体生物特征进行身份认证的一种技能,是现在公认的最为便利与安全的辨认技能。在生物辨认领域中,声纹辨认,也称为说话人辨认,以其一起的便利性、经济性和准确性等优势遭到世人注目,并且日益成为人们日常日子和作业中重要且遍及的安全认证办法。声纹辨认技能是一种依据说话人语音波形中反映说话人生理和行为特征的语音参数,自动辨认阐明人身份的技能。跟着技能运用规模的扩展,声纹辨认的运用暴露出一些难以克服的缺陷,比方同一个人的声响具有易变性,易受身体状况、年纪、心情等的影响;比方不同的麦克风和信道对辨认功用有影响;比方环境噪音对辨认有搅扰;比方多人混合说话的景象下人的声纹特征不易提取,等等。最新实践标明,声纹辨认呈现了一个很大的缝隙:声纹信息可被高保真录音设备提取。这个缺陷直接影响了声纹辨认技能的安全性。
音纹辨认与身纹辨认最大的差异便是前者用音乐做暗码,要求用户依照自己的喜爱,往音纹辨认体系中输入特定的音乐片段,音纹模型被精确地树立。今后的辨认将会以此段音乐为母版,进行音纹比对。假如被辨认的音纹能与母版相匹配则辨认成功。因为音乐片段是经过音频接口直接在辨认体系与音乐播映器中进行传输,传输的是数字信号,因而不会有外界声响的影响,与运用者的身体状况没有任何关系,能够到达较好的辨认作用。一起,因为音乐传达的隐蔽性,音纹暗码不会被外部录音设备获取,确保了音纹辨认体系安全性。
因而,音纹辨认技能,它克服了以上一切声纹辨认具有的缺陷。一起,音纹辨认的运用有一些特别的优势:(1)包含音纹特征的语音获取便利、方便,音纹提取可运用任何音乐载体完结,因而运用者的承受程度也高;(2)获取音乐的辨认本钱低价,运用简略,一个音频接口即可,在运用通讯设备时更无需额定的录音设备;(3)合适长途身份承认,只需求一个手机就能够经过网路(通讯网络或互联网络)完结长途登录;(4)音纹辨认和承认的算法杂乱度低;……等等。这些优势音预示着音纹辨认,这种全新的辨认形式必将成为身份辨认技能中另一具有发展潜力的技能。
图2
三,算法原理
音纹辨认算法原理框图如图2所示。
(一)预处理
1,去噪
对音频接口输入的数字信号;将含噪的音乐信号经过去噪处理,得到洁净的音乐信号后并经过预加剧技能滤除低频搅扰,尤其是50Hz或60Hz的工频搅扰,进步语音信号的高频部分,并且它还能够起到消除直流漂移、按捺随机噪声和进步清音部分能量的作用。
2,端点检测
本体系选用音乐信号的短时能量和短时过零率进行端点检测。音乐信号的采样频率为8kHz,每帧数据为20ms,合计160个采样点。每隔20ms核算一次短时能量和短时过零率。经过对音乐信号的短时能量和短时过零率检测能够剔除去静默帧、白噪声帧和清音帧,最终保存对求取基音等特征参数十分有用的浊音信号。
3,特征提取
在音乐信号预处理后,接着是特征参数的提取。特征提取的使命便是提取音乐信号中表征音乐的基本特征。特征有必要能够有用地区别不同的音乐,一起要求特征参数核算简洁,最好有高效快速算法,以确保辨认的实时性。
(1)音乐特别性的确保
此辨认技能能够选用任何格局的音乐,这也是此体系最大的长处之一。每一段音乐记录了不同演唱者的声纹信息,以及音乐的音色、调性、节拍、音高、音长、音量、速度和持续时刻等特定的信息。在此基础上,又能够进一步提取旋律、和声、节奏等杂乱特征。这些信息,就像人类的声纹特征相同,有着特别性,所以谓之为音纹。此辨认技能辨认音乐基本特征和杂乱特征在内的音乐信息并且运用含糊分类器辨认出每一个乐段所带有的暗码。为了进步体系的辨认率,在本体系中最好挑选调子崎岖较大,音色比较特别的音乐。
(2)参数提取的比较
经过线性猜测剖析得到的参数。包含线性猜测系数(LPC)以及由线性猜测导出的各种参数,如线性猜测倒谱系数(LPCC)、部分相关系数、反射系数、对数面积比、LSP线谱对、线性猜测残差等。依据前人的作业作用和实践测验比较,LPCC参数不但能较好地反应声道的共振峰特性,具有较好地辨认作用,并且能够用比较简略的运算和较快的速度求得。此外,人们还经过对不同特征参数量的组合来进步实践体系的功用。当各组合参量间相关性不大时,会有较好的作用,因为它们别离反映了音乐信号的不同特征。在核算机渠道的仿真试验中,经过各种参数的实践比较,选用MFCC参数比选用LPCC参数有更好的辨认作用。但在SPCE061A渠道上做实时处理时,与LPCC体系比较,MFCC系数核算有两个缺陷:一是核算时刻长;二是精度难以确保。因为MFCC体系的核算需求FFT改换和对数操作,影响了核算的动态规模;要确保体系辨认的实时性,就只要献身参数精度。而LPCC参数的核算有递推公式,速度和精度都能够确保,辨认作用也满意实践需求。本体系选用了基音周期和线性猜测倒谱系数(LPCC)一起作为音乐辨认的特征参数。
(3)LPCC参数的提取
根据线性猜测剖析的倒谱参数LPCC能够经过简略的递推公式由线性猜测系数求得。递推公式如下:
其间p为LPC模型的阶数,也是模型的极点个数。
(4)LPC模型阶数p的承认
为使模型假定更好地契合语音发生模型,应该使LPC模型的阶数p与共振峰个数相符合。一般一对极点对应一个共振峰,10kHz采样的音乐信号一般有5个共振峰,取p=10,关于8kHz采样的音乐信号可取p=8。此外为了补偿音乐片段中存在的零点以及其他要素引起的误差,一般在上述阶数的基础上再添加两个极点,即别离是p=12和p10。试验标明,挑选LPC剖析阶数p=12,对绝大多数音乐信号的声道模型能够满足近似地迫临。P值选得过大尽管能够稍微改进迫临作用,但也带来一些负作用,一方面是加大了核算量,另一方面有或许添加一些不必要的细节。
(5)线性猜测系数的求取
自相关解法主要有杜宾(Durbin)算法、格型(Lattice)算法和舒尔(Schur)算法等几种递推算法。其间在杜宾算法是现在最常用的算法,并且在求取LPC系数时核算量也量小,本体系选用该递推算法。
4,基音参数的提取
基音估量的办法许多,主要有根据短时自相关函数和根据短时均匀起伏差函数(AMDF)等基音估量办法。
(1)根据短时自相关函数的基音估量
(2)短时自相关函数在基音周期的整数倍方位存在较大的峰值,只需找出榜首最大峰值的方位就能够估量出基音周期。
(3)根据短时均匀起伏差函数(AMDF)的基音估量
根据短时均匀起伏差函数(AMDF)在基音周期的整数倍方位存在较大的谷值,找到榜首最大谷值的方位就能够估量出基音周期。这种办法的缺陷是当语音信号的起伏快速变化时,AMFD函数的谷值深度会减小,然后影响基音估量的精度。
实践上榜首最大峰(谷)值点的方位有时并不能与基音周期符合,榜首最大峰(谷)值点的方位与短时窗的长度有关且会遭到共振峰的搅扰。一般窗长至少应大于两个基音周期,才或许取得较好的估量作用。音乐中最长基音周期值约为20ms,本体系在估量基音周期时窗长挑选40ms。为了减小共振峰的影响,首要对语音进行频率规模为[60,900]Hz的带通滤波。因为最高基音频率为450Hz,所以将上限频率设为900Hz能够保存语音的一、二次谐波,下降频率为60Hz是为了滤除50Hz的电源搅扰。
以上几种办法都是对语音信号自身求相应的函数。本体系选用的基音估量办法是:首要对带通滤波后的短时语音信号进行线性猜测,求取猜测残差;再对残差信号求自相关函数,找出榜首最大峰值点的方位,即得到该段语音的基音估量值。试验标明,经过残差求取的基音轨道比直接经过语音求取的基音轨道作用更好,如图2所示。图2中横坐标为语音帧数,纵坐标为8000/f,其间f为基音频率。
5,形式匹配
现在针对各种特征参数提出的形式匹配办法的研讨越来越深化。典型的办法有:矢量量化办法、高斯混合模型办法、隐马尔可夫模型办法、动态时刻规整(DTW)办法和人工神经网络办法。
这些办法都有各自的长处和缺陷。其间DTW算法关于较长音乐的辨认,模板匹配运算量太大,但对短音乐(有用音乐长度低于3s)的辨认既简略又有用,并且并不比其他办法辨认率低,特别适用于短语音、与文本有关的音乐辨认体系。本体系选用端点松驰两点的(DTW)算法,端点松驰引起的核算量添加并不大,还能够放松对端点检测的精度要求。
动态时刻规整(DTW)算法根据动态规划的思维,处理了音乐不一起期音质长短、音速不相同的匹配问题。DTW算法用于核算两个长度不同的模板之间的类似程度,用失真间隔标明。假定测验模板和参阅模板别离用T和R标明,按时刻次序含有N帧和M帧的语音参数(本体系为12维LPCC参数),失真间隔越小,标明T、R越挨近。把测验模板的各个帧号n=1~N在一个二维直角坐标系中的横轴上标出,把参阅模板的各帧号m=1~M在纵轴上标出,如图3所示。经过这些标明帧号的整数坐标画出纵横线即构成网络,网格中的每一个交叉点(n,m)标明测验模板中某一帧与参阅形式中某一帧的交会点,对应两个向量的欧氏间隔。DTW算法能够归结为寻觅一条经过此网格中若干交叉点的途径,使得该途径上节点的间隔和(即失真间隔)为最小。关于端点松懈的状况,途径查找原理相同,仅仅添加了查找途径。
(二) 硬件体系
音纹电子门锁体系的中心是音乐辨认模块。包含按键输入、音乐信号收集、音乐信号处理、FLASH存储扩展、扬声器输出、操控输出以及LCD模组等。音乐辨认模型的原理框图如图4所示。其间心为音乐信号处理。
音乐辨认模块各组成部分完结的功用如下:
(1)按键输入部分:共有数字键、练习键、删去键、承认键和撤销键等按键,用于暗码输入时的各项操作。其间练习键为躲藏部分,在外部无法直接看到。选用不同的按键输入,按键次序随时改动,因而,从某种含义上来讲又成为了一种暗码。
(2)语音信号收集部分:特定语音芯片
(3)FLASH存储扩展部分:用于存储音乐的特性特征参数参阅模板。
(4)扬声器输出部分:扬声器
(5)操控输出部分:用单片机I/O口操控门锁操控电机。
(6)LCD模组部分:用以显现体系的作业状况,以及操作提示。
(三)作业形式
音乐辨认模块有三种作业形式:练习形式、认证形式,这两种形式都可经过作业形式按键挑选。
(1)练习形式,音乐的声响经过音频线进入语音信号收集前端电路。榜首次语音输入时,由单片机对收集的语音信号进行处理,提取音乐的特性特征参数,并存储到外扩的FLASH内,构成音乐特征参数模板。每个暗码能够进行三次练习,第二语音输入时,提取的个数特征参数与由榜首次语音输入构成的特征参数模板进行匹配,在匹配间隔小于模板更新阈值时,将音乐特征参数模板更新为两次特征参数的均匀值。第三次语音输入时,提取的特性特征参数与由榜首、二次语音输入构成的特征参数模板进行匹配,在匹配间隔小于模板更新阈值时,将音乐特征参数模板更新为三次特征参数的均匀值,构成最终的该音乐的特征参数模板。练习形式只要辨认程序的具有者可见。
(2)认证形式,相同经过音频线录入音乐的声响,再由单片机对收集的语音信号进行处理,将提取的音乐特征参数与存储在外扩FLASH内的特征参数模板进行匹配,匹配间隔小于认证阈值时,经过认证;然后再判别匹配间隔是否小于认证形式下的模板更新阈值,决议是否对模板进行更新。
别的,因为单片机的可重复编程功用,假如有必要,此音纹辨认体系能够再参加暗码输入等安全认证办法。但考虑到本音纹辨认自身具有较高的安全性,参加暗码输入没有太大的含义,在这里咱们并没有参加此功用。
(四)总结
音纹辨认不只运用便利,安全,并且还具有以下特性:用户承受程度高,因为不触及隐私问题,用户无任何心理障碍;声响输入设备造价低价,而其他生特辨认技能的输入设备一般造价贵重。与声纹辨认,运用虹膜、指纹和人脸等技能的门锁比较,根据单片机构建的语音电子门锁体系具有本钱低、运用便利、保密性好等长处。经很多试验测验标明,该体系功用安稳、辨认作用好。下一步将进行更多功用的,以及算法的完善。为此技能寻觅除了锁之外的其它更广泛的用处。