摘要
跟着生活水平的不断前进,卡拉OK练歌房在我国现已十分遍及。卡拉OK机的主动评分功用往往会引起一些人的爱好,觉得机器能够主动评分是件挺奇特的事。但一起也会发现它有一个很大的缺陷–评分不太准。本项目立足于近几年出现的一些数据处理和操控集成芯片,将一些语音信号处理的专用算法运用到评分体系中来,以改善现行体系,增强评分的精确性。
- 研讨布景
近年来跟着我国经济的飞速开展,公民的生活水平不断地前进。全国各地的KTV工业蓬蓬勃勃的开展,街头巷尾随处可见KTV练歌房的身影。而咱们的邻邦韩国和日本,KTV工业更是巨大,到卡拉OK练歌房唱日本民歌乃至现已逐步演变为日本的一种民族习俗。正是因为卡拉OK现在如此的盛行,促进卡拉OK设备生产商对这个范畴进行许多的投入和研制,因此卡拉OK体系不断地得到完善,功用也不断地增强。从上世纪90年代开端,人们逐步开端重视卡拉OK的主动评分功用。当演唱完一首歌今后,经过一段延迟时刻,机器便能主动算出一个分数来,这始终是一件让人觉得挺有意思的工作。
当这个主意被一个叫唐骏的我国留学生提出并付诸实践后,立即在日本引起了巨大的颤动。人们遍及都感到十分的别致,都想测验测验这种风趣的机器,这就造就了榜首个买下这项专利的三星公司的卡拉OK设备的出售量的飞涨,乃至有人点评说是这项创造抢救了其时处在商场危机中的三星公司。不过,过了一段时刻人们发现这种机器有一种问题——评分禁绝。后来这项专利的创造者唐骏也揭露表明,该体系的评分作用不是很精确,演唱时只需极力仿照唐骏的声响就一定能得到高分。
正是因为这套体系的这些缺陷与缺乏,后来又有许多专家学者接连投入到语音打分体系的研讨中来,激起了一次研讨卡拉OK打分体系的热潮——1990年到1998年。这些研讨人员首要是日本人,因为日本的卡拉OK十分的盛行。在这期间,他们请求了将近十几项专利,不过没有宣布过一片论文,究竟这是一个能够赚大钱的东西。这些专利能够分为以下几类:
从时域波形动身,对演唱者的音频信号和机器自带的原唱信号进行采样,然后比较各个采样点的巨细,假如比较一起则得分高,不然得分低。
从能量的视点动身,对演唱者的音频信号和配乐音乐别离用A/D进行数字化,然后对两种数字信号的规格化能量进行比较和差异丈量,终究依据两者差异状况给分。
从频域剖析的视点动身,首要将机器自带原唱信号与配乐乐声进行小波改换,再将演唱者的音频信号与配乐音乐进行小波改换。比较两次得到的频谱信号的散布状况,越是一起则得分越高。
到98年今后,这一范畴才逐步开端降温,也没有多少新的专利或许是相关文献出现。并且,即使是上文叙说的那些专利也没有多少投入到商业生产中。这些专利创造有一个一起的特色,那便是核算量十分大,受限于其时的硬件水平,完结起来不是很令人满意。这也能够了解,究竟要是一首4分钟左右长的歌曲唱完后需求几十分钟的核算后才干得到一个分数,那将是令人无法忍受的工作。
现在商场上正在出售的那些卡拉OK机一般都带有主动评分的功用。但依据上文剖析的原因,90年代研讨者请求的那些专利都没有在这些产品中得到实践的运用。各个生产厂家正在运用的那些点评规范根本都是当年唐骏创造的那套设备,俗称“唐骏规范”。但仍是多少有一些不同,高级一点的可能做一下FFT,进行一再剖析;低层次的乃至是直接比较音量的巨细,音量越大得分越高。有人曾做过试验,让一个三岁小孩在万利达的卡拉OK机前大声哭着喊妈妈,成果因为小孩子声带小,发声频率高,音量又大,竟得了98分,十分匪夷所思。前一段时刻盛行的江苏卫视的《谁敢来歌唱》栏目也应有了机器打分体系。他们从国外引进了一套叫SAM的体系,运用时先将每首歌的原音预录进去,然后设置10个关键字点。得分的凹凸,取决于这10个关键字唱得准禁绝,或许其他当地唱得不特别准,但关键字唱对了,选手也能得高分。运用后被许多观众诉苦评分禁绝。
经过近几十年的开展,硬件设备尤其是大规模集成电路技能取得了巨大的前进。现在最新的DSP芯片每秒能进行上百万次的运算,XILINX的FPGA的并行处理才能也现已十分强壮了。用这些芯片对音频信号进行一些FFT运算和频域剖析,硬件方面现已没有问题了。因此,本文提出一种依据FPGA和DSP的新式卡拉OK评分体系。本体系除了运用一些新式的集成芯片来进行运算处理,还提出了一种改善了的评分算法,来尽量减小评分所需的运算量,一起使点评成果与演唱者实践水平尽量符合。
- 语音信号的根本特征
图1:一段语音的时域波形图
图[1]是一小段语音的时域波形图,能够看出,语音一般由三部分组成:无音段、清音段和浊音段。无音段不存在语音信号,在布景噪声较低的状况下,崎岖近似为零。清音信号的崎岖很小,没有规则,类似于随机噪声。浊音信号崎岖较大,波形的上下崎岖近似出现周期性,称之为准周期性。语音信号有两个重要的时域参数:短时能量和基音周期。从图2.1能够看出信号的崎岖随时刻改动而改变显着,短时能量能够反映这一特性,其界说如下:
(2.2.1)
短时能量的首要含义在于给出了差异清浊音的根底,清音的短时能量显着小于浊音的短时能量,用短时能量能够大体分辩出清音、浊音以及清音变成浊音的时刻,关于质量很高(高信噪比)的语音,也可用来差异有音与无音。
从图[1]能够看出,浊音信号是一个准周期信号,其周期称为基音周期,基音周期的倒数称为基频 (Pitch)。基音周期实践上是声门波往复一次的时刻长度。声门波是指声门气流的速率随时刻改变的函数曲线。一般而言,当声带闭合时,声门处受阻聚积的气流会逐步冲开声带,气流速率也随之开端缓慢地增大,到达最大值后因为声带忽然闭合,气流速率陡降为零,如图[2]所示。
图2:周期性改变的声门气流速
不同说话人宣布同一浊音时,基频差异显着,尤其是男女声。一般来说,正常成人男声的基频在0—200Hz左右,正常成人女声的基频为200—450Hz,小孩的基频比女声的基频还要高,白叟的基频则比正常成年男声还要低。
语音信号还有一个很重要的特性即短时平稳性,语音信号对错平稳信号,但在某一个比较短的时刻里,语音信号能够被看成是平稳的。这段时刻一般可取为5—50ms。短时平稳性是语音信号处理的根底。
- 频域特性
对一段语音进行分帧加窗后再进行傅立叶改换就能够得到该帧语音的短时谱。清音的短时谱类似于随机信号的频谱。而浊音信号的短时谱有两个特色:榜首,有显着的周期性崎岖,这是因为浊音的鼓励源为周期脉冲气流;第二,频谱中具有几个显着的凸起点,它们对应的频率与声道的谐振频率一起。这些凸起点称为共振峰(Formant),其频率称为共振峰频率,简称共振峰。共振峰按频率由低到高摆放依次为榜首共振峰、第二共振峰、…,一般用字母F1、F2…来表不。一般浊音中前二个共振峰对说话人的个性特征影响较大,而前两个关于差异不同语音至关重要。
- 语音信号的特征参数
- 短时频谱
语音信号特征在较短的时刻距离中坚持根本不变,即语音信号具有时变特性,因此能够将语音信号看作是一个短时平稳进程。语音信号具有一些重要的短时特征。短时频谱是语音信号的一个重要的短时特性。
B:短时自相关函数
S:自相关函数Rw(г)称为S(n)的短时自相关函数。
T:短时均匀崎岖
S(n)的短时均匀崎岖核算公式如下:
(3.1)
- 短时过零率
信号按段切割就称为短时,段但是帧巨细。过零便是信号的崎岖值从正值到负值、负值到正值要经过零点,核算信号在一秒钟内有几回过零便是过零率。以短时能量为主,短时过零率为辅,可对语音信号中的清音进行较精细的检测。
- 倒谱
倒谱是一段语音信号的一组重要参数。要核算信号SW(n)的倒谱,首要要核算SW(n)的离散傅立叶改换,然后对离散傅立叶改换的模取对数,终究再做傅立叶反改换,这样得到的c(n)被称做是“倒频谱”或“倒谱”。
还有其它的一些特征参数,因为在本文中或许在音频信号的研讨中运用的较少,在这里就不逐个介绍了。
- 完结原理与计划
下面来详细叙说一下本文提出的评分算法。在叙说中将会遇到两种音频信号,为便利起见,咱们称卡拉OK机内自带的专业歌手原唱的音频信号为原唱,称卡拉OK机的运用者演唱的音频信号为翻唱。点评进程分为两个部分来完结。
首要进行时域剖析,判别演唱者的协调性。由前几段对音频信号的特色可知,音频信号的时域波形并不是接连的,而是一段一段的,每一段大约继续10ms—30ms,称为一个音节。时域剖析首要是针对各个音节进行剖析,先用短时加窗法将信号进行分帧,然后核算出各帧信号的能量首要会集区域。比较依据两种信号得到的能量首要会集区域,假如比较符合则阐明演唱者的协调性很好,可给一个较高的分数;假如两种状况下的区域对得不是很齐,则阐明协调性欠好,得到应该给低一点。每次比较完一帧便将比较成果记载到存储器的特定区域。
在时域剖析的一起进行频域剖析,如软件流程图[3]所示,时隙分配是每取出一帧,先对它进行时域剖析,记载完剖析成果后,再将信号进行FFT改换,做频域剖析。首要是比较原唱和翻唱频谱曲线的一起性,借助于频谱剖析别离比较高频段和低频段。依据相似性得到一个得分。
本项意图完结是经过用System Generator 进行仿真,用MatlabaZ中的Simulink来完结详细的仿真, 并将终究的成果导入到FPGA中已完结终究的意图。
图3:软件流程图
当把一切帧都剖析完今后,再将各帧的得分相加,进行百分制处理,即可得到总得分。终究将该得分送入液晶显示。
其间的体系框图如图[4]所示:
图4:体系框图