中文语音处理在数字助听器体系的开发

现在国外对助听器研讨开展的一个抢手则是会集在我国，切当地讲是依据对汉语言语和语音研讨，开发相关的语音辨认技能和产品。为中心的中文听力学也不破例。咱们现已知道听觉科学是一门开展迅速、常识更新很快的一门学科，它所研讨的方针以人的听觉为中心，现在咱们将介绍和评论科学家和听力学家更关怀的是怎样将听觉科学运用到我国人的听觉和言语实践中去。

汉语是具有特征化的腔调性言语，与其他以拼音字母为主的语系，如斯拉夫语系等具有很显着的语音学不同。这种不同不只仅在言语特征上十分明晰，在详细运用时，差异也很大。是否不同语系的不同语音特征会影响听觉受损患者对言语的了解，特别是在运用依据不同语系研讨成果制作成的助听器时，这种语音的差异是否起到重要作用，最近已成为学术和科研的一个抢手课题。比方国内研发的人工耳蜗的一个特征便是在规划其算法时考虑到中文语音特征。国外助听器厂商将在近期推出以中文语音为特征算法的助听器。加拿大在我国的一语音试验室经过多年的研讨和试验，早在 2000 年运用抢先的数字信号处理 (DSP) 技能，在其数字助听器中参与中文语音算法，并一起申请了相关专利。现在他们首先推出的以中文语音处理技能为中心的全新数字助听器 —Intelligia ，在临床试验中得到受试者的认可，开端证明这种新式助听器对说以中文为母语的患者有好处。

现在研讨的成果标明，不同的语系，如汉语和英语有各自特征，在听觉感知进程中有很大不同。英文和汉语在语音和白话上有重要差异， Ming-Xi Tsai el al （ 2000 ）以为汉语和英文语音在结构上特征差异很大。汉语的词、字、音节和声、韵母分节含有不同层次的信息，并坚持杂乱的联系。在白话中，汉语发音差异也很大，在不同会话条件下，遭到这些结构中不同层次信息的影响。

对中文语音辨认和中文语音腔调的研讨体现在人工耳蜗的算法上面。言语处理战略是人工耳蜗协助患者了解言语中心技能，已有很多研讨。但关于言语声特别是腔调、语调的研讨，比方对以语调为根底的汉语研讨仍是很少。在最近的一个试验中，他们用澳大利亚人工耳蜗来调查对汉语语音了解的影响。成果标明在某些言语处理战略中汉语的运用的了解度要高于其他时刻战略。如果能进步影响率，加强对语音和腔调的了解，他们也以为不同的言语处理战略对汉语说法也有了解。研讨再次证明，汉语应该有必定的语音体系处理自己的言语，特别是对听障人士尤为重要。

美国麻省理工学院研讨者 Michael Qin 在其《在噪音布景发音和腔调的辨认》的试验中，对汉语一般话腔调的辨认和噪音的联系进行了研讨。他以为不同的言语运用不同类型的腔调使咱们白话富于不同的含义，在噪音环境下这些有含义的腔调会遭到影响，因而他需求发现说一般话的我国人怎样在噪音环境里辨认不同的腔调。在试验中他运用 6 个辅元音的音位，一起运用 4 个腔调：阴阳上去。其成果标明在信噪比下降的情况下，对汉语腔谐和元音的辨认遭到很大影响，然后影响下降言语的了解才干。因而信噪比影响了解中文很重要的要素。这个试验对听觉恢复和规划有针对性的助听器具有重要含义。

一起，最近美国建立了一个综合性专家研讨小组，开端研发合适中文语音的助听器。该小组成员包含世界闻名的豪斯耳研讨院、香港中文大学耳鼻喉科等。与上述研讨相似。他们以为在倾听以腔调作为辨认语音和语义的言语时，如一般话、广东话和泰国语等，或许听觉更重要的是依托基频相关的信息来了解言语，这是与其他言语不同的。因而，在研发助听器时，咱们应该考虑到这些患者的言语特征。

当然，笔者最感兴趣的是最近由威耳康研讨基金 (Wellcome Trust) 资助的一项题为《中文一般话会话者在了解言语时比英文会话者用脑更多》的试验，其意图是运用印象技能来调查和研讨中文母语和英文母语说话者大脑呈现的不同活动。掌管该项研讨的心思学家索菲斯高特博士发现，当英语的受试者听到英文时，其左颞叶变得反常活泼，研讨者以为这个区是把言语声组合在一起构成独立的字词。可是傍边文受试者听到一般话时，其左右颞叶一起活泼起来。显着，因为说不同言语的受试者用他们大脑的不同区域对不同言语的影响进行解码。这对咱们了解这些理论发生了很大的影响。他们进一步以为中文受试者的左颞叶处理语音信号，而他们的右颞叶则处理腔调，一起发生含义。言语声是十分杂乱的声响，而正确了解言语传递的意思，在这种情况下，大脑会充沛运用说话者波澜起伏的腔调来对其言语进行解码，然后将白话变成有含义的信号。

大脑听觉区域很简略受外部影响，而改动对声响的分辩才干。一旦听觉遭到损害，必需进行恢复，大脑需求从头衔接和编码。大脑的可塑性是很强的。了解大脑对不同言语的反响，可以有用地协助听觉患者从头恢复对言语的了解。重要的是依据这些研讨，咱们可以清楚地看到研宣布具有中文语音特征的听力恢复设备。记住在 2002 年北京大学和我国残联建立言语听觉中心的开幕式上，邓朴方先生在发言中专门谈到：他榜首次传闻中文语音处理特征对助听器运用者的影响，他以为这是一个重要课题，需做很多作业，而研宣布以中文语音为特征的听觉恢复设备将会有重要的含义。依据世界承认的听损发病率，我国有 10 ％的人口，即一亿三千万人有不同程度听力丢失，因而，运用中文语音处理技能更有用地协助听残患者具有十分重要的作用。

一．中文语音技能处理原理

中文语音处理战略的英文词有 “Chinese speech processing strategy” 或 “Chinese speech recognition”, （中文语音辨认）和 “hearing aid algorithm” （助听器算法）等。其间， algorithm ，即 “ 算法 ” 一词运用较多，特别触及到数字助听器的开发， “ 算法 ” 代表了某一特别技能的中心。 “ 算法 ” 可以被简略地看作为完成某些特定信号处理功用的指令序列。中文语音特征可以经过算法研讨来构成的。数字信号处理器和算法构成了数字助听器的 DSP 线路。包含多通道动态规模紧缩、噪音衰减等处理，规划助听器的算法的首要方针是运用中文语音处理技能，即便在不同的听音环境中，须确保言语被听见并倾听舒适。一起，运用数字助听器改进汉语可懂度，使有听力丢失的我国患者能更简略地了解汉语。

汉语是腔调单字言语，腔调是汉语的重要语音特征之一。腔调特征首要体现在嗓音基频随时刻改动的方式上。 Eady 技能 (1982) 曾调查过腔调言语 — 汉语的基频方式与重音言语 — 英语有什么不同。汉语的腔调在词语中具有辩意作用，在日子实践傍边，咱们也都能体会到腔调有助于咱们听懂他人的话，而 “ 南腔北调 ” 常表示不易听懂和不大好懂和不大好听的意思。

关于接连言语来说，长时刻均匀的正、负颤抖因数，各种言语和男女发音人是差不多的。仅仅负颤抖总是比正颤抖大，而且呈现频率也较高。 Eady 的丈量成果标明，汉语的说话速度要比英语慢一些。这或许是因为说汉语时，说话人要花更大的尽力在每一个音节上来操控声带运动，也便是说腔调言语的音节喉运动操控有较大的言语学负荷，因而花的时刻就多一些。成果就体现为说话慢一些。

因而，腔调信息首要存在于基频随时刻的改动中，强度改动对腔调信息有补偿作用，以及清子音的存在与否对腔调明晰度是有必定的影响的。

1 原理 (Principles)

本文介绍一种可运用于数字助听器的进步汉语可懂度的语音处理办法，其方针是使以汉语为母语的听残人士能更简略地了解言语。增强言语可懂度的思路来源于人们的实践经历。回想一下，当你为使一个有听力妨碍的人更简略听懂自己说话时所选用的办法：你不只仅要进步音量，而且还要改动发音办法，说得更慢和更明晰。一些研讨标明清楚地读无含义的句子，比在日常会话句子，大约能进步 17% 的单词可懂度。这儿所谓说得更明晰是指着重言语信号中的某些暗示，这些暗示有许多不同的方式，如特定音段的持续时刻，元音的共振峰方位或许音素之间的过渡等。

不是所有人都会简略地、方便地对听力丢失患者 “ 清楚地 ” 说话。因而，咱们要选用言语增强的办法便是在说话人和听话人中心结构一个处理模型，该模型能着重并杰出句子中的特定成分，使句子听起来更明晰。

全部语音之所以可以表达含义，是因为各个音之间存在差异。这些差异发生于声腔内部的器官和肌肉等活动决议的发音办法和发音部位的差异，一起又体现为语音的声学特征的差异。本文提出的言语增强的办法正是经过对语音信号的重构来强化这些差异。所谓重构是指对语音信号中不同性质的信号进行辨认并有针对性地予以处理，着重其间对人的感知起作用的特征，然后到达进步言语明晰度的意图。该办法可以简略地归纳为：扩大子音、着重重音和杰出腔调。

2 汉语语音信号的感知特征

2.1 腔调

腔调的调类。

腔调的感知。

首要依据基频的改动。

腔调音高的改动对音长和音强都或许发生影响。

2.2 重音

轻重音的声学特性。

与实践音强有密切联系，但并不持平。

还要受音色、音高和音长的限制。

感知特征：分辩轻重音时，音强往往并不是决议性要素。

1 ）子音扩大 (Consonant Amplification)

言语感觉的心思试验证明了如下特征：人在言语感知进程中，对语音信号载荷的关于发音办法和发音部位的分辩信息的感觉才干存在强弱不同。整体上说，人对发音办法比对发音部位有更好的分辩才干。而办法明晰度与子音明晰度的联系很附近。在汉语子音的发音办法的感觉重要性中，存在清与浊、送气与不送气、冲突与非冲突的从强到弱的位次联系。研讨标明，相对加强子音有助于改进语音明晰度。

Kates 描绘了扩大子音的办法，图1是其间被广为选用的一种模型。该体系把信号分解成几个波段，在每个波段检测短时谱形，依据谱形辨认元音和子音，对子音则给予扩大。需求指出的是，杜利民等提出了汉语语音扶引特征的概念，从声学信息核算检测的视点为为汉语主动语音辨认体系供给了一种辅佐匹配结构。

图 1 子音增强体系

2) 重音 (Stress)

组成一段语流的各音节声响嘹亮程度并不彻底持平。有的音节在语流悦耳起来声响比其他音节嘹亮，这便是重音音节。有的重音和语义、语法有密切联系，如汉语一般话中的词重音。词重音呈现在词中，是因为词的含义不同，重读音节的方位也不同。如 “ 技能 ” 和 “ 计数 ” ，重音别离在榜首音节和第二音节。这种语意的差异是经过 “ 超音段特征 ” 来表达的。

在汉语中，重音对韵律特征参数的影响倍受重视。语流中 “ 韵律特征 ” （ prosodic feature ）是经过音高、音长和音强的改动，即 “ 超音段特征 ” 体现出来。从语图上调查，音域显着扩张重音的特征。高分明对一般话句子汇总着重重音的声学体现进行了研讨，指出：

（ 1 ） “ 音高升高是一般话句子中着重重音的重要韵律特征 ” 。

（ 2 ）音高和时长关于着重重音的完成具有相同重要的作用。它们之间的联系是敌对互补的。

语音组成的经历告知咱们，音高是调理重音最有用的手法，所以强化重音的办法首要是进步音高。

3) 腔调 (Tone and Internation)

一个音节除了包含由元音和子音按时刻次序排列成系列的音质单位以外，还有必要包含必定的音高、音强和音长。在一些言语里，音高在音节中起的作用可以说是和元音、子音相同重要，这种能差异音节的含义的音高便是 “ 腔调 ” 。依据腔调的有无可以把世界上的言语分为腔调言语和非腔调言语两大类。汉、藏语系言语最杰出的一个特征便是有腔调。

汉语一般话的腔调起着构词辩意的作用。关于具有相同拼音的一个音节，因为腔调不同，可以具有不同的含义。一般话单音节的腔调改动共有四种方式，不同的腔调反映在语音参数上是基音频率轨道的改动不同。依据试验调查所界说的一些规矩，可以以为基音频率轨道的某一参数逾越某一预先确认的门限时，则可判为某一腔调类型。在此根底上，黄泽镇、杨行峻提出的辨认方式选用基音轨道曲线的一、二次斜率、谷点和平整度对四种腔调有很强的差异性，试验标明，这一算法的成果辨认率可到达 99% 。

林茂灿指出腔调信息首要存在于首要元音（及其声学过渡）上。考虑到腔调音高的改动，对音长和音强都或许发生影响，即：去声最短、最强，上声最长，最弱，阴平缓阳平举重，阳平又往往比阴平略长一些。腔调的增强不能简略地对首要元音进行扩大，而应该不同的腔调在音高和音强上有不同的处理。实践运用中咱们采纳如下战略：

（ 1 ）对去声增强音强。

（ 2 ）对上声加大音长。

（ 3 ）对阴平缓阳平不改动。

图 3 展现的 4 条声学曲线别离描绘了四声在不一起间里的频率特征。

图 3 汉语四声的腔调声学特征

2. 办法 (Methodology)

数字助听器的中心部分是增益核算，依据频域的处理进程，它建立了各频率段的输入瞬时能量与增益的函数联系，如图3所示，对每个频段的瞬时能量进行短时能量累计和长时刻慢速均匀可获得信号辨认和分类所必要的数据。其间：

（ 1 ） E j (n)= a E j (n-1) 式中： a 是时刻常数。

（ 2 ）运用倒谱算法提取基频， 512 个点 FFT ， 40ms 汉明窗，窗移为 10ms 。

（ 3 ）用一个简略的滑动均匀算法对每个音节测到的基频进行滑润处理，除掉那些滑润段内违背均值过大的值。

（ 4 ）音高和音长别离进行归一化。

（ 5 ）选用一个二次曲线在最小均方差错的含义下迫临基音轨道。并核算曲线的一次斜率、二次斜率、谷点和平整度。

上述算法选用依据 TOCCATA 指令体系的汇编言语完成。 14 位 A/D ，采样率设为 32KHz 。

图3 . 汉言语语增强体系处理结构图

1). 语音的切分 (Classifications of Phonemes)

声波由音质（即音色）、音高、音强和音长四部分组成，这四部分在语音中起着不同的作用，但在时刻上又是一起并存的。

音质成分 —— 按音节区分，如元音、子音。

超音质成分 —— 由音高、音强和音长三部分组成，附着于一个音节或音段上。

从声波特性上看，可以由基频确认音高，依据振幅确认音强，依据时刻确认音长。

2). 处理原理 (Algorithm Principles)

中文语音处理首要体现在：

在验配进程的中，考虑中文语音长时刻频谱掩盖的频率作加权处理，举高方针曲线中言语频率的部分，可以到达加强语音了解的作用。

在助听器的信号处理程序中，对紧缩操控器做特其他设置，使对高频的信号紧缩的发动时刻和开释时刻很短 , 做到使子音明晰化的作用，增强运用者对言语的了解度。

在降噪处理中，依据中文语音在噪音环境中的采样剖析，得出了为中文语音优化的降噪战略。试验证明，该战略最高可以进步信噪比 18dB 。

二．中文语音处理技能在触及助听器的运用

下面是将中文语音技能运用到规划助听器的详细实例。这项技能选用了现在世界上最先进的 DSP 数字技能，包含低功耗的数字芯片。

1. TOCCATA 数字信号处理体系

Toccata TM 体系是微型、超低功耗、高效率的数字信号处理体系。它包含一个高保真加权叠加滤波器组（ WOLA filter bank ）、一个 16 位 DSP 中心、两个 14 位 A/D 转换器、一个 14 位 D/A 转换器和其它外围设备。 Toccata TM 技能供给规范的软件可编程的 DSP 开发渠道和选用 0.18 μ 工艺制作的微型超大规模%&&&&&%。它不光为音频处理体系制作商也为其它依据 DSP 的微型、低功耗产品的开发供给了便当。

1.1 硬件结构 (Hardware Structure)

图4 硬件体系结构图

TOCCATA 体系由三块芯片组成，一个 “ 模仿 ” 芯片（ ALPHA ），一个 “ 数字 ” 芯片（ DELTA ），和一个用于无电存储的 E 2 PROM 芯片。

1.2 ALPHA 芯片

ALPHA 芯片包含输入和输出扩大器，二个 A/D 转换器，一个 D/A 转换器，以及主时钟及供电体系。

1.3 DELTA 芯片

DELTA 芯片包含了 16 位软件可编程 DSP 中心，一个 WOLA 滤波器组协处理器，一个 DMA 操控器（输入输出处理器或 IOP ）和存储器（ RAM 和 ROM ）。可编程中心和灵敏的滤波器的组合答应经过软件改动信号的处理办法。因而，该结构可以履行传统的音频处理体系处理计划（例如双通道紧缩），当然经过 DSP 中心，也可以履行更强壮的处理计划（例如 16 通道甚至更多通道的紧缩，降噪，按捺反应等）。

1.4 DSP 中心和指令体系 (DSP Core)

RCORE 是一个灵敏的 DSP 中心，选用带单周期连乘累加操作和 40 位累加器的双哈佛结构。外围组件经过一个由扩展寄存器、存储器映象寄存器和同享存储器组成的复合体供给。

1.5 信号途径

图5 . Toccata 体系供给的信号途径：

2 Intelligia 数字助听器结构

Intelligia 全数字助听器是依据上述介绍的芯片的技能特征规划的，其结构可由图 6 标明。虽然同模仿助听器相同，数字助听器也运用麦克风和接收器作为能量转换器，但在数字信号处理器中经 A/D 采样后，电平信号已被转化为数字编码。数字编码可以十分灵敏地被加以运用来供给增益、改进频响，或按患者听力的要求作其它处理。当 DSP 算法完成后，数字编码又被 D/A 转换为电平信号，并经由接收器转换为声响。

数字助听器的关键在于具有信息处理体系，这儿以一款依据现进数字信号处理体系 Toccata TM ，开宣布的全数字助听器 Intelligia ，具有共同的中文语音处理功用。助听器在规划中将信号分解成 16 个波段滤波处理，再将 16 个波段的信号组成 10 组通道，每个通道独立运用输入主动增益操控办法 (AGCi) ，对信号进行紧缩处理，每个通道运用快慢两个时刻侦测器，快速时刻侦测器用以监督信号较快的改动，而慢速时刻侦测器侦测较慢的信号改动，也便是音节的改动，而且选用与中文语音改动相匹配的紧缩、开释时刻常数，到达更好的听觉作用。

全数码助听器技能特征：

1）中文语音信号处理

深化研讨中文和其他腔调言语的发声特征后，咱们把首创的中文语音处理的技能置入，使它能大大进步在中文言语环境悦耳音的可懂度。

2)更快

选用专为数字助听器规划的第 3 代数字助听器处理体系 TOCCATA ，它强壮的运算才干使能快速处理各种语音信号。

3)更省电

作业电流缺乏 1 毫安，而且它能在无信号输入时主动进入省电方式，如此低的能耗免除配戴者常常替换电池之苦。

4)彻底可编程

经过其可编程的长处为听障者装备最合适的听力补偿程序和参数，然后确保配戴者可以获得最佳的听音作用。

5)多通道独立紧缩

把外界的声响按频率细分红多个波段和通道，并对每个波段和通道的信号进行不同的处理，然后确保配戴者听到更明晰、更传神的声响。

6)降噪处理

能有用地按捺环境噪音，进步区分言语的才干，然后确保配戴者无论是在喧哗的大街仍是在喧哗的超市都能听到明晰的声响。

7)方向性处理

可装备一个方向性麦克风体系和相应的软件，能使降噪的作用更好，然后确保配戴者听到更明晰、更天然的声响。

8)声反应按捺

助听器在运用进程中简略引起啸叫，这种现象即声反应。选用了声反应按捺技能，能有用地按捺声反应的呈现，使配戴者听到更为舒适的声响。

9)可轻松晋级

因为选用全敞开的数字信号处理（ DSP ）渠道 TOCCATA 技能，供给了可编程的才干，具有充沛的适应性以及晋级才干，因而，配戴者只需选用咱们的软件，就可以马上享遭到最新的功用。下面是这款中文语音处理的技能指标比照 :

表 1 中文语音技能处理助听器和其它助听器的技能比较

在试验室中，具有中文言语增强办法的数字助听器，开端试验的成果标明，中文语音处理技能的运用，可协助以汉语为母语的患者更好地了解言语，进步恢复水平。在临床运用中，佩戴 Intelligia 助听器的患者感觉作用很好，特别在噪声环境中，增强了语音明晰度。从某种含义上讲，患者感到了解言语的才干得到进步。当然，咱们有必要意识到中文语音处理技能在全数码助听器中的运用仍处在前期研讨阶段。笔者以为听力学科学家和助听器专家应从下列几方面作更深化的研讨：

应对以英文和汉语为根底的语音处理技能作深化的比照研讨，特别是在噪音环境中，调查两种技能别离对两种语音不同处理的作用。最理想的试验条件应是运用有双语才干的受试者参与。

将中文语音处理技能和现在运用的非线性助听器验配法结合研讨，调查以英文为根底拟定的验配办法，是否在中文语音处理技能支持下，更有用地协助以汉语为母语的患者在日常日子中进步言语了解才干。

中文语音处理技能现在是人机对话的研讨抢手之一，其算法杂乱多样，咱们应该更深化地研讨具有中文特征的助听器技能算法，充沛发挥数码芯片的巨大潜力。

将中文语音处理技能运用到听力器设备中去才刚刚开端，这是一项十分杂乱、触及许多没有处理的技能问题的课题。可是，笔者以为只要开宣布具有汉语语音特征的助听器，才干更有用地协助很多的以汉语为母语的听残者。

扫一扫打开手机网站

微信扫一扫关注我们

中文语音处理在数字助听器体系的开发

联系我们

微信扫一扫关注我们

为您推荐

芯对话 | 从音频到工业 CBM8655/CBM8656低噪声运放实践指南

芯对话 | CBM1764:3A大电流LDO，从继电保护到工业控制

英飞凌成为全球首个在安全控制器中采用后量子加密算法而获得Common Criteria认证的公司，携手BSI为量子弹性的未来奠定基础

河北小漫电子商务有限公司新增代理产品线——MSKSEMI（美森科半导体）

2025第三届西部光电产业创新发展论坛（第一轮通知）

安森美与伍尔特电子携手升级高精度电力电子应用虚拟设计

联系我们

微信扫一扫关注我们