您的位置 首页 新品

人工智能电视远场语音规划

本文介绍一种服务于人工智能电视,实现远场语音应用的麦克风阵列设计方案,阐述系统框架和硬件设计,同时介绍软件设计的部分要点。通过麦克风阵列,协助语音增强算法的实现,达到远距离拾音、回声消除、声源定位,满

作者 / 郭斌 林敏强 刘泽民 康佳集团(广东 深圳 518053)

  郭斌(1980— ),男,康佳集团多媒体研制中心新技能所所长,主研电视前沿技能,无线通信方向。

  林敏强(1990— ),男,康佳集团多媒体研制中心硬件工程师,主研智能前沿技能,人机交互方向。

  刘泽民(1994— ),男,康佳集团多媒体研制中心硬件工程师,主研无线智能产品方向。

摘要:本文介绍一种服务于人工智能电视,完结远场语音运用的麦克风阵列规划计划,论述体系结构和硬件规划,一起介绍软件规划的部分关键。通过麦克风阵列,帮忙语音增强算法的完结,抵达远距离拾音、回声消除、声源定位,满意当时智能语音运用的需求。

0 导言

  人工智能是20世纪新式的一门学科,从开展之初就遭到业界的广泛重视。人工智能从广义上界说是指具有语音感知、图画感知以及其他信息感知,具有逻辑运算才能,以仿人类的思想方法作业的智能体系。现在现已取得了不俗的作用,人工智能产品也掩盖到了人们日子的方方面面。人工智能科学具有宽广的开展前景和巨大的开展潜力,正确引导和标准人工智能科学的技能性开展和运用,必将会给人类带来巨大的财富[1]

  跟着大数据、云核算、深度学习技能的不断遍及,语音技能的不断优化,人工智能越来越具有从"感知"到"认知"的才能,产品形状的智能化程度越来越高[2]。人工智能技能在电视上的运用,将内容和交互结合,听歌、看剧、查询…用户都只需求开口就行,结合大数据后台,便会依据用户的喜爱推送个性化歌曲引荐;接入智能家居体系,即可语音操控各种设备,非常快捷。

  本文环绕人工智能电视的远场语音规划打开,介绍功用完结的结构和原理。

1 硬件规划

  根底功用硬件完结架构如图1,选用4麦克风条形线性阵列,模仿麦克风经ADC传输音频信号给MCU处理。MCU选用ST的STM32F401CDU6作为主控计划,STM32F401CDU6是一颗32位 ARM核芯片,内置512 KB Flash/96 KB RAM,低推迟,作业频率高达84 MHz,支撑宽电压1.7 V~3.6 V。模块计划通过ADC将A-MIC模仿信号转成I2S传输给MCU,MCU通过USB2.0和TV SOC传输音频数据。通过麦克风阵列模块调配算法有用完结声源定位、波束成形、去混响、降噪、增益调理、回声消除等功用(下文结合软件模块打开论述)。

  1.1 麦克风选料

  麦克风选用灵敏度-25 dB,信噪比74 dB的A-MIC,一起选用接线外拉的方法,有用防止出产进程中因高温焊接导致的麦克风灵敏度下降或损坏等问题,保证阵列麦克风灵敏度的一致性,对全体算法的精确度有比较好的操控和要求。不过相应的会对整机出产装置构成难度以及添加人工成本,规划之初需求做好防呆规划,进步装置可靠性和功率。

  1.2 供电规划

  模块选用独立的供电,电视待机时,可支撑通过模块待机唤醒操作。模块需求区别电视待机和开机状况,开机状况下,唤醒词拉起语音运用。待机状况下,唤醒词本地处理通过I/O口建议开机信号。因而待机时,供电封闭500 ms后重启,模块从头读取USB数据信号是否为空,以此来判别主机状况。

  1.3 参阅信号规划

  参阅信号指的是主机端供给给模块的音频参阅,作为回声消除算法的依据。参阅音频由功放输出信号,通过火压、滤波后传输给模块。依据芯片取值规模要求,保证输入到模块的参阅信号幅值≤1 Vrms,即图2中从AMP+/-经分压后到SPK+/-的信号≤1 Vrms。

  这儿说到别的一种分压方法,如图3,因为R36、R38阻值存在差错以及喇叭的寄生电容等影响,改变了差分信号走线的阻抗,使得其关于共模搅扰按捺才能削弱,且简单在参阅信号中引进杂音、破音。实践测验比照两者播映1 kHz测验音频时,该分压方法发生显着的失真,如图4比照。

2 软件规划

  软件分本地处理和云端处理两部分。如图6,浅灰色部分为本地处理,深灰色部分为云端处理。本地算法包含回声消除AEC、声源定位DOA、波束构成BF、去混响DER、降噪NS、自动增益调理AGC、频域均衡EQ,终究编码传输。云端首要担任对接纳到的音频进行文本辨认、自然语言处理NLP、终究通过事务逻辑和技能处理,将成果经TTS服务器反馈给用户。其间,在辨认处理的一起,音频信号经VPR服务器进行读取,对音频剖析特征值,也便是声纹辨认。声纹辨认的成果也供给给事务单元处理。

  2.1 回声消除

  自适应回声抵消的基本思想是估量回声途径的特征参数,发生一个模仿的回音途径,得出模仿回声信号,从接纳信号中减去该信号,完结回声抵消。图5给出了单向传输的声学消回声器AEC的原理图。图5中,x(n)代表麦克风拾音的信号,包含了本地声响和方针人声;y(n)是通过回声通道而发生的不希望的回声;r(n)是经算法抵消后的方针人声;A口的信号x(n)叠加有不希望的回声[3]

  2.2 声源定位及波束构成

  麦克风拾音在实践运用环境中不只仅有直接抵达的方针语音,还有方针语音通过墙面反射、衍射等其他途径抵达的部分及混响,以及环境噪音及本地噪音的搅扰。声源定位即依托分布式麦克风阵列,对接纳到的信号进行函数运算,依据核算的信号时延差获取方针音源的视点方向。波束构成的原理运用麦克风阵列的特性,将噪声进行按捺或进行非常大的衰减以进步承受方针信号的质量[4]

  2.3 语音辨认

  语音辨认的进程首要由远场或近场方法进行拾音,由语音辨认服务器(ASR)和语义了解服务器(NLP)完结录音文件辨认和成果转化。辨认成果经语音组成服务器(TTS)组成人声将成果反馈给用户。

  语音辨认服务器(ASR)首要将电视端录入的音频文件进行辨认,将辨认成果的文本直接发送给语义了解服务器进行解析,能够分为远场/近场以及不同方言进行处理。

  语义了解服务器(NLP),现在运用主服务器加辅佐服务器的形式进行语义了解处理,在语音辨认服务将文字传给语义了解服务器后,运用第三方供给的主服务器进行优先解析,辨认成果进行权重值核算,权重值高的辨认成果直接回来客户端进行处理;权重值低的辨认成果回来给康佳语义了解服务器,由康佳语义了解服务器进行二次处理和转发,假如主服务器不能辨认的句子则由康佳语义了解服务器进行辨认,然后依据辨认成果的范畴分发给其他对应在该范畴处理比较好的其它服务器进行语义了解处理,辨认之后回来康佳服务器再一致回来客户端进行处理。

  语音组成服务器,首要将辨认成果和了解处理成果的文本进行语音组成和人声播报,能够界说不同的人声播报抵达不同的作用,处理成果为生成一个音频文件回来给客户端。

3 小结

  跟着人工智能技能的开展,语音成为了不可或缺的首要交互手法。麦克风阵列在智能音箱、智能电视乃至智能空调、冰箱、抽油烟机等家电上都逐步开端运用,商场一度呈现了人工智能热。麦克风阵列的规划及运用是AI智能服务落地的根底,本文提出人工智能电视远场语音麦克风阵列的规划,从硬件体系、软件模块、功能原理、以及器材选型等多方面进行了原理剖析研讨和规划计划论述,合作云端后台,完结电视人工智能对话的场景。

  参阅文献:

  [1]王太忠,吕叶. 人工智能浅析[J]. 科教文汇(上旬刊). 2012(09):70-71

  [2]陈长伟. 人工智能+内容敞开广电智媒体年代[J]. 有线电视技能. 2017(11):26-29

  [3]王庆辉,李永哲. VoIP声学回声消除算法研讨[J] , 现代电子技能, 2009 (07).

  [4]杜军,桑胜举. 根据麦克风阵列的语音增强技能及运用[J]. 核算机运用与软件. 2009(10)

  本文来源于《电子产品世界》2018年第10期第50页,欢迎您写论文时引证,并注明出处。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/xinpin/131598.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部