谷歌等语音辨认技术水平或超人类暂未投入使用

彭博社宣布剖析文章称，现在的语音辨认技能还不行老练，较为机械，一些模糊不清的词汇难以区分，也不能通过语境了解用户的真实目的。可是，近期语音辨认和人工智能范畴获得的打破让一项数十年前就已面世的数字神经网络技能获得重生。谷歌正在此神经网络技能的基础上开发可以整合其海量数据的语音体系，其可以让语音辨认更为智能，大幅改进了辨认质量。未来，市场上或将呈现精确率与人类适当或水平更高的语音辨认体系。

以下是文章全文：

与数字语音帮手谈天发生的趣味大约就像你尽力与一个固执的孩子讲道理相同。假如你从前对着你的Xbox大吼，或许诅咒Siri，那阐明你或许现已对语音辨认绝望了。

技能打破

可是研讨人员称，人类近期在语音辨认和人工智能范畴获得的打破将很快会大幅提高设备的了解才干。谷歌闻名工程师约翰·沙尔克维克(Johan Schalkwyk)表明，只需一到两年，这种功用强壮的新式设备就会面世。它不仅可以听懂人们说话的意思，还理解上下文的相关与细微差别。

沙尔克维克正在谷歌从事一项狼子野心的研讨项目，开发可以整合公司海量数据的语音体系。他表明，现在正在实验室测验的一个项目可以使计算机听懂并在本质上“考虑”人们向谷歌设备输入的语音。

语音和机器学习范畴近期的立异应该会大幅提高语音辨认的才干，缓解人们的不满情绪。Siri开发团队中有人表明，工程师们都在狂热地开发语音辨认技能，令其满足智能，以完成设备与用户真实地对话。“语音辨认技能对一切区域白话的了解才干已获得长足的前进，”Siri底层础技能的开发公司SRI International(后被苹果收买)副总裁威廉·马克(William Mark)称，“这种对话式互动现在成为了一种前沿技能。”

蒂姆·图特勒(Tim Tuttle)对语音辨认技能的腾跃等候已久。他在1997年获得了麻省理工学院的博士学位，并在该校人工智能实验室任职。曩昔10年，他先后在多家硅谷公司作业，并终究在2010年创建了自己的公司Expect Labs。图特勒的公司上一年开端从事一个体系研制，将杂乱的语音指令加入到移动运用中。这款运用可以答使用户进入一家商铺后向手机问询要买的扫帚在哪一条货架走道。

“一年前，咱们做了一次基准测验，得出的结论是难以完成这一功用。可是现在，一切都现已发生了改动。咱们公司对语音辨认进行了加倍出资，首要得益于咱们所看到的这些技能前进，”图特勒表明，“你将发现，那些在精确率上与人适当、或比人更高的语音辨认体系完成商业化。”

旧技能获重生

先来敏捷回忆一条历史教训：两年半前，谷歌和多伦多大学的研讨人员宣布了一篇颇有影响力的论文，内容关于运用“深度神经网络”在电脑中模仿语音。几个月后，微柔和IBM协作宣布了别的一篇论文。谷歌工程师杰夫·迪恩(Jeff Dean)将这两篇论文称之为“语音研讨范畴20年来获得的最大的一次前进”。

新发现让一项面世数十年的数字神经网络技能立异获得了重生。该技能在上世纪80年代在猜测和剖析大数据方面表现优异，但开展受制于其时过慢的计算机速度。神经网络在近期才成为一个可行的挑选，这要归功于计算机处理速度的大幅提高和新软件技能的开展。

谷歌的实验室项目便是依据神经网络研讨。6个月前，谷歌团队抛弃了一种名为前馈神经网络的旧办法，转而运用递归神经网络。这一转化使得体系可以存储更多信息，处理更长、更杂乱的序列。谷歌的立异效果在于对底层代码的简化，答应软件在相同体系中存储更多观念和概念，使之易于问出杂乱的问题和得出合理答案。 “体系构建得杂乱会危害其长时刻开展，”沙尔克维克说。

谷歌体系现在运用上下文、物理定位及其它了解到的说话者信息对说话的场所和真实意义进行猜测，就像人在说话时大脑所做的相同。谷歌的新网络技能应该会更高效，然后可以处理比以往更多的数据，答复更为杂乱的恳求。

为了解说未来语音辨认技能的作业原理，沙尔克维克运用了间隔谷歌加州山景城总部几英里之外的高档越南饭馆作为比如。这家饭馆名为Xanh Restaurant。沙尔克维克称，关于典型的语音辨认体系来说，辨认出这个饭馆姓名的发音是个应战，由于Xanh的发音为“zahn”，辨认起来好不容易。“假如我能运用地图，然后说‘这是一家饭馆，它坐落加州’，那么可供参考的饭馆数量就会马上削减许多，”他说，“运用这种语义常识，咱们可以大幅改进语音辨认的质量。”

这听起来简略，但关于计算机来说，听到一个词汇，从语句中辨认上下文，然后依据地理位置剖析信息是一件极为困难和消耗时刻的工作。现在，谷歌语音查找可以正确辨认饭馆，或许便是由于其开发者是饭馆老顾客的原因。沙尔克维克称，未来谷歌将能处理其他相同存在语音模糊不清的很多问题。

沙尔克维克表明，在谷歌内部，语音辨认获得了“数量空前多”的技能前进。虽然谷歌获得的严重前进还需要一到两年时刻才干在手机上表现出来，该项目现已催生出了可用于谷歌其他事务的技能。“你开发一些技能预备登月，与此同时，你也开发出了别的100项有用的技能，”沙尔克维克说。

沙尔克维克称，三年前，谷歌语音辨认技能或许仅能辨认3/4的单词。而现在，图特勒称，得益于立异速度的加速，谷歌手机语音辨认运用可以精确猜中12/13的单词。“未来，咱们将会生活在一个设备没有键盘的国际里，”图特勒说。

扫一扫打开手机网站

微信扫一扫关注我们

谷歌等语音辨认技术水平或超人类暂未投入使用

联系我们

微信扫一扫关注我们

为您推荐

河北小漫电子商务有限公司新增代理产品线——MSKSEMI（美森科半导体）

TE Connectivity携全系列解决方案亮相2024中国航展

河北小漫电子商务有限公司新增代理品牌——HI-LINK(海凌科)

ADALM2000实验：变压器

小漫电子到货 FH(风华)0603B104K500NT 40000只

小华半导体面向数字电源应用的HC32F334开始批量供货

联系我们

微信扫一扫关注我们