当语音辨认技能运用到核算机桌面的时分,这看起来似乎是一个好主意。可是,关于大多数人来说,语音辨认还不能替代键盘和鼠标。现在,语音技能正用于一个全新的环境:手机。语音辨认技能在手机中的运用将进一步推进这种技能向新的方向开展和运用。这是语音辨认技能在台式电脑运用中从来没有进入的方向。
IBM本年将留念其创立100周年。IBM在60年代初期创立了一个名为“Shoebox”的试验性的语音辨认体系。这个体系处理了白话算法问题。语音辨认技能是在50年代作为一项前期的技能榜首次呈现的,其时首要是由于猎奇。在60年代初,IBM的“Shoebox”设备可以辨认出16个白话单词并且可以答复简略的数学问题,如“3 + 4 =?”。
Dragon Systems在80年代初为DOS核算机推出的DragonDictate或许是榜首个语音辨认运用程序。这个运用程序只能辨认单个单词,每次只说一个单词。跟着时刻的推移,这个运用程序现已开展成为名为“Dragon NaturallySpeaking”(现在是第11个版别,由Nuance通讯公司全部)的产品。这个运用程序可以翻译以正常的会话语音和速度读出的文本。
语音辨认技能在台式电脑中的运用有两个约束要素。榜首,为了使这个运用程序以更高的准确性作业,这个运用程序必需求进行练习以便辨认用户的语音特征。Windows Vista和Windows 7操作体系中的本地语音转化文本技能和Dragon NaturallySpeaking等第三方产品依然都需求一个用户练习期才干运用。
第二个约束要素是键盘的盛行程度。大多数人现已习惯于键盘打字而不是说话,因而,语音操控面对Dvorak键盘布局相同的运用妨碍。当简略的旧式QWERTY键盘供货足够并且作业的很好的时分,为什么要学习运用Dvorak键盘呢?
微软TellMe团队是担任为多媒体环境开发语音辨认技能的部分。TellMe团队高档产品司理Abhi Rele指出,在台式电脑环境,用户有便利的人机沟通办法,如键盘和鼠标。因而,语音的运用首要是针对语音爱好者的。
语音操控的核算更广泛的运用需求两件工作:更好的便利的运用和首要运用语音的当地。手机正是很长时刻以来一直在添加的这种当地。
Nuance担任产品办理和营销的副总裁Matt Revis解说说,台式电脑和移动环境的区别是这样的:台式电脑是一个固定的环境,要点彻底在于台式电脑的运用状况。因而,台式电脑的语音技能首要履行如下使命:支撑工作运用程序、网络阅读、通讯等。在移动方面,语音更多地用于支撑各种生活办法方面:移动中的专业人员、野外的风趣活动、免提电话等等。
Gartner分析师Tuong Nguyen附和这个观念:语音在移动环境中更有意义。他说,从运用的视点看,掌上设备的语音辨认功用价值更大。它添加了用户友爱的、便利的输入办法。
Nguyen弥补说,假如不必语音技能说出一个简略的阐明语句,而是翻动许多菜单或许努力地在小显示屏键盘上进行输入,语音辨认的价值就显现出来了。跟着触摸屏设备(没有物理键盘)运用的添加,语音辨认技能将用来增强数据输入和输出。语音辨认还支撑免提要求或许法令要求。
在移动设备方面
由于移动设备一般仅支撑台式电脑的一部分存储和处理功用,语音处理需求一些时刻才干以根本的办法呈现在手机中。
语音处理Springer手册解说了手机在2000年代初的状况。虽然那时还有一些局限性,可是,手机经过编程之后可以辨认逐一数字的拨号语音,在某种程度上还能辨认人的姓名。首要问题是内存,因而,大多数手机一次只能辨认10个数字或许姓名。可是,这些作者指出的另一个问题是这个功用运用的比较少,或许是由于手机厂商在这方面的营销很糟糕。
跟着手机的添加内存和增强处理才能,一般手机的辨认才能也增强了。三星电子在2005年发布的价格99美元的SCH-p-207型手机添加了语音至文本的听写功用和语音拨号功用。跟着内存到达数百MB和存储容量到达数GB,现在这一代智能手机很少受到约束。
另一个要害的前进是网络速度。速度更快的无线网络浪潮抬高了许多大船,包含最新一代的语音处理技能。速度更快的网络可以把语音处理使命从网络迁移到长途服务器。
谷歌语音查找产品司理Amir Mane解说了速度更快的网络是怎么协助谷歌语音运用程序的。他说,由于全部深重的处理使命都是由谷歌服务器在网络上处理的,咱们减少了掌上设备核算才能的约束。
现在的运用程序
手机语音辨认技能现在的状况不只仅局限于语音拨号。语音发动的功用实际上就包含语音拨号。这是手机上呈现的榜首个语音辨认功用。现在,乃至许多低端手机都有这个功用,虽然这个功用处理手机电话簿中一些不常用的姓名的时稍差一些。
Gartner分析师Nguyen指出,比较新的一代语音功用是更敞开的。不必编程履行某些功用的详细的语音指令,运用程序可辨认语音并且履行恰当的举动。更高端的、更强壮的设备使这些运用更可行。换句话说,不只仅是可以运用这个短语“呼叫888-555-1212”拨打一个电话号码,用户还可以说“呼叫妈妈”或许“给我妈妈打电话”。
谷歌语音查找拥有比曾经的语音辨认技能更少的约束,由于全部的深重使命都是由网络服务器完结的。这使谷歌语音查找等语音驱动的运用程序更可行。例如,假如你说“创战纪电影时刻”,你会看到一个网页列出区域编号或许方位。这个运用程序不只可以辨认出这个短语的意思,并且还能供给你的手机(你当时的方位)和网站(上映时刻)的信息。
这个运用程序还十分了解英语,不必进行练习就能主动分辨出一些词汇的不同。假如我说“摩特里裤(Motley Crue) 乐队”,这个运用程序乃至能在查找词汇便利运用这个乐队的共同的拼写,虽然它会漏掉变音符号。查找“Motley’s Crew”,你会得到一个喜剧片。
这就是说谷歌语音辨认的约束明显地标明将使你进一步脱离干流的英语。外国人的姓名是没有协助的。语音辨认运用程序的另一个问题是环境的噪音。移动用户受环境噪音的影响一般比台式电脑用户多。Nuance公司的Revis称,在充溢噪音的野外环境中,语音辨认的准确性是一个问题。
自从2005年三星的那款手机推出以来,听写功用现已取得了长足的前进。由Dragon NaturallySpeaking驱动的iPhone的Dragon听写功用答运用户听写从备忘录、电子邮件到Twitter更新等全部内容。用于电子邮件的Dragon软件为黑莓设备供给了相似的功用。
关于Android手机来说,Nuance供给了FlexT9软件。这个软件把Dragon听写功用与三种类型的触摸屏输入办法结合在了一同。还有一个Handcent短信运用程序。这个运用程序集成了Android本地语音辨认技能以协助你用语音发短信。
文本之间的翻译现在现已推出多年(如经过闻名的Babel Fish网站进行翻译)。同声翻译功用现在还没有,不过,这种软件很快会推出。例如,用于iPhone的Jibbigo软件可翻译单词、短语和合理的简略语句,让两边替换地说话。
未来的方向
问询参加开发语音技能的每一个人下一个巨大的过程是什么。他们一般会给你一个答案:天然言语处理。
Revis把它解说为了解你的意思的体系,它不只仅知道你说什么。在会话式的互动办法中,用户说自己要说的话,没有约束用户怎么说这个话。他供给了指令或许要求得到信息的比如,如“我在什么当地可以买到100美元以下的尼康照相机?”或许“给杰尼发个短信说我晚到20分钟”或许“今日晚上在Morton’s订三个人的当地”。
谷歌的Mane称,在白话对话中供给天然的言语处理是一个两层应战。首要,你有必要辨认这些单词,然后,你有必要了解这个意思。榜首部分变得愈加简单了。可是,第二部分依然很难处理:意思是依据上下文确认的和难以敷衍的,人类做的语法分析也不是总是成功的。
微软的Rele以为,手机供给的额定的服务(如罗盘或许GPS)可以增强天然言语处理的有用性。他说,你可以为两个人组织吃饭和看电影,办法是运用不同来历的数据把这个使命分隔,如运用日历、饭馆排名、电影谈论和方位等数据。
此外,手机的服务可以用于供给说话的环境。Rele表明,用户的语音输入以及从其它有关用户及用户环境的传感器和状况取得的智能信息可以供给更丰厚的和更相关的成果。例如,假如你刚刚运用Foursquare网站检查有关饭馆,一些迷糊的语音指令就会倾向于外出吃饭、订膳宿和要一辆出租车等工作。
多渠道运用程序Vlingo自称是“虚拟帮手”,现已可以供给这些方面的功用。这个软件刺进到OpenTable和Fandango等服务中以完结许多使命:订饭馆、订电影票等等。
Nguyen以为未来语音辨认技能改善的另一个范畴是游戏。他说,在游戏中可以运用语音以添加玩游戏的不同气氛。例如,你可以把Kirk-style船长的指令传递给恒星飞船或许在在一个奥秘的工作中审问疑犯。
是你吗?
现已运用的另一个功用是主动地把语音辨认适用于单个用户。这是台式电脑语音辨认技能所要求的免提版语音练习。
例如,最新版别的谷歌语音查找有一个挑选性参加功用,答应跟着时刻的推移树立一个用户的客户化语音特征。Mane解说说,当用户挑选运用客户化语音辨认的时分,咱们在用户和用户的语调方面画一个边界,这使咱们可以树立一个开始的、个性化的语音辨认办法。
可是,个性化辨认并不是一个可以处理全部问题的技能,它仅仅完成语音辨认愈加无缝化的一个过渡过程。Mane称,咱们没有把个性化辨认看作一个仅有的处理方案,由于还会有更多的一系列的技能创新。Mane以为,这种技能未来的改善需求咱们的用户更活跃的参加。
定论
手机一直是许多技能的孵化器和推进要素,这包含硬件和软件技能。到现在为止,在这个组合中添加语音功用仅产生了逐渐的改善,谷歌语音运用程序的很好的功用。
可是,这些改善正逐渐地为更重要的前进铺平道路。移动技能为怎么集合这些新技能供给了一个全新的舞台。下一步或许不是一个了解你说的全部工作的手机,而是可以充沛了解你说的工作的一个更有用的手机。