导言
手语辨认的意图便是经过计算机供给一种有用的、精确的机制将聋哑人常用的手语手势辨认出来,使得他们与健全人之间的交互变得更便当、便当。一起,手语辨认的运用还能够供给更天然的人机交互办法,便当聋哑人对计算机等常用信息设备的运用。现在手语辨认能够分为依据视觉(图画)的辨认体系和依据数据手套(佩带式设备)的辨认体系。依据视觉的手势辨认体系选用常见的视频收集设备作为手势感知输入设备,价格便宜、便于装置。鉴于依据视觉的手势辨认办法交互天然便当,适于遍及运用,且更能反映机器模仿人类视觉的功用,所以现在是手势辨认的研讨要点。
手语辨认的研讨开始于1982年,Shantz和Poizner完成了一个组成美国手语的计算机程序。之后,我国、美国、日本、德国等许多国家都进行了自己国家的手语辨认与组成研讨,并取得了许多重要的研讨成果。Triesch和Malsburg开发了一种弹性图模板匹配技能对杂乱布景下的手形进行分类[1],在相对杂乱的布景下的辨认率到达86.2%。Davis和Shah将戴上指间具有高亮符号的视觉手套的手势作为体系的输入,可辨认7种手势[2]。Starner[3]等在对美国手语中带有词性的40个词汇随机组成的短语句辨认率到达99.2%。Yang等人选用7Hu不变矩特征量进行手语字母辨认,最好辨认率为90%[4]。
本文选用SVMs (Support Vector Machines,支撑向量机)作为手语辨认的分类器,提出了一种依据视觉的手语字母辨认办法。SVMs在处理小样本、非线性及高维模式辨认问题中表现出许多特有的优势,并能够推行运用到函数拟合等其他机器学习问题中。选用SVMs作为图画分类器首要要处理的问题是:怎么用典型视觉特征来表征图画的不同视觉特性[5]。
在图画特征提取方面,为了能够一起表征图画的大局特性和部分特性,需求一起提取图画的大局特征和部分特征,并且这些特征中用以描绘图画全体形状的特征应当具有平移、旋转和标准不变性。SIFT(Scale Invariant Feature Transform)是一种对标准空间、图画缩放、旋转乃至仿射不变的图画部分特征描绘算子[6];而7Hu不变矩特征量具有平移、旋转和标准不变性的特色,具有很好的稳定性,合适描绘方针全体形状。
手语简介
手语是一种聋人运用的言语,是一种靠动作/视觉外交的特别言语[7]。我国手语包括30个手指字母,大约5500个根本手势词。手指语是从字母言语发展起来的,是汉语手语的一种,用一个指式代表一个汉语拼音字母,依照汉语拼音计划拼成普通话。而手势语则是由象形言语发展起来的。它充分使用人的手势、表情和身体动作形象地表达物体和举动的最根本特征。
我国文字改革委员会、教育部等单坐落1963年联合发布施行汉语手指字母计划[7]。计划中包括汉语拼音中26个单字母(A~ Z)和4个双字母(ZH、CH、SH、NG)如图1所示。
图1 我国手语字母表
SVMs
SVMs的首要思维是树立一个超平面作为决议计划曲面,使得正例和反例之间的阻隔边际被最大化。关于二维线性可分状况,令 H为把两类训练样本没有过错地分隔的分类线,H1,H2分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离叫做分类距离。所谓最优分类线便是要求分类线不光能将两类正确分隔,并且使分类距离最大。在高维空间,最优分类线就成为最优分类面[8,9]。
设线性可分样本集为(xi,yi)),i=1,2,…,n,x∈Rd,即x是d维特征向量,y∈{+1,-1}是类别标号,d维空间线性判别函数的一般方式为g(x)=w×x+b,分类面方程为:w×x+b=0 (1)
式中w为权向量,b为分类阈值。要求分类面临一切样本正确分类,便是要求它满意:
Yi[w×xi+b]-1≥0,i=1,2,…,n (2)
满意上述条件且使||w||2最小的分类面就叫做最优分类面, H1,H2上的训练样本点,也便是使式(2)中等号建立的样本点,称作支撑向量。解这个最优化问题后得到的最优分类函数是:
在学习样本是线性不可分,但却对错线性可分的状况下,能够经过非线性改换把学习样本改换到高维空间,使其在高维空间里是线性可分的。用核函数 K(x,y)替代本来的点积(x·y),Mercer定理指出,核函数 K(x,y)经过与其相联系的非线性改换Φ隐含地把特征向量映射到高维特征空间,使得学习样本成为线性可分的。常用的核函数有:
图画特征选取
手语图画特征的选取,会直接影响到辨认的作用,因此在标明图画的不同视觉特征时本文一起提取大局视觉特征和部分视觉特征。为了防止图画切割东西或许带来的问题,在特征提取时不进行图画切割。在研讨中,将提取图画的以下特征:(1)7维不变矩特征量,作为图画全体形状描绘的特征向量(2)用Gabor小波提取48维的纹路特征,以标明图画的全体结构特点[10];(3)提取必定数量的爱好点及它们的SIFT特征[11],以标明图画的部分结构特征与所包括方针的大致形状。试验标明,大局和部分视觉特征能够有用的标明出图画的首要视觉特征。
Hu不变矩特征量
使用矩不变量进行形体辨认是模式辨认中的一种重要的办法, Hu在1961年首要提出了矩不变量的概念。Hu首要提出代数不变矩的概念,并给出了一组依据通用矩组合的代数矩不变量。这些矩具有平移、标准和旋转不变性,被称为Hu’s矩。
关于接连灰度函数 f(x, y),它的(p + q)阶二维原点矩Mpq 的界说为:
假定 f(x, y)为分段接连的有界函数,并且在x,y平面上有限区域内有非零值。依据仅有性定理,它的各阶矩存在且仅有地被 f(x, y)确认,反过来,f(x, y)也仅有地被它的各阶矩确认。
此外,还能够界说 f(x, y)的(p + q)阶中心矩μpq 为:
Hu首要提出了不变矩,他给出了接连函数矩的界说和关于矩的根本性质,证明了有关矩的平移不变性、旋转不变性以及份额不变性等性质,详细给出了具有平移不变性、旋转不变性和份额不变性的七个不变矩的表达式。