手语识别
一、简介
手语识别课题组(Sign Language Recognition Group)的主要任务是研究手语识别中的问题。手语是聋人之间主要的交流方式,目前,全世界有1亿2000万聋人,中国有2057万聋人,在为健听人提供基于语音的人机接口时,也应该为聋人提供适合他们习惯的交互方式。此外,和谐自然的人机交互环境,使得用户可以方便、自然地使用人类所熟知的方式使用计算机,这其中的重要环节就是要使得计算机能够准确无误的感知包括自然语言、手势语言、面部语言在内不同人类表达方式,而手语包括双手、面部表情、口型和体势多方面的信息,因此,可以手语识别可以作为多通道人机交互研究的开始。手语识别的研究涉及心理学、生理学、人工智能、模式识别、计算机视觉、图像分析与处理等多个学科领域,更是模式识别、人工智能和计算机视觉学科的典型案例之一。
课题组从1998年开始从事手语识别方面的研究。目前共有研究人员7人,其中教授2人,副教授1人,博士研究生3人,硕士研究生1人,手语数据采集人员1人。
手语识别课题组先后得到过国家自然科学基金重点项目、863的资助,当前的核心任务集中在手势、面部多通道手语信息融合、自适应和与视角无关的手语识别算法的研究。 二、主要研究方向
当前的主要研究方向有:
- 大词汇量的手语识别
- 基于词根的手语识别
- 基于视觉的多通道手语信息的融合
- 手语自适应
- 与视角无关的手语识别
大词汇量的手语识别
中国手语词典中收录了5000多个手势词,在这些词的基础上,本课题组实现了基于数据手套的、特定人的、大词汇量的在线识别系统,可实时识别连续语句。本课题组采用HMM技术,为了适应手语词长短不一的情况,采用自适应设置状态结点数目的方法按手势词的变化情况自动设置适当的状态结点;为提高识别速度,采用了数据流捆绑、快速搜索等算法,可实现实时识别。具体地说,主要包括以下研究内容:
1. 手势特征提取
本课题组采用数据手套和位置跟踪器采集手语数据,数据手套可获得手指各个关节的角度,位置跟踪器获得手的位置和方向信息。为了避免由于人相对发射器位置发生变化而引起的误差,本课题组提出了一种与打手语人位置无关的特征提取方法,利用三个接收器,分别放在左右手手背和后背,后背的接收器提供一个参照坐标系,可计算左右手相对于参照系的位置和方向。该方法已获得了国家专利。
2. 手势词统计模型
为每个手势词建立一个HMM模型,由于手势词长短不一样,差别比较大,如果状态结点数目设得少,则会影响长词的识别结果,如果结点数目设得多,而短词数目占总数目的2/3,会导致计算量的增加,基于此,本课题组采用动态规划的方法根据手势词的变化情况自动设置状态结点数目。
3. 译码算法
本课题组采用Viterbi-beam译码算法,对于大词汇量的手语识别来说,如何在保证一定的识别率的情况下,提高识别速度是研究的重点。本课题组将状态结点的均值进行聚类,为了减少类别数目,可以按数据流聚类。译码时,首先计算当前帧到各数据流的聚类中心的距离,大于阈值的设为活跃,如果某个模型有一个结点所有数据流都是活跃的,则该模型作为候选词进入搜索路径,这样就可以减少很多计算量。
对基于视觉的手语识别,本课题组也进行了相关研究,采用正向单目摄像头,用颜色手套辅助手的定位和特征提取。选取了439个高频词作为词汇集,这也是当前基于视觉的手语识别研究中的最大词汇集。
本课题组与其他研究单位的识别率比较如表所示。
孤立词的比较
连续语句的比较

基于词根的手语识别
在大词汇量的语音识别中,用音素、音子作为识别基元获得了很好的识别效果,这一思想是否可以用于手语识别呢?本课题组针对这一问题进行了研究。尝试在手语中找到数量较少的识别基元。手语中没有现成的基元,本课题组依据辞典在中国手语中整理出2400多个词根(这些词根可组合构成手势词),并在此基础上实现手语识别,采用搜索树、前向索引表等技术提高识别性能,并与基于词的结果进行了比较。本课题组将继续尝试寻找各数据流的基元,以进一步减少基元的数目。
基于视觉的多通道手语信息的融合
聋人在交流过程中,除了用双手表达外,还用面部表情、口型等进行辅助,如果遮挡面部信息,并且预先不知道谈话背景,手语的可懂度只有60%。因此,若要真正实现手语识别,就必须包括面部信息,即实现手势、口型、面部表情、体势的多通道信息的融合理解,这也是目前国际上手语识别领域要研究的难点和热点问题。本课题组将口型、表情等信息逐步融合进手语识别中,以提高识别率。
手语自适应
由于不同人手语的打法差别很大,因此非特定人的手语识别是一个很困难的问题。在语音识别中,采用自适应技术取得了比较好的效果,本课题组将自适应的思想引入手语识别领域, 研究手语自适应算法。
与视角无关的手语识别
在基于视觉的手语识别中,当摄像机的角度发生变化时,如何保证手语被正确识别是本课题组正在研究的问题之一。国外有些研究机构利用两台或多台摄像机,构造手势的三维数据来避免视角变化带来的影响,但是这一条件要求有时无法达到,本课题组研究在单一摄像机情况下的、基于极几何的视角无关的手语识别算法的研究。该方法通过比较手语输入序列与模板的基础矩阵的唯一性实现手语的识别。
|