据外媒报道,日本电气科技大学和软银公司可以通过人工智能AI技术直接将手语翻译成日语,这将使聋哑人之间的交流更加顺畅。
目前,该系统只能在柜台设备上使用。聋人可以通过手语在镜头前交流。然后系统利用图像识别技术,分析人体手指、手臂等几个部位的骨骼运动,将手势翻译成日语,显示在工作人员的电脑屏幕上。然后,口头回复以文字的形式出现在聋哑人面前的屏幕上,使交流更加顺畅。
该系统的核心技术由2018年谷歌投资的ABEJA提供。ABEJA的核心产品是利用机器学习帮助公司从数据堆中进行业务分析。在这个项目中,ABEJA让AI学习了5万个手语视频,这样它就可以捕捉手语的特点和变化。目前,该系统可以将手势准确翻译成约1500个日语单词。
早在2015年,就有关于手语识别的研究。
人工智能技术的出现和逐渐成熟,不仅有利于产业升级,事实上,从很早开始,就有研究人员尝试用AI技术帮助聋人更顺畅地交流。
2015年9月,沙特一位设计师专门研发了一款内置传感器的无线智能手套。当聋哑人进行交流时,传感器可以根据手指运动跟踪手势,然后通过语言软件将其转换为声音和单词。在初期,这款无线智能手套只能说法语、英语和阿拉伯语,研究团队表示未来将支持更多语言。
我国早就有相关研究。2016年,有媒体报道东大自动化专业的李宁等同学开发了一种新型手语识别发声系统,这是一种结合了人体生物和姿势信息的便携式手语发声装置。聋人可以通过手语让机器发声和翻译。
2018年,东北大学还开发了一个智能系统,帮助听力障碍者进行交流,该系统由一个智能传感器手环、一个前端APP和云服务组成。智能传感器手环可以捕捉和识别听力障碍者的手语动作,并转换成云端的文字和声音,呈现在APP端,传输给非手语用户。同时,非手语用户的语音可以在APP端转化为文字和手语动画的“双语形式”。
百度、腾讯等互联网巨头也进行了相关研究。2019年,百度在AI开发者大会上提出了“人人都能AI”的理想,意思是每个人都能平等地拥有接收AI的能力。百度基于百度飞桨的开源内容构建了一个训练模型。通过收集手势数据,并在手机的帮助下将其转换为短信,听力障碍的人可以像咖啡馆和餐馆里的正常人一样,使用翻译来点菜和交流。
优图人工智能手语翻译界面
同样是在2019年,腾讯优图实验室还推出了一款基于自研算法的优图AI手语翻译机,该翻译机使用普通摄像头作为手语采集设备,用户正在向摄像头完成手语表达,翻译机通过后台操作可以快速将手语翻译成文字。据介绍,UTO AI手语翻译机的数据集涵盖了近千个日常表达,包括900个常用词,同时对数据进行分析总结,是目前最大的中文手语识别数据集。
手语识别技术面临巨大挑战。
与其他AI视觉识别技术相比,手语识别的研发难度更大。在东北大学2018年的研究中,揭示了手语言识别研究中的实际问题,即每个聋人的手语规划不同,同一单词所扮演的手势也不同,因此智能识别可能不那么准确。
幸运的是,2018年中央发布了《国家通用手语标准方案》,极大地有利于后续手语向文字或语音转换的研究。即便如此,仍可能存在微妙的差异
百度还谈到了另一个主要困难,那就是用于训练模型的数据量很小。在上述日语项目中,一位参与开发的软银工程师也表示,需要大量的手语数据来构建一个能够将符号准确翻译成日语的模型。因此,他们呼吁更多的人通过网站等方式发送手语图像数据。
总结
在提升服务业的同时,AI技术也能极大地帮助聋哑人更好地交流,这是这个时代的福音。根据第二次全国残疾人抽样调查结果,我国有听力障碍者2780万人。使用人工智能技术将手语实时翻译成单词和声音将是非常有意义的。
日本聋人联合会认为,要让人工智能成为聋人的有效工具,还需要很长时间。然而,显而易见的是,从2015年到现在,手语识别正在逐步取得进展,相当多的研究人员和企业参与其中。未来取得更大的进步还是值得期待的。