机器人从“听见”到“理解” 语音交互应对复杂
2016-11-18 14:35
在智能物联网时代,家庭机器人被称为家庭物联网的核心信息中枢。美国研究公司(ABI Research)的统计,2012年全球消费的智能家庭机器人产品总额已经达到16亿美元,预测2013~2016年估计会有2200万台智能家庭机器人得到销售。其中家用机器人销量估计为155万台,娱乐机器人为350万台;教育类机器人300万台。2020年将形成至少累计416亿美元的新兴市场,从此进入RT时代(Robotics technology)。


在家庭领域,智能语音交互是适应RT时代的新一代交互模式,且语音交互应用到服务机器人上是一个非常好的交互方式切入点,使得机器人更像人类,能和人类一样面对面交互。虽然带有语音功能的机器人进入家庭领域已是大势所趋,但良好的语音交互能力方能提供给用户最佳的体验。然而根据目前各个厂家的语音方案或产品来看,由于应用范围的扩大,传统的语音识别技术已然无法满足市场要求。那么未来机器人系统对语音交互的要求有哪些?为适应这一要求各大厂家又有怎样的应对措施?
 
思必驰信息科技有限公司市场总监龙梦竹


“未来机器人的发展对多模态的人机交互手段都提出了几乎一致的要求,就是‘交互’,从智能语音角度来讲,智能语音是交互手段,后端资源是交互对象,所以,要从深耕语音技术和丰富后端资源两个角度来提升语音交互技术。”思必驰信息科技有限公司市场总监龙梦竹说道,“思必驰强调垂直场景下的自然语言理解与交互,通过深度学习及大数据分析,准确追踪用户意图,结合丰富的后端服务资源,捕捉用户需求信息,以更加逼真的仿人类行为将为我们带来便捷,一语控制将是未来生活发展的必然趋势”

此外,做语音交互前端声音拾取的悠响声学,在专注于前端语音信号拾取的同时,在后期将会与语音识别厂商开发的语音包进行整合。深圳市悠响声学首席技术官彭远疆提出,声源定位、声纹识别等多种技术结合后便能实现未来机器人与人无障碍沟通。而在此过程中还有诸多难点需要克服,彭远疆告诉记者:“首先不同方向上的厂家研究重点不一样,要将其整合起来很难,另外,各个技术都处在成熟过程中,要融合起来还需有厂家出来消除这些技术上的壁垒,虽然现已有厂家在做,但效果并不好。”
 
深圳市悠响声学首席技术官彭远疆



彭远疆进一步表示,“对语音和图像识别结合而言,语音识别和图像识别本身就有难度,结合时候会有很多边缘技术的难点。语音要做定位,根据声源方向进行识别。人脸识别比较容易,但要判断人是否在说话很难,而且容易误判。人在光影环境下、取景框内多人、涉及到语义理解、根据场景判断有效与无效语音等,这么多难点结合起来要做一个比较实用的产品非常困难。”
 

语音识别局限性凸显 应用领域逐渐细分

随着智能硬件产品不断涌现、人工智能算法不断取得进步、大数据的灵活应用以及互联网+时代的到来,各类终端产品对语音交互提出了主动交互,高度智能的要求。具有主动交互能力的语音功能应用领域也不断扩张。面对语音交互这片蓝海市场,各个厂家针对不同领域开发或应用了不同的语音系统。

而对于这种将语音交互系统按领域进行划分的方式,彭远疆在接受记者采访时解释称:“因为语音识别本来有局限性,是一种搜索型运算,因此要划定搜索范围。如果应用在多领域,语音的处理时间以及能力都会变得很大。”

龙梦竹也对上述观点表示认同,并指出:“按照领域对智能语音系统进行区分非常有必要。因为不同领域的语音对话情景千差万别,区分领域,可使的语音解决方案更加垂直,相对应的服务资源更具针对性。因此思必驰在智能硬件领域,针对实际的使用场景,从用户的实际需求出发,为智能车车载、智能家居、智能机器人提供智能语音的解决方案。”

目前,在智能家居、汽车、医疗、教育等领域都有所涉及且在智能车载后装系统市场份额已位列第一的云知声AI Labs 资深人工智能专家刘升平博士告诉记者,通用语音识别系统虽说是通用,但的确需要依托于不同领域的属性。它的意义就在于不同的领域需要实现的功能总是有差异的,因为不同领域的专业性不同,需要提供的服务不同,应用对象的需求也不同,为了更好的实现用户体验,所以理所应当要按照领域进行划分,这个意义是十分明确且重要的。

Mic+算法增强前端语音拾取效果

据了解,在语音交互系统前端的声音拾取阶段,针对家庭领域机器人市场仍然可以细分,因此对于语音交互系统中拾音的硬件部分提出了一些个性化的需求,如有的需要小体积(无法集成多麦克风),有的又需要比较大,因此在做方案时成本、功耗、体积都得根据用户需求进行选择。
 
对于麦克风的安装方式,彭远疆告诉记者,目前国内分别有两种方式,第一种是比较常见的圆形或线形麦克风阵列安装方式,基于这种安装方式的音频处理方式也不同,最常用的便是波束形成技术;另一种就是悠响声学的个性化安装方式,麦克风安装位置可随着终端产品外观不同而不同,并不需要固定,因此基础算法上也有很大不同。而悠响声学音频处理技术主要业务在通讯行业,在家庭机器人领域目前已将他们独特的语音拾取技术应用在一个麦克风的布丁机器人以及7麦伴侣型机器狗两个产品的语音交互系统中。
 
此外,彭远疆还告诉记者:“在测试时,其他厂商国内多是利用麦克风固定后的几何位置来对语音做处理,造成的问题便是在做测试时效果会很好,但应用到机器人当中后效果会变差很多。”其原因在于算法只是基于麦克风的几何位置,在测试时麦克风放置空间是一个无干扰的空间,而在实际应用中有诸多障碍,因此效果不佳。对此,悠响声学基于一个模型,麦克风位置并不需要固定,在实验测试空间传递函数时围绕360度每10度发声测出一组参数存在机器人里面,再利用这组参数来做定位和语音分离。此外,该音频拾取技术虽然工作量较大,但准确率高,测试效果和实际应用效果比较契合。

目前悠响声学独特的Mic随意安装的语音拾取技术已成功应用到一款7麦伴侣型机器狗产品上,且可实现语音的盲处理,即可以同时检测到多方向讲话。而思必驰的“环形6+1远场麦克风阵列”解决方案也成功运用到了多款机器人产品中,如大华股份旗下的乐橙育儿机器人“小乐”,备受家庭及儿童的喜爱。各个厂家不同的语音系统在家庭机器人领域通过Mic安装位置不定或环状或线性的方式均有不同的应用,但从产品终端来看,语音功能无疑是家庭机器人功能上浓墨重彩的一笔。
 
在声音拾取过程中,除通过上述硬件安装方式提高语音识别外,在普通家居环境下的噪音有混响、回声、背景噪音、人声干扰等多种类型,因而不同步的语音相互叠加产生音素的交叠掩蔽效应,严重影响语音识别的效果。对此,语音厂商提出了不同的解决方案。

“解决该问题主要从抑制噪声和语音增强两方面入手。”龙梦竹告诉记者,“环形6+1远场麦克风阵列”方案中,麦克风阵列利用拾音波束成形,采用独特算法,可有效抑制波束之外的噪声,同时融合语音信号的空时信息,从含噪声的语音信号中提取出纯净语音,从而可以有效地增强说话人语音,在正常家居环境下,能够有效实现5米的远场交互,1米范围识别率达96%,3米识别率达94%,5米识别率达92%以上。

此外,悠响声学通过两种方式实现语音拾取。彭远疆告诉记者:“多个麦克风,先搜索方向判断几个方向有声音并拾取,再利用空运滤波技术把语音过滤出来,根据环境噪声作进一步处理,同时把环境噪声给处理掉。还有一种就是悠响声学目前比较新的一种方式,搜集空间所有语音信号,根据语音特性的差异(频率等)进行特性总结然后提取,从而分离出多路语音信号,由此在实现方位识别的同时可以将多个语音分离出来,如此便能改善机器人需要特定方向唤醒的缺陷并实现多人机交互。”彭远疆还表示,在多人交互技术方面,悠响声学目前已能实现4人同时与机器人之间的交互,不过这一技术尚未应用到新产品中。同时,他还指出该技术难点在于4人交谈中机器人如何判别哪些信息是针对它的,哪些不是,而这一问题需要音频厂商与语音识别厂商共同处理。
 
综上,在语音交互过程中,前端音频厂家通过无规则或环状及线性的麦克风阵列安装方式可获得不同标准的音频及声源信息;而后端语音识别与语义理解技术通过自家集成或多家技术结合等不同的融合方式,并辅以强大的日志数据及样本数据库,通过深度学习算法或神经网络算法可大幅提高语义理解能力及准确率,让机器人走向强人工智能道路。