人机交互是一门计算机科学,主要研究关于设计、评价和实现供人们使用的交互计算系统和相关现象的科学。人机交互的发展经历了以下几个阶段:手工作业阶段、作业控制语言与交互命令语言阶段、图形用户界面()阶段、网络用户界面,目前已发展到多通道、多媒体的智能人机交互阶段。其中,语音人机交互是当前多通道、多媒体智能人机交互的主要方式。特别是苹果、科大讯飞语点的出现,让智能语音人机交互技术实现了新的跨越,得到了社会各界的广泛关注。
什么是智能语音人机交互技术?简单说,就是一种以语音为主要信息载体,让机器具有像人一样“能听会说、自然交互、有问必答”能力的综合技术,它涉及自然语言处理、语义分析和理解、知识构建和自学习能力、大数据处理和挖掘等前沿技术领域。这种技术既可当作独立的软件系统运行在用户的计算机和智能手机上,也可以嵌入到具有联网能力的设备中。
近几年,随着语音技术的持续不断的发展,人机交互逐渐走入语音时代,特别是Siri的出现推动了智能语音人机交互产业高质量发展迎来了新的高峰。大多数表现在:一是技术水准不断提高,特别是语音合成和基础语音识别技术发展较快;二是产业规模持续扩大,带动了家电、汽车、移动互联网等一批相关产业的发展;三是优秀企业大幅涌现,出现了如Nuance、谷歌、科大讯飞、捷通华声等一批优秀的企业。
同时,产业高质量发展也存在一些问题:一方面,语音识别技术其实是用于识别一些命令词汇和固定的语法格式,大规模的语音数据识别技术仍有待提升;另一方面缺乏成熟的商业模式极大地制约着产业的可持续发展。
经过多年的发展,智能语音人机交互产业形成了从核心技术研发到知识库提供再到应用、服务的完善的产业链。
包括人工智能机器人厂商、人机交互技术和渠道提供商,以及基础平台支撑和关联技术提供商。
主要包括小i机器人等智能机器人厂商,以及清华、中科院等人工智能技术探讨研究院校和科研院所。
包括Nuance、科大讯飞、捷通华声、车音网等语音技术提供商,以及短信(移动、电信、联通)、QQ、MSN等服务提供商。
主要是指数据和内容提供商,包括影视(百事通、优酷、土豆、奇异、华数等)、电影票(格瓦拉等)、音乐、餐饮(大众点评、订餐小秘书)、股票(新浪财经、东方财富网等)、天气(问天网)、航班(携程、去哪儿)、旅游(携程、驴妈妈)、导航(高德、凯立德等)、政府、行业知识库等。
包括长虹、创维等智能电视提供商、机顶盒提供商,以及东方有线、百事通、中国电信IPTV以及机顶盒制造商、服务运营商等,也可以包括费通、盛付通等支付渠道商。
包括各车厂、汽车安全信息服务提供商(如安吉星等)、车载信息服务提供商(如高德、凯立德等)等。
包括移动、电信、联通各运营商,以及以金融为代表的大型现代服务企业,还有面向中小型企业的综合服务平台等。
随着人机交互技术对语音技术的强烈需求,除了传统的智能机器人厂商以外,语音技术提供商和传统的搜索厂商也纷纷推出自己的产品,进入智能语音人机交互行列,形成了智能机器人厂商、语音技术提供商、传统搜索厂商和移动客户端开发者四大阵营,产业竞争进一步加剧。
智能机器人厂商是目前主要的智能交互技术提供商,是智能交互产业的重要组成部分。Gartner报告说明,截止2011年初,全球大约有36家智能客服系统服务商。如美国加州的eGain,主要为客户提供“云计算”交互中心方案或内部部署,客户超过上百家,遍及电信、金融、零售、公共事业、政府、制造、媒体、电子商务、旅游、汽车、外包、科技以及服务等行业。瑞典的Artificial Solutions定位于为企业和政府机构开发客服机器人,他们已成功的为欧洲近几十个政府部门提供客服机器人,从而减轻人工工作压力。
智能客服机器人在国内的发展应用于近几年呈现出了迅速增加的势头,其中有代表性的是小i机器人推出的智能客服机器人系列产品。
语音技术提供商纷纷借助这次智能语音人机交互产业高质量发展高潮,不断推出有关产品,提高个人提供智能机器人解决方案的能力。Nuance除了在北美市场有自己类似的解决方案Dragon go!,也在亚洲市场和一些当地合作伙伴合作,共推解决方案。国内语音技术引领者科大讯飞也推出了讯飞语点这样的产品。但语音厂商推出的智能机器人有明显的语音技术的痕迹,主要是命令格式的识别,而自然语言处理和智能交互性存在一定的不足。
虽然Siri也整合多家搜索引擎,但在很多情况下,是直接给了用户答案,这样的形式的易用性和效率以及使用者真实的体验远比传统的搜索引擎要强,也是对传统搜索的挑战。因此国际搜索巨头谷歌,以及国内的搜索公司百度、搜搜、搜狗等都在准备智能语音人机交互产品,提升自我竞争力。谷歌发布Google Now,能自动从互联网寻找知识,能回答的内容甚至比Siri更多。
Siri出现和移动互联网的空前繁荣,引来的无数移动客户端开发者开发智能语音人机交互相关的应用。他们采用第三方免费的语音识别服务(如讯飞语音云和谷歌语音搜索等),用简单的关键词匹配或全文检索引擎实现文本交互功能,做了大量的控件在客户端上展示信息,整合了一些诸如指南针的实用小功能等。
基于语音的智能人机交互是当前人机交互技术的主要表现形式,语音人机交互过程包括信息输入和输出的交互、语音处理、语义分析、智能逻辑处理以及知识和内容的整合。
包括跨平台即时通讯整合技术、超大负载消息集群处理技术、移动客户端开发技术。
语音交互方式替代文本交互方式,能加强信息输入方式,能和更多的设备做整合,未来市场发展的潜力广阔。目前,智能语音人机交互技术已大范围的应用到智能客服、智能终端等领域,切实深入到人们的生活。
智能客服是以自然语言处理和智能人机交互等多种人工智能技术为基础,通过即时通讯、网页、短信等形式,以拟人化方式与用户进行实时交互的软件系统,可以在一定程度上完成智能客服咨询和产品营销推广等功能。如果在智能客服的交互前端接入经过领域语料训练的语音识别能力,智能客服机器人就可以顺利的接入到目前的电话呼叫中心。
传统的客户服务中心以电话呼叫中心为主,并且很多大型服务企业在不断拓展更为经济高效的电子渠道,如网上在线客服、短信、智能手机应用等。而以领域客户化知识库建设为核心工作,并通过文本或语音等方式交互的智能客服系统则可以有效地和多渠道的客户服务中心做整合。在大幅缩减客服成本的同时,能够有实际效果的减少人工成本,增强使用者真实的体验,从而提升服务的质量和企业创新的品牌形象。
国外的智能客服系统市场发展较早,信息系统发展相对完善(尤其是CRM系统),人工服务的成本比较高,促使企业有较大的动力采用智能客服系统,智能客服技术提供商和客户较多。
而在国内,由于企业的信息系统发展相对滞后,人力成本相比来说较低,企业采用智能客服系统的动力严重不足。近几年,随着大家对智能客服的认知的提高,对新技术采用相对来说还是比较积极的电信运营商、金融领域已有多家采用了智能客服系统。
随着人们对智能客服系统服务价值的认知度的提高,以及交互习惯的形成,智能客服系统的社会价值和经济价值将会促进显现。以中国移动的客服机器人测算,目前移动集团在全国的人工客服坐席以10万计,一个坐席一年的运营平均成本为10万,采用智能客服能节约20%的开销,仅移动行业一年就能节约成本20亿。据Gartner预计,到2013年全球1000强公司中至少有15%会采用智能客服系统来提高服务水平。
以智能手机、平板电脑、智能电视、智能车载为代表的智能终端是智能语音人机交互技术最广泛的应用。在苹果Siri的带动下,包括Android、WP以及采用这些操作系统的平板电脑,都有采用类似Siri的智能应用的强烈需求。谷歌预计目前大约有25%的Android设备通过语音进行搜索。Datamonitor预计到2014年语音识别系统在全球移动终端市场的份额将达到2009年的3倍,移动终端有望成为智能语音技术的一个迅速增加市场。
在智能手机领域,随着苹果Siri的推出,三星、LG等一些国际手机生产厂商,也借助Nuance的Dragon Dictation接入了不错的语音识别能力。
在智能电视领域,创维、长虹、康佳、TCL、联想、海信等等纷纷推出具有语音功能的智能电视。全新的语音技术也让电视屏幕菜单变得互动(如菜单、频道/音量调节、节目表)、智能操控变得更有趣、生动和富有情感,真正意义上拉近了电视机与用户之间的距离。
语音技术的发展,为人机交互产业高质量发展带来了新的跨越,极大的增加了人机交互的便捷性,为移动网络、家电等行业发展带来新的契机。展望未来,随着语音技术和人机交互技术的逐渐成熟,以及高速无线G/Wifi)、云计算、物联网以及移动网络等基础技术的发展,以语音为主的人机交互技术的应用将会慢慢的广泛,并逐渐渗入到我们正常的生活的方方面面。