【原创研究】应用场景多个落地语音、图像识别较为成熟_电子学生证

2024-05-31 电子学生证

本文节选自集团子公司天堂硅谷近期即将出版的《AI行业报告及投资建议》特别报告，作者系天堂硅谷金融研究院以及多个聚焦AI领域的投资团队。

基于大数据、优质算法模型及芯片奠定的良好基础，AI在图像处理、语音识别等多个应用场景实现了落地。

图像识别是计算机视觉技术最为成熟的细致划分领域之一，是指计算机对图像做处理、分析和理解，以识别各种不同模式的目标和对像的技术。图像识别的原理和人辨认图像的原理基本一致：人眼在看到某一特定图像后，把图像信息传输到大脑后进行储存，再把当前的信息与之前储存的记忆作比较，实现图像识别。

第一，理解一个物体，比如说人脸，首先要检测一些关键点，比如轮廓、眼睛、嘴巴；

图像识别技术的应用领域极为广泛，包括无人驾驶汽车、VR、机器人、安防等各个新兴领域。目前主要使用在集中于2B端。而iPhone X 推出的Face ID功能，将人脸识别技术推向2C端。

语音识别指的是电脑自动将人类的语音内容转换为相应的文字，其原理为语音波经过前端语音信号处理模块、声学模型模块、字典模块、语言模块四个关键的模块处理后，经过解码得到最终的语音识别结果。自2011年开始深度学习的加快速度进行发展，传统方法中用于特征提取的GMM（Gaussian Mixture Model）模型逐渐被深度神经网络（DNN，Deep Neural Networks）模型所取代（图1），语音识别性能逐步的提升，词错误率显而易见地下降。性能快速提升的语音识别技术也逐步走出实验室，应用于各个场景中，实现商业化落地，例如语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。2013年，谷歌的语音识别系统单词识别错误率还在23%左右，而到了2015年5月，谷歌在其举办的谷歌I/O年度开发者大会上宣布其语音识别系统的单词识别错误率已经降到了8%。 2016年9月， Microsoft基于深度学习的语音识别系统将错误率降到了6.3%（数据来源：《人工智能》，作者：李开复）。 2016年11月，搜狗、百度、科大讯飞相继宣布其中文语音识别率达到了97%（图2）。

国内外均已有多家巨头企业切入语音识别领域。根据国家工业信息安全发展研究中心统计数据显示，预计到2017年，全球智能语音产业规模将达112.4亿美元，CAGR为35.1%。智能语音市场，全球来看Nuance和Google占据了半壁江山；谷歌、苹果、微软等科技巨头合计所占份额超过 55%。而在中国市场，科大讯飞独占半壁江山，市场占有率为 49.6%，与百度一起占据中国智能语音市场约 75%的份额。中国智能语音市场仍处于寡头垄断的阶段，未来可能将向垄断竞争过渡。

人工智能基础硬件及核心技术的一直在优化提升，其应用场景也加速渗透于消费级和企业级的各种类型的产品服务中。AI的加入使得企业的产品及服务的效率得到了提升、成本得到极大的控制。其应用场景可分为2B端和2C端两大类（表1）。

大部分公司的业务主要以B端解决方案和服务为主。一方面，B端业务注重与行业客户的互动合作，更加有助于人工智能技术和产品的落地;另一方面，行业客户对于生产效率的提高有强烈的需求，而C端产品需求仍需挖掘。不过，大公司的C端产品布局依然是相对活跃的。

从国内三巨头BAT来看，各自的落地应用重点不一样。百度的AI战略中，首要位置是用AI来提升目前百度已有业务，率先将AI能力应用到翻译、导航等产品当中，以提升这类产品的效率。其次，则是通过AI来培育出新的业务，例如智能云、智能驾驶等。对于阿里而言，电商本身即是落地AI的主要场景，例如智能语音客服店小蜜。在最近的云栖大会上，阿里又宣布推出一款支持中英文的智能会话客服机器人。此外阿里推出城市大脑，以及在制造业流水线上尝试“工业大脑”等，在B端进行尝试。而腾讯也紧随其后，推出了游戏AI、社交AI、内容AI等多方面落地场景。例如在围棋领域推出“绝艺”，上线智能语音助手App等，以及在医疗领域推出了一个医学影像实验室，早期用于识别食管癌。因此，不光AI的技术层面需要全力发展，寻找落地场景也是不可或缺的。

纵观基础层、技术层和应用层三个层面，各有其特点（图3）。多家巨头公司也纷纷进行了布局，而并非专注于其中的某一个层面。相对于基础层，应用层的投入较少，变现较快；虽然基础层投入要求较大，但从长期布局而言也是不可或缺的一层。

[上一篇] 【48812】智能的语音、快捷地辨认【AI聊沙龙第16期】

[下一篇] 亿田集成灶怎么语音唤醒