< 【48812】方言技能新进展 奇富科技论文再登世界顶会INTERSPEECH_智能机器人案例_华体育app官网登录|华体会手机版

  INTERSPEECH,由世界语音通讯协会(International Speech Communication Association, ISCA)兴办,是语音处理范畴的尖端旗舰世界会议。作为全世界最大的归纳性语音处理范畴的科技盛会,历届INTERSPEECH会议都备受全球各地语音言语范畴人士的广泛重视。本届会议以“Speech and Beyond”为主题,内容包括语音辨认、语音组成、语音编码、语音增强、自然言语处理等多个范畴。奇富科技智能语音团队将受邀参加9月INTERSPEECH 2024科技盛会并宣布主题陈述,进一步同享其在语音辨认范畴的立异效果,与全球同行共探语音科技的未来。

  “百里不同俗,十里不同音”,我国幅员辽阔,方言品种丰厚,方言的语法和语音特征差异显着,加之噪声搅扰、方言稠浊、片面感知的标示问题,以及人力标示作业的庞大和系统性缺乏,导致语音辨认技能的精确性和智能化水平受限。尤其是在金融事务场景中,市面上的通用语音辨认技能在应对方言时常常体现欠安,导致人机交互的精确性和智能性大打折扣,服务功率和质量受损。

  为此,奇富科技引进全自研Qifusion结构模型,并将其集成到智能营销及贷后提示等事务场景中,不仅仅可以有效地处理上述难题,还在辨认精确率上得到大幅度的进步。在杂乱的通话环境中,语音辨认归纳精确率到达了93%以上,目的辨认精确率超越95%,在业界处于领先水平。

  凭仗自身在贷后场景及方言范畴的丰厚数据样本,Qifusion结构模型在原有东北官话、胶辽官话、北京官话、冀鲁官话、华夏官话、江淮官话、兰银官话和西南官话等国内八种干流方言的基础上,精准强化了四川、重庆、山东、河南、贵州、广东、吉林、辽宁、黑龙江等用户密布区域的方言辨认才能。这使得均匀辨认精确率相对提高了25%,尤其在川渝区域,方言辨认精确率相对提高超35%。

  Qifusion结构模型具有自动辨认不同口音的才能,并能在时刻维度上对解码成果进行口音信息批改,使方言口音的语音辨认误差率降低了30%以上,全体语音辨认字错率降低了16%以上,显着提高了使用者实在的体会。此外,在业界闻名的Kespeech 开源方言数据集功用比照测验中,Qifusion字错率改写模型最低值,到达国内顶尖水平。

  Qifusion结构采用了立异的层自适应交融结构,能经过同享信息编码模块,更高效的提取方言信息。一起,该结构模型还支撑即说即译功用,能在无需知晓额定方言信息的前提下,对不同方言口音的音频进行实时解码,完成精准的辨认和转译。这使得Qifusion结构在事务场景中可以敏捷精确地捕捉并呼应用户需求。

  据悉,奇富科技以继续立异为核心理念,致力于人工智能语音范畴的深入研究和自主研制。公司不仅在INTERSPEECH这一世界尖端语音学术会议上取得了显着成果,更在IEEE声学、语音与信号处理世界会议上宣布了多篇论文,如《根据多粒度Transformer的多模态心情辨认》、《根据SE模块和多标准特征学习的语音情感辨认》等,为全球智能语音技能的开展贡献了我国才智。

CONTACT US
欢迎随时与我们联系