[PConline资讯]2017年年末,搜狗在乌镇“世界互联网大会”上发布了经过唇语辨认辅佐提高语音辨认准确率的开始效果,成为业界首家。近来,搜狗宣告开展一年多的唇语辨认模型的准确率,跟开始的50%~60%比较已有很大提高,并达到了能够将本来独立开展的唇语和语音辨认结合起来,构成“多模态”辨认的水平。
搜狗于2016年4月22日捐献1.8亿元给王小川的母校清华大学,联合建立“清华大学天工智能核算研讨院”,致力于AI范畴的前沿技能讨论研讨。本次发布的语音和唇语的多模态辨认正是由该联合研讨院主导。
相关论文《根据模态注意力的端到端音视觉语音辨认》在本年5月12-17日举行的世界声学、语音与信号处理会议(ICASSP)宣布,这是由IEEE主办的世界语音辨认、信号处理学界的尖端会议。
搜狗方面临国内科技媒体“量子位”介绍了论文主要内容。据介绍,将唇语辨认参加单纯的语音辨认,需求战胜两个主体问题:一是和谐音视频的不同帧率(一般音频为100fps,视频为24fps),二是合理确认音频和唇语内容对整个辨认成果别离奉献多大份额。
明显,这一份额绝不应该是固定下来的。有些时分,语音十分明晰可辨,此刻视频内容搞不好反而带来搅扰;另一些时分,语音比较含糊,这时才应该合理提高唇语辨认的比重。搜狗选用名为“根据注意力的编码器/解码器”的方法来动态确认当时时刻混用唇读和语音辨认的份额。
搜狗方面表明,该论文上一年6月立项,10月完结投递,其间挨近一半时刻用来处理份额问题。
在语音明晰可辨的环境中,视频的“注意力权重”约为35.9%。当信噪比为0dB(即噪音音量跟信号声响差不多大)时,视频的“注意力权重”提高到挨近40%,此刻“多模态辨认”的准确率比较明晰环境提高了30%。
在一段演示中,人们模拟在地铁运转环境中说话,一起记载下口型。单纯辨认语音的成果是“北京今天天气走”,单纯辨认唇语的成果是“嗯北京今天天气怎么样”,合起来即可得到正确成果“北京今天天气怎么样”。
语音交互技能中心首席科学家陈伟估计,结合视频读唇的语音辨认可能会用于未来的搜狗手机输入法,及结合了摄像头的汽车车机导航等环境(也就从另一方面代表着到时输入法将恳求摄像头权限以提高辨认准确率)。
海信(Hisense)7公斤滚筒洗衣机全自动 超薄嵌入 小型家用 除菌洗 冷水护色洗HG70DA10以旧换新
西门子(SIEMENS)274升大容量家用三门冰箱 混冷无霜 零度保鲜 独立三循环 玻璃面板 KG28US221C
美的(Midea) 微波炉家用小型旋转加热20L 智能蒸煮菜单 灭菌功用 M1-L213C
苏泊尔电饭煲家用3-4-5-8个人4升电饭锅多功用一体家用蓝钻圆厚釜可做锅巴饭煲仔饭智能煮粥锅预定蒸米饭 不粘厚釜 4L 5-6人可用
品胜 充电宝65W大功率30000毫安大容量PD20W快充野外移动电源适用笔记本电脑苹果15华为P70小米
绿联何同学引荐65W氮化镓充电器套装多口Type-C快充头适用pd20W苹果15三星手机macbookPro笔记本电脑线元
KZ Castor双子座有线耳机入耳式双单元哈曼曲线发烧HiFi耳返耳麦
格兰仕(Galanz)电烤箱 家用烤箱 40L大容量 上下独立控温 多层烘培烤箱炉灯多功用 K42 经典黑 40L 黑色
美的(Midea)中药锅煎药壶 智能陶电砂锅炖药锅煲 煎药机器 摄生熬药壶 大容量分体式全自动煎药壶 长效预定 【4L容量】JYC4002 4L
美的(Midea)电压力锅 高压锅家用5L双胆鲜汤深胆煮汤锅 智能多功用电饭煲 智能预定焖香饭智能 7段调压 多重口感 50Q3-FS 5L
漫步者(EDIFIER)M25 一体式电脑音响 家用桌面台式机笔记本音箱 蓝牙5.3 黑色
TCL电视 85V8E Max 85英寸 120Hz 高色域 3+64GB 2.1声道音响 平板电视机 【欧洲杯】 85英寸 官方标配
2024百度万象大会:文心一言APP月活超千万 成每个人的随身智能帮手
2024好用的医疗器械职业erp体系TOP10,医疗器械职业erp体系品牌哪个好?
2024好用的电子制造业erp体系TOP10,电子制造业erp体系品牌哪个好?