海天瑞声1月5日发布投资者关系活动记录表,公司于2021年12月31日接受95家机构单位调研,机构类型为QFII、保险公司、其他、基金公司、海外机构、证券公司、阳光私募机构。
答:科大讯飞是公司多年来的优质客户,公司给科大讯飞提供的产品及服务大多分布在在智能语音领域,包括语音识别数据集产品、语音识别数据定制服务等。
答:客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,常常要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到咱们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户要进行产品功能、语言等方面拓展,需要再次购买模拟数据集来支撑,后续再采购数据加工服务进行迭代,如此周而复始。
以智能家居场景为例,客户可以提出家居场景下的智能音箱所需的定制化训练数据需求,我们则可以根据具体要求(例如近场/远场、户型、性别、年龄分布、语言等等)来设计文本、数据集结构和部署采集场景,然后由供应商按照上述要求来组织人员,在公司的管理下进行录音的工作,接下来按照标注要求对这些录音数据进行标注处理,这就形成了经过标注的文本、采集的音频文件、以及文本与音频的音字对应关系等,这基本上就构成了该数据集的核心要素,之后再进行质检,确保数据集质量,最终交付给客户,应用在客户的智能家居类AI产品的算法训练、生成对应的模型,并最终驱动该AI产品为终端用户在家居场景下提供语音交互功能。
答:近年来公司开始与一些传统车企、造车新势力、以及头部自动驾驶技术公司建立合作,客户目前大概有10-20家。客户的数据需求分为车内数据与车外数据,在车内座舱类数据方面,客户需要通过使用训练数据来训练其语音识别、语音合成算法模型,进而支撑其车载语音交互产品或应用;在车外数据方面,训练数据则会被用于道路识别、行车决策、泊车决策等场景。近年来,随着汽车智能化理念的普及和自动驾驶技术的逐步落地,与智能驾驶相关的数据需求开始呈现规模化的趋势,例如针对车载雷达传感器传回的3D点云数据,经过处理,形成结构化训练数据集用于雷达传感器算法或自动驾驶系统算法的训练。目前,公司为更好的承接智能驾驶业务,已经开发并上线D联合标注解决方案,同时还将持续加大这方面的研发投入,全面进行该类业务拓展。
智能驾驶业务对于公司来讲是一块新的业务,从业务的宽度看,需要覆盖从数据采集、处理到训练、仿真、测试、验证的完整闭环。从客群特点看,除自动驾驶技术公司外,整车厂等传统应用技术的公司会成为公司的直接客户。因此,智能驾驶业务从客群到技术方案到交付都有自身的行业特征和逻辑,公司今年与部分行业头部企业建立了合作关系,也正在进行智能驾驶行业的系统化梳理,希望通过自身在数据处理平台、数据质量、需求对接、项目响应能力、供应链资源管理能力的积累,深入与现有客户的合作,并扩展更多的客户。同时也会积累智能驾驶领域的标准数据集产品,迎合更多客户多样化需求。
问:客户是否会自建数据团队?什么样的数据是客户做不了、交给海天这样的公司来完成的?
答:有一些客户是会有自建团队的,客户自建团队主要解决其自身的部分数据需求,如敏感数据等,但受专业化分工的影响,客户仍然会大量购买数据服务提供商的数据,尤其是那些需要投入较高研发力量的复杂数据,以充实其算法模型训练的规模性需求。相较于客户自建团队,海天瑞声历来都是对接众多大型科技公司、头部人工智能企业、科研院所等,获得的信息是广泛的,项目经验丰富,同时积累了大量的know-how,对数据的理解更广、更深刻,同时我们搭建了成熟的数据处理算法平台,通过更高效的人机交互实现降本增效,保证数据质量的同时能有效降低成本,为客户提供更高性价比的训练数据产品/服务。
答:从综合毛利率角度看,智能驾驶业务毛利率跟语音类业务近似,后续会随着标准化产品及定制服务的占比贡献的变化而波动,在智能驾驶整体市场技术路线不尽相同的当下,预计未来定制服务占比可能会更高一些。同时,为了抢占市场,相比于利润,公司当前会将重点放在获得更多的市场份额上。
此外,目前公司在智能驾驶领域的研发投入较大,所以综合起来看,会对盈利情况产生一些对冲。但公司坚信这是一个必须要大力度投入的方向,未来也会持续加强在该业务领域的投入,以确保公司在智能驾驶领域占据领先优势。
答:随着疫情的常态化,我们将努力使公司业务逐渐恢复到过往的较高增长状态。未来几年,公司预期业务能在以下几方面抓住机遇、有比较好的表现:
(1)境外头部客户将陆续开始部署下一步研发计划,进而其数据采购需求将会有进一步释放,同时在头部客户以外,境外更大市场的挖掘也将给公司带来更多的商业机会。公司将相应在境外投入更大的销售力度、资源,采用更综合的营销方式,以最大程度地抓住此机遇;
(2)境内一些大客户从自身的发展战略看需要做出海、国际化战略扩张,随之而来的是开始在多语种领域进行拓展,而公司在多语种数据集产品及定制服务方面都有多年的积累,此外,公司在数据质量、需求对接、项目响应能力等方面都有着较为显著的竞争优势,这些都将助力公司能够以较强的竞争优势抓住这方面的业务机遇;
(3)作为一个新领域,智能驾驶业务将是公司着力发展的一个方向,今年我们也看到客户在这个领域的需求逐渐爆发,相信未来也会有一个良好的增长趋势。公司在智能驾驶业务领域已经开始进行了大量研发、资源投入,并已经与一些传统车企、新势力车企、自动驾驶技术公司建立了合作,相信这些都将为未来智能驾驶业务的大规模拓展奠定坚实基础。
答:海天瑞声作为一家面向全球的训练数据服务商,拥有数量众多的境外客户,遍布美国、韩国、日本等各地区,日韩主要客户有三星(韩国)、纽康、Naver;美国客户主要有微软、亚马逊、Google、Facebook等。根据目前掌握的情况,海外客户更追求专业化分工,自建数据团队的情况较少,即使客户拥有自身的数据团队,由于人工智能产业的高速发展使训练数据服务行业的整体容量很大,需求方自身解决部分数据需要,不会对公司的市场需求带来太大影响;而且,与客户数据处理相比,公司同时接触业内各大公司和各方面的需求,掌握了更多元化的数据,形成了高迭代频次和更优变现的数据处理算法和平台,而且公司是规模化地处理数据,可以更好的实现规模效应,这就意味着客户把数据需求交给海天这样的公司可以实现高性价比的效果。
问:客户的算法技术如果越来越先进,对数据的需求是不是会减少?例如智能驾驶领域?
答:在算法开源趋势不可逆的情况下,算法要想变得更好,数据是最重要的驱动力。举例来说,客户的算法模型如果想往新的外语种拓展,则必须采购特定语种的数据集;此外,AI与各个垂直行业融合过程中,更是离不开该场景下的数据集,且客户的需求更偏向是“包括数据在内的综合性解决方案”,智能驾驶就是一个很典型的例子,客户的大多数真正痛点需求来自于“如何实现智能驾驶中的数据闭环”,这就要求数据服务商同时能满足客户在海量数据603138)处理与管理能力方面的需求,这恰恰是智能驾驶从研发测试到量产落地的关键因素与挑战,智能驾驶级别越高,所需的传感器数量则越多、精度也越高,相应的数据量就会急剧的增加。因此,对海量数据进行高效的采集、处理、管理、利用,持续提升数据闭环的循环速度是智能驾驶技术升级与迭代的关键。
答:元宇宙是一个综合性的技术和应用概念,从公司接触到的需求看,元宇宙业务过程中所需的虚拟人、虚拟环境、声音、面部表情等要素原则上都是需要从真实世界获取一些样本数据进行训练,产品或应用投入使用后则会产生自身场景的数据,也需要类似海天瑞声这样的专业训练数据提供商进行加工处理,以此促进产品功能的升级迭代。公司的客户中不乏以元宇宙作为下一代业务扩张的主方向,而训练数据也是在客户进行相关研发投入时不可或缺的要素,公司也将持续服务这些客户,响应新的需求。
答:据以往的订单情况,前二十大客户大概贡献了公司收入的80%左右,存在一定的头部集中度,不存在对某单一客户依赖的现象。此外,公司的前五大客也不是固定不变的,基本每年都会有新的客户进入到前五大的序列,即,客群对收入的贡献会有轮动。这样的客户构成一定程度与AI产业相对头部集中的格局相关,大型科技企业在研发投入更为持续、在多元化需求上也更为引领。因此,在客户策略上,对头部客户的深度挖掘是公司重要的大客户策略。同时,公司也将会持续观察市场、调整自身的业务模式和产品服务形态,挖掘更多的腰部客户和中小客户需求,丰富公司的客户群体。
答:境外业务整体上毛利率比境内业务高。相较于境内客户,境外客户更看重品质和服务,愿意花费更高的价格获得更满意的服务或产品。
答:公司自成立之初,始终专注在训练数据领域,未来也将继续这个赛道拓展。在数据业务的开展过程中,算法是很重要的基石,算法矩阵是公司的数据处理平台的基础,为训练数据的生产全流程提供支撑,以持续迭代的智能化人机协作模式来不断提高数据处理质量和效率、降低成本,在数据处理领域掌握最先进的算法是公司一贯的目标。随着人工智能产业的不断发展,尤其是当AI逐步与各个垂直行业融合时,单单数据领域的潜在宽度、深度就已经存在巨大的蓝海,因此公司会在数据领域继续深耕。如果在提供数据解决方案的过程中,客户需求涉及模型训练等与算法相关的延伸服务,公司也会提供相应的服务。
答:海天瑞声自成立之初就把数据安全、数据合规视为生命线,在这方面的投入是伴随着这么多年的业务发展的,且已经形成了较为成熟的安全、合规框架和体系。目前,公司符合GDPR、《数据安全法》、《个人信息保护法》、以及其他一些与网络数据安全、数据跨境相关的法律法规的要求,并通过了业内重要的ISO/IEC27001体系认证、ISO27701个人隐私信息安全管理体系认证等。同时,公司认为,数据安全相关法律体系的完善对训练数据产业的健康发展产生将深远的影响,有利于规范行业行为、治理行业乱象,提高行业门槛,为公司的发展创造更加有利的条件。
答:公司2019年底通过战略融资引入中国移动和中国互联网投资基金,过往2年中已经通过战略协同安排,逐渐进入电信行业和网信安全行业,并藉此代表行业与国家政策制定部门实现有效对接。未来,公司将继续与两方保持紧密战略协同,助力公司业务不断向电信、网安等政企领域拓展。
答:我们的研发人员、技术人员分别构成了公司的两大部门-研发中心、数据业务中心。研发中心主要负责:(1)公司的基础算法研究;(2)公司各种平台/工具的开发;(3)语言研究,目前公司自营业务所需的全流程平台/工具均是公司自行研发。数据业务中心主要负责公司训练数据产品的开发和训练数据定制服务的提供,在这个过程种,研发中心提供了重要的算法支撑、平台工具的支持。
公司在研发人员和技术人员方面有较为明确的扩张计划,这是与公司的整体发展布局契合的。技术驱动数据业务需要更多的算法研究人员,不断深化算法辅助能力,进一步完成规模化的提升;数据形式越来越多样化,公司需要提升工程化能力,开发更为先进的工具和平台,满足各类数据的处理需求,这方面需要更多平台开发人员;产品、服务双模式,促使项目数量及产品开发的增多,需要扩大技术人员团队,完成产品设计、客户需求对接、项目管理、交付验收等各方面的工作。
答:语音业务领域的训练数据需求包括语音识别、语音合成、语音转写等,客户在语音数据业务领域的拓展需求是多种多样的:一方面,人工智能技术逐步发展落地,向各行各业不断渗透,智能语音数据的适用场景将随之扩展;另一方面,公司服务的客户数量不断增加,客户群体在智能语音领域的数据需求日益多元化,区域化拓展的趋势也很明显。因而,公司原有的数据集结构需要不断地升级和优化,以满足上述多样化的市场需求,例如:将智能语音训练数据拓展至更多语种、更多垂直场景、更多AI设备、更多音色类型等。
问:公司在智能驾驶领域具体有什么样的工具平台?在数据处理过程中,算法具体扮演了什么样的角色?
答:近年来公司在智能驾驶专项领域加大了储备,逐步建立了车载环境采集麦克风阵列、2D点云标注平台、3D点云标注平台、2D-3D联合标注平台等。算法平台上处理过多大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化设置等等,这些因素都决定了平台的适配性和能力如何,也将对算法自动处理的结果产生实质性影响,并最终决定了数据处理的质量、效率、成本。在智能驾驶不同类型的数据上,不断提升自动化标注率和预识别加速率会促进数据迭代的速度,同时,公司也需要以保障数据质量为第一优先级,进行自动与人工的平衡。
答:客户定制服务涉及的训练数据在交付给客户并完成验收后,所有权完全转移给客户,海天瑞声是不能用于自身产品建设的,这一点是公司始终遵循的知识产权要求。
在定制数据集的生产过程中,积累下来的经验、know-how会帮助公司各方面能力的提升,例如工具平台因为处理了大量的定制数据集,使平善性有很大的增益,加强了公司的数据处理能力;再如,在一些情况下,公司在生产定制数据集时,也会根据对行业需求的判断,在保障数据权属划分清晰的前提下,利用团队管理、资源获取的便利性,同步安排额外的设计、采集和标注工作,完成产品数据集的开发。
问:公司在数据集产品、算法、智能驾驶领域进行了大量研发投入,请问研发投入规划及进展如何?
答:在数据集产品方面,据公司了解,一些国内头部客户有明确的出海拓展计划,为实现以上目的,这些客户需要完成其AI产品的多语种拓展,基于此,我们前瞻性地新增研发了200余个自有知识产权数据集产品,其中一半以上是多语种数据集,更包括多种稀缺语言,如一些东南亚、非洲地区的稀有小语种等;在新技术方向,我们也进行了此方面的研发,如行车类道路识别数据集、手语数据集、动作与面部表情捕捉数据集等,从而满足新的技术方向及场景需求。在产品研发方面,今、明年都会是重投入的趋势。
在基础研发方面,公司目前已有19大平台与技术工具,如多语种文本标注平台、OCR标注平台、2D标注平台、3D点云标注平台等。我们的目标是通过持续的算法投入,寻求最佳人机协作,在保证数据质量的同时,持续实现降本增效。目前在一些语言的算法辅助效率上都有明显覆盖和提高,降低人员参与程度。算法投入也将持续投入在资源调度、工作分配、自动化匹配、结果分析等全流程的诸多环节,这些都使得人员的参与度逐步降低、资源配置变得更高效、数据处理效率持续提升。
在智能驾驶领域,公司计划进行较大规模的研发投入、并将坚定地继续下去。相较于传统语音业务,智能驾驶业务的数据处理量更大、数据处理需求的迭代频次更高,例如,有些客户的数据需求不是按照传统的批次概念进行提交,而是需要数据服务商把数据解决方案与客户系统对接,进行实时的数据采集标注、训练和部署的整个闭环运转。要实现以上功能,则对于数据服务商的数据处理平台及其底层算法要求很高,海天瑞声已经开始提前布局、投入,未来会在该领域持续加大研发力度,为客户提供更好的全栈式数据解决方案,满足客户的各类数据需求。
问:境外疫情对公司收入的影响如何?预计何时能缓和?若境外疫情常态化,公司将要如何应对?
答:目前看境外疫情常态化已经是确定性事件了,境外疫情对于公司存在一定的影响:生产环节,(1)在语音领域,因为录音采集对于设备和场景的要求较高,很难通过纯远程方式进行,因此即便在疫情期间也有必要进行现场采集,项目实施方案由以往的集中采集变成分散采集,降低单点防疫政策的影响,这也就要求全球化的供应链系统需要更加强大、覆盖国家/地区更多,公司今年已经开始加大了这方面的投入;(2)在一些数据特征比较简单的领域(CV、文本),我们计划扩大线上采集规模,比如通过众包模式实现远程采集。在营销端,以往公司都是通过参加全球范围内的各类主流学术会议、展会来与客户进行交流沟通、实现销售目标的达成,疫情开始后这些线下会议、展会大多取消,因此我们已经开始建设更大规模的销售团队,提升直接触达境外客户的能力,来对冲上述影响,并藉此在继续深挖现有头部客户需求的同时,更大范围地拓展其他新领域、新客户。
答:近年来,《网络安全法》、《数据安全法》、《个人信息保护法》、《汽车数据安全管理若干规定(试行)》等主流法律法规已经落地实施,我们可以清晰地感受到国家在这方面的法律环境是在快速趋严的,数据安全相关法律体系的完善对训练数据产业的健康发展将产生深远的影响,有利于规范行业行为、治理行业乱象,提高行业门槛,为行业以及海天瑞声的发展创造更加有利的条件。
海天瑞声自成立之初就把数据安全、数据合规视为生命线,在这方面的投入是伴随着这么多年的业务发展的,且已经形成了较为成熟的安全、合规框架和体系。目前,公司符合上述法律法规、GDPR、以及其他一些与数据安全、数据合规相关的法律法规要求,并通过了业内重要的ISO/IEC27001体系认证、ISO27701个人隐私信息安全管理体系认证等。未来,公司将持续紧密跟踪法律环境变化,持续在数据安全、数据合规方面进行投入,确保公司业务始终在健康、合规的环境下开展,并将自身在这方面的积累转化为竞争优势。
答:其实,数据辅助标注技术、数据生成技术一直都是存在的。实现最佳的人机协作模式下的辅助标注,是海天瑞声一直在探索和努力的方向,通过持续算法投入,逐步提升数据的自动化处理程度,在保证数据质量的前提下,提高数据处理效率,减少人力参与程度、进而降低成本。
数据生成技术可以作为数据采集的有效辅助,但也存在较强的局限性,降低真实世界各类特征的训练效果,因此目前仅可作为数据采集的一种辅助方式。
公司在本行业深耕多年,一直在持续紧密关注各类技术的变化、演进,我们会选择最适用的技术来助力业务目标的实现,并将通过不断的研发投入,确保自身在技术领域的持续领先性。
答:语音业务领域的训练数据需求包括语音识别采集、语音识别转写、语音合成等方向,客户在语音数据业务领域的需求是多种多样的,伴随语音技术进一步发展落地、并向各行各业和更多垂直场景不断渗透,以及中国企业出海、国际化战略的实施,客户对语音类数据的需求将拓展至更多语种、更多垂直应用场景、更多AI设备、更多音色类型等,这些都将成为公司语音数据业务新的增长点。
公司认为垂直行业(例如智能驾驶、金融等)和政企领域是训练数据下一阶段应用的重要领域,是尚未估量的新增蓝海市场,由于每一个垂直行业内部均有诸多细分,因此市场容量非常可观。目前,智能驾驶领域的数据需求增长趋势较为明确,公司已经开始在智能驾驶领域进行投入,未来会持续加大在该领域的研发、资源、商务、交付等方面的投入,确保自身能够牢牢抓住新一轮的需求爆发所带来的机会。
问:计算机视觉业务收入占比提高,是否代表公司发展重心从语音业务向视觉类业务转移?
答:公司认为,无论是语音业务还是计算机视觉业务,未来都将持续扩大规模,成为公司重要的收入来源:语音业务在未来是一个持续增长的趋势,一方面是智能语音应用领域的拓展不会停止,无论是偏通用型的基础数据还是带有行业属性特征的行业数据,数据之于AI的重要性都使得语音类的训练数据需求会进一步增长;另一方面受到下游应用在多语种维度上持续拓展的趋势促进,尤其是国内企业出海需求、国外企业区域拓展需求两方面的支撑,使得多语种语音业务会持续增长;计算机视觉业务是公司拓展赛道的重要布局,尤其针对智能驾驶和OCR领域,公司将通过不断地在算法研究、工程化工具平台开发迭代、供应链资源体系建设、商务及交付团队提升等方面进行持续投入,力争获得与自身在语音领域一样的领先优势。
答:随着人工智能技术在某一领域应用逐渐普遍化、规模化,定制业务毛利率通常会呈现下降趋势,除了构成公司重要收入来源外,定制业务对公司有着重大意义:在定制数据集的生产过程中,积累下来的经验会帮助公司各方面能力的提升,例如工具平台因为处理了大量的定制数据集,使平善性都有很大的增益,加强了公司的数据处理能力;在一些情况下,公司在生产定制数据集时,也会根据对行业需求的判断,在保障数据权属划分清晰的前提下,利用团队管理、资源获取的便利性,同步安排额外的设计、采集和标注工作,完成产品的开发。此外,公司加大技术投入,采用更为合理的人机协同比例完成数据处理任务,降低人员投入,提高处理效率,降低成本,从而提高毛利率水平。
答:人工智能的发展已经进入了“数据+知识”双轮驱动的新一代,数据要素的市场地位被高度认同,市场空间广阔:
(1)训练数据需求与下游人工智能应用技术研发投入相关,通常情况下,下游客户的研发投入会有10%-15%左右的比例预留给训练数据,这个比例会随着数据之于AI应用技术研发的作用的提升、以及AI赋能百业的深入而提高。
(2)根据艾瑞、IDC等第三方机构对AI训练数据行业的研究,中国市场规模预计在2025年达到100+亿,复合增长率20%左右;海天瑞声超过30%左右的业务来源于海外,因此全球市场空间也是公司重点关注的,根据整体AI产业的数字比例,全球市场规模大约是中国市场的5-8倍左右,因此,2025年全球训练数据市场规模应该在500亿以上。
(3)除以上统计的市场空间外,公司认为垂直行业(例如智能驾驶、金融等)和政企领域是训练数据下一阶段应用的重要领域,是尚未估量的新增市场,且每一个垂直行业内部均有诸多细分,因此市场容量非常可观。
答:国内的主要竞争对手是一些品牌数据提供商,如慧听、标贝,以及一些新兴公司;国外的主要竞争对手是Appen。
与竞争对手相比,海天瑞声在多年的发展历程中积累了一定的竞争优势和壁垒,主要体现在以下方面:
(1)技术平台能力:公司历来重视技术的研发,近年来更是加大研发投入的力度,全面提升公司的算法能力、工程化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率,这样能够做大规模、提升效率、降低成本。
(2)供应链资源管理能力:公司拥有成熟的数据处理平台,解决了数据规模化过程中对产能、质量、成本几方面平衡的难题,同时通过长期建设的供应链体系,保障资源的获取,未来,公司会进一步加大供应链资源平台的建设,使人员管理、采标资源分配、质量检验、远程工作等各方面的能力得到显著提升,为垂直行业客户和政府客户的客群拓展提供支撑。
(3)数据安全能力:随着近期包括《数据安全法》、《个人信息保护法》等主流法律法规的落地、发布征求意见,数据行业的法律环境在快速趋严,这对整个行业的健康发展及海天瑞声自身都是一个利好。法律体系的完善有利于规范行业行为,提高行业门槛,从而促进行业的健康发展,从公司角度而言,这与公司历年来在数据合规建设方面的努力是一致的,将使得公司处于更加有利竞争地位。
(4)往垂直行业拓展的能力:公司认为,垂直行业延伸是未来训练数据行业发展的方向,公司在平台研发和部署能力、数据安全能力、供应链资源能力、行业口碑和声望等方面都有较强的竞争力,为公司在行业领域的拓展上提供了先发优势。公司正在积极尝试往包括智能驾驶在内的更多领域拓展,开发新的业务增长点。
答:公司所研发的算法技术与客户算法技术并不冲突,客户的算法技术主要是用于解决其终端产品的应用,更多是面对其终端消费者;而海天瑞声的算法应用场景是数据处理这个场景,在这个场景下,算法是很重要的基石,算法矩阵是数据处理平台的基础,为训练数据的生产全流程提供支撑,以持续迭代的智能化人机协作模式来不断提高数据处理质量和效率、降低成本,在数据处理领域掌握最先进的算法是公司一贯的目标。随着人工智能产业的不断发展,尤其深入到各个垂直行业,单单数据领域的潜在宽度、深度就已经存在巨大的蓝海,公司会在数据领域继续深耕。如果在提供数据解决方案的过程中,客户需求涉及模型训练等与算法相关的延伸服务,公司也会提供相应的服务。
答:客户对训练数据本身的需求是会长期持续的。客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户需要进行产品功能的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代,如此周而复始。因此,客户对训练数据的需求是持续的,且随着应用AI技术的场景、语言种类越来越多,各种场景、各类语言的数据集需求会兴起,带来的是训练数据的需求会越来越大。
大型科技公司客户自身的研发能力较强,而且预算相对充足,覆盖的数据类型更加丰富,需求也更为前沿。此外,大型科技公司客户对数据的需求更稳定、更综合、增长的确定性更强。
近期根据与客户的交流和市场的调研,客户进行全球性布局带来的多语种数据需求、客户新的技术布局带来的多模态数据需求、垂直行业应用升级带来的行业数据增量需求等都构成公司未来业务增长的重要驱动力。
答:大模型近来成为了一些研究机构较为倡导的AI研发方向,我们也关注到,学术界已经出现了一些更具前瞻性的观点,即:超大数据+超大算力+超大模型将如“电网”一般,成为变革性产业基础设施与驱动产业应用发展的核心动力。从本质上来讲,大模型的发展仍将遵循“算法+数据=模型”这个基础逻辑,每一个大模型产生的背后,需要的是大量的训练数据做“原料”,且而当大模型往万千的垂直行业应用时,对于垂直行业数据的需求仍将是巨大的。海天瑞声今年就已经与国内某知名AI研究机构达成战略合作,未来将围绕其主导研发的大模型研发在面向不同垂直应用场景方面开展数据合作,因此,AI大模型的发展趋势对公司不仅不会产生负面冲击,而将会对公司业务发展产生积极促进作用。
未来行业内如出现进一步的技术变迁,对数据业态产生影响,公司作为行业内的头部公司,也将保持较高的敏感度,不断调整自身的业务模式,响应这样的变化。
答:公司目前的主要客户群体是科技领域中的头部公司,掌握人工智能相关的前沿技术,熟知训练数据的应用方法和场景。未来公司的客户群体会延伸至两个领域:(1)头部科技公司延伸至腰部及长尾客户。随着深度神经网络算法技术的普及,更多具有专项特点的技术公司涌现,同时随着公司训练数据开发成本的优化,可以将产能释放至腰部及长尾客户;(2)通用技术客户向垂直行业延伸是未来训练数据行业发展的主要方向之一,这些垂直行业的传统企业、以及应运而生的相关应用企业逐渐将会成为公司的客户,这些新增客户与公司在基础数据领域所服务的传统客户群体会有所不同,如智能驾驶场景下,智能驾驶技术类企业、乃至主机厂(传统车企、新势力等)都会或已经成为公司的客户;再如金融行业场景下,同理,技术类企业、以及银行、保险公司都会或已经成为公司的客户;此外,还有医院、公检法等机构也将会或者已经成为公司的客户。整体来看,在AI赋能百业的进程中,那些信息化程度高、AI研发能力比较领先的机构都是公司的新增潜在客户群体。
问:标品化的产品数据集业务与定制化服务业务的区别是什么?客户会如何选择?未来的发展趋势如何?
答:产品数据集是先于客户需求形成的模拟数据,是公司区别于其他竞争对手的一大特色,基于公司对市场的判断和通用化需求的提取能力,其属于是一次性投入、未来重复授权销售,对于公司的营收、毛利有着重要作用;而定制业务的需求来源是客户的定向化需求,有些定制业务的原始数据来源是客户提供的实网数据,公司提供纯加工的服务。
客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户需要进行产品功能或语种的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代。
产品+服务的组合一直是公司向市场提供的综合解决方案,是一个整体,服务于不同客户的不同研发阶段需求,其收入贡献比例在各年间也呈现较为一致的趋势。而产品+服务带来的数据积累,也哺育了公司的数据处理平台和相关算法不断提升,努力达到数据处理场景下的行业最优。
未来,如果把垂直行业数据这个大领域放进来考虑,那么先期,更高要求的定制化服务业务的占比可能会逐渐上升,以智能驾驶为例,客户对于数据服务商的主流需求其实是一体化、闭环式的数据解决方案,这就需要类似于海天瑞声这样的数据服务商有能力为客户提供从数据采集、处理到训练、仿真、测试、验证的完整闭环服务,以满足客户的数据处理量更大、数据处理的迭代频次更高等需求特点。但在定制化服务提供过程中,公司将发挥在语音领域一样的特点,提取标准化需求,在垂直行业领域也构建建设自身产品体系的能力,形成有价值的行业数据集。
答:一般来讲,数据集产品在生产出来后,为了保证数据集自身的平衡程度,通常不会做大规模的更新、拓展,而是在标注类型方面做一些完善或者进行小规模的扩建调整。如果判断有新的市场趋势,公司会研发新的数据集去覆盖。因此,每个数据集都是有生命周期的,在这个周期之内,价格通常会随时间推移而呈现下降的趋势,而在这个过程中,那些竞争力较强的数据集会在相当长的时间保持价格的竞争力,其价格下降趋势会较为缓慢、甚至在一定时间内几乎不下降。例如,对于市场上比较稀缺的语言而言,对应的数据集产品价格就可以保持相对坚挺。
总之,数据集产品价格是根据数据集的前瞻性、稀缺性、市场供需关系等各方面因素综合决定的。
答:首先,公司是一个综合性的数据解决方案提供商,因此竞争优势是体现在多方面的,如丰富的产品积累、成熟的数据处理技术和平台、全球化的供应链管理能力等等。
具体到平台、工具领域,算法在数据处理环节的嵌入能够帮助标注人员提升效率,这样会降低对人员的依赖(既有人员数量的降低、也有对人员标注能力要求的降低)。整体上来看,算法平台上处理过多大规模的数据、这些处理过的数据的多样性和复杂程度如何、算法引擎投票机制如何建立、置信区间如何设置、算法在平台中如何应用、数据流转的工程化设置等等,这些因素都决定了平台的适配性和能力如何,也将对算法自动处理的结果产生实质性影响,并最终决定了数据处理的质量、效率、成本。
公司在平台工具方面能够取得领先行业的地位,一方面是基于公司持续且不断加大的研发团队建设和研发投入,另一方面是基于公司在训练数据领域多年积累下大量、多样化数据以及数据应用经验,通过这样的积累,持续迭代平台工具的适用性,并持续训练底层算法,形成适配性和功能性都更优的模型,可以做到少量数据注入-算法训练-标注员反馈-模型生成-处理大量数据的自闭环体系,在数据处理这个场景下,实现最佳的算法和平台能力。
问:公司不是仅仅提供数据标注服务,而是提供整体训练数据解决方案,那么在解决方案中的各个环节的技术难度如何?
答:首先,训练数据集的设计和原料数据采集环节是存在相当的技术难度的,比如语音类数据,文本设计是否贴合实际场景、如何实现最小集且确保场景覆盖丰富度等因素均是设计和采集环节需要考虑和解决的;在视觉类采集方面,复杂的人像采集、物体影像采集,同样具有如何设计合理的数据浓度达到最小成本最高训练效果,如果是垂直行业数据集的采集,例如智能驾驶领域,则存在准入资质、技术难度(包括但不限于对于交通场景、车辆传感器等要素的综合理解和实施能力)等方面的门槛。
数据标注环节的难度在于面对大量的数据标注需求,如何快速的找到充足的资源,而且通过算法平台不断提升机器的辅助标注参与度,在人机协作过程中,寻找效率与质量的最佳平衡,在提升数据标注效率、保证数据质量的同时降低成本。
公司在今年已经开始了大规模的研发投入、且该战略将会长期持续,以全面提升公司的算法能力、工程化能力、资源管理能力,坚持技术+资源的双轮驱动方针,保持和提升公司的竞争力。
答:从几年前公司已经开始为一些客户的座舱数据(包括车载语音数据、舱内DMS以及OMS数据等)需求提供服务或产品,经过几年发展,服务领域也已经拓展至车外数据,目前公司已经与传统车企、造车新势力、以及一些头部无人驾驶技术公司成立了合作,客户目前大概有10-20家,换言之,只要是有智能驾驶算法研究部门的公司客观上都存在训练数据需求。如车内座舱类数据,客户要通过使用训练数据来训练其语音识别、语音合成算法模型,进而支撑其车载语音交互产品或应用;车外数据,则会被用于道路识别、行车决策、泊车决策等场景。订单规模与客户自身的需求相关,从十几万到几百万不等。
从今年开始,随着汽车智能化理念的普及和智能驾驶技术的逐步量产化落地,与智能驾驶相关的数据需求开始呈现规模化的趋势,该类需求首先展现在了训练数据采集、标注方面,例如针对车载雷达传感器传回的3D点云数据,经过处理、形成结构化训练数据集用于雷达传感器算法或ADAS智能驾驶系统算法的训练。目前,公司为更好的承接智能驾驶业务,已经开发并上线D联合标注解决方案,同时将招募更多的专业人士专门从事该类业务的开展。
智能驾驶业务对公司来讲是一块较新领域,从业务的宽度看,需要覆盖从数据采集、处理到训练、仿真、测试、验证的完整闭环,从客群特点看,除智能驾驶技术公司外,整车厂等传统应用技术的公司也将会或已经成为公司的直接客户。因此,智能驾驶业务从客群到技术方案到交付都有其自身的行业特征和逻辑,公司今年与部分行业头部企业建立了新的合作伙伴关系,也正在进行智能驾驶行业的系统化梳理,希望能够通过自身在数据处理平台、质量管控、需求对接、项目响应能力、供应链资源管理能力等方面的积累,深入与现有客户的合作,并扩展更多的客户。同时也会积累智能驾驶领域的标准化数据集产品,迎合更多客户的多样化需求。
答:根据以往的订单情况,前二十大客户大概贡献了公司收入的80%左右,存在一定的头部集中度,但不存在对某单一客户依赖的现象。此外,公司的前五大客也不是固定不变的,基本每年都会有新的客户进入到前五大的序列,即,客群对收入的贡献会有轮动。这样的客户构成一定程度与AI产业相对头部集中的格局相关,大型科技企业在研发投入更为持续、在多元化需求上也更为引领。因此,在客户策略上,对头部客户的深度挖掘是公司重要的大客户策略。同时,公司也将会持续观察市场、调整自身的业务模式和产品服务形态,挖掘更多的腰部客户和中小客户需求,丰富公司的客户群体。
(1)产品类数据库的周期:因为其在销售时已经是成品状态,通常1-2个月能实现收入确认;
(2)定制类服务的项目周期:根据项目实际,生产过程可能涵盖设计、采集、处理、质检等环节,平均周期在6个月左右。如果仅为数据加工服务,则根据客户提供的数据量和难度,周期在3-9个月不等。
答:产品数据集的完善、更新主要针对加工层面会进行一定的改良,部分数据集会做一定的扩建,但考虑到数据集的整体平衡性,单一数据集产品的完善和更新的需求不会太多。从整体产品体系上看,公司会根据不同的维度,例如规模、语言、设备、场景等,结合技术趋势和市场需求,对产品体系进行不断的完善和扩建。
答:就目前训练数据产品的销售情况看,平均生命周期大概在5年左右,有部分产品生命周期可达8-10年之久,比如公司早年建成的一个中文语音识别数据集,目前仍在销售,而且售卖范围很广,基本覆盖了目前市场上绝大多数主流的语音识别引擎;
北京海天瑞声科技股份有限公司的主营业务为训练数据的研发设计、生产及销售业务。公司的主要产品有数据资源定制服务、数据库产品、数据资源相关的应用服务;公司自2007年至今连续荣获“国家高新技术企业”及“中关村高新技术企业”称号,2018年被评为国家规划布局内重点软件企业。公司是“中国AI产业发展联盟”、“中国语音产业联盟”的理事单位,参与了行业标准的起草工作,在人工智能数据库架构设计、开发标准、质检评测等领域,以专业性和创新性获得了行业的普遍认可。公司近年来获得了2017年中国信息协会、信息化观察网评选的“年度人工智能数据服务领域领军企业”;2018年中国语言产业联盟颁发的“智能语音创新大赛行业先锋奖”;2018年中国信息协会、信息化和软件服务网颁发的“2018年人工智能行业最佳产品”等多项国内外人工智能领域奖项。
投资者关系关于同花顺软件下载法律声明运营许可联系我们友情链接招聘英才用户体验计划
不良信息举报电话举报邮箱:增值电信业务经营许可证:B2-20090237