智东西5月31日报道,今日,在2024向星力未来数据技术峰会上,大数据基础软件龙头星环科技面向企业构建大模型和应用生成式AI的需求,发布最新AI基础设施产品Transwarp Knowledge Hub星环知识平台(以下简称TKH)一站式多场景语料开发工具TCS(Transwarp Corpus Studio)、大模型运营平台Transwarp Sophon LLMOps。
基于无涯大模型,星环知识平台TKH打造了无涯问知、无涯问数、无涯金融、无涯工程等AI原生应用,可大范围的应用于金融、能源、制造、工程等多个领域,通过精准的数据分析和知识管理,满足企业不一样的知识应用需求,提升企业业务效率和竞争力。
星环科技发布了企业版、AI PC版企业级垂直领域问答产品无涯问知Infinity Intelligence。无涯问知公有云服务也正式对外发布,首批邀请用户已能在线测试。
同时,星环科技推出企业智能业务分析洞察平台无涯问数,让用户用自然语言轻松进行数据分析,解决传统BI(商业智能)使用门槛高、效率低的挑战。
星环科技创始人、CEO孙元浩宣布,星环科技的定位从Data Infra进一步延伸到AI Infra,为企业客户打造AI基础设施,打造覆盖语料处理、模型训练、知识库建设等的一整套工具链,帮企业快速建立行业大模型,快速使用AIGC。
孙元浩告诉智东西,在支持生成式AI的数据管理方面,企业可能会用到向量数据库、关系数据库、图数据库、实时数据库等不一样,这些都是为AI提供数据的主要方式,现在很难说哪类比重会更高。
对于用户而言,已构建数据仓库的基础较大,结合大模型直接问数据库比较立竿见影,需求相对多。向量数据库预计会加速增长,语音、图片、视频必须要用向量数据库,文档建议也变成向量数据库以拓展检索范围。知识图谱构建要求较大,但同样是必要的补充。当关系图谱不足时,星环提供了实时数据库,还有传感器分析。
面向AI PC布局,孙元浩认为AI PC是提高生产力的必需品,他透露说星环希望在本地做到千亿参数模型,可能今年年底就可以做到。
AI大模型正在催生新一轮技术创新与产业变革,将为金融、制造、交通、政务等众多行业企业数字化转型和高水平质量的发展带来新动能。
生成式AI出现后,深度学习从以前的可能几千万、上亿的样本数量的大样本机器学习,演变成现在小样本机器学习,让行业大模型应用场景范围变得更广,让模型能够思考、学习,理解自然语言,完成更多的工作。
当前市场以通用基础大模型为主,通识能力强,但缺少行业专业相关知识。让企业的AI应用从早期直接调用通用大模型发展到建立自己的AI基础设施,打造行业或特定领域、任务的专用大模型,助力生产力革新和产业升级,慢慢的变成了企业关注的核心。
IDC预测,全球2024年将生成159.2ZB数据,2028年将增加1倍以上,达到384.6ZB,复合增长率为24.4%,分布在不同的数据库中。DataSphere 2024最新预测还呈现了3D特征:分布式、多样化、动态。未来两年里,预计组织中的数据量、数据速度、数据多样性均会提升。
为了实现生成式AI,企业要管理多方数据源,被调查企业中50%使用数据仓库支持生成式AI,35%使用向量数据库,33%使用数据湖,33%使用支持向量搜索能力的NoSQL数据库。
从落地形式来看,企业更多选择私有化方式来训练、推理和部署大模型。在实施AI技术时,企业或机构经历过/预计会经历成本、缺乏具备学习和使用AI所需技能的员工、缺少专项技能人才、缺少AI治理&风险管理、缺少AI监管规则等方面的挑战。
总体来看,企业落地AI面临4个主要挑战:1)高投入成本与专业人才匮乏,是企业落地AI最大的阻碍;2)数据基础设施建设不足,需要商业落地、安全性、可持续发展和数据管理;3)缺乏统一数据管理底座,海量、多元、非结构化数据高频流动;4)缺少知识库的支撑,知识的存储、共享和流动。
从需求上看,目前通用大模型数量快速增加,并一直在升级迭代、提质增效,但却不能适应企业AI应用的需求。
企业对行业大模型需求增加,迫切地需要降低使用门槛,更加普惠地使用大模型、生成式AI技术,以解决企业内部人才、算力、数据等不足的挑战。发展面向特定领域或任务的领域大模型,不断的提高模型准确度,成为一条切实可行的发展途径。
每个国家都需要主权AI,企业同样需要自身的AI Infra来打造行业大模型,从而更快速便捷地用大模型释放数据价值。
针对企业的AI Infra建设,星环科技通过自主研发,可向用户更好的提供一站式企业级大模型生产及应用全流程开发工具链,让大模型快速落地。
星环科学技术拥有从语料到模型再到应用的完整的AI Infra工具集,覆盖语料开发和管理、大模型训练与持续提升、多模态知识工程、多模知识存储与服务、原生AI应用构建编排和应用服务等重要阶段,提供提示词工程、检索增强、智能体构建等大模型应用快速构建和提升、模型推理优化、模型安全和持续提升技术。
星环科技AI Infra工具支持异构算力、语料、知识、大模型应用的统一管理,为数据和语料资产的集约化提供了一站式平台,且具备企业级的组织空间管理能力。
通过该工具,企业能够准确、高效地将拥有的多种来源的多模语料转换为高质量的专业领域知识,源源不断支撑专业知识库问答、业财数据分析、智能投研、设备预测性维护等丰富的使用场景和应用,让企业构筑知识壁垒,实现“人工智能+”业务的落地和创新。
后续星环科技将通过自主研发,逐渐完备AI从基础设施到应用的产业链条,为客户提供端到端的全套AI解决方案。
三、企业界垂直领域问答产品无涯问知:四大应用场景,将数据和资料转换为知识
星环科技发布了企业级垂直领域问答产品无涯问知Infinity Intelligence,有企业版、AI PC版、云端版,包括四大应用场景:
2)企业算力不足时,可采用安装了天涯问知的AI PC,在本地直接访问天涯问知;
3)中小企业用户不用自己构建知识库,可直接利用星环科技无涯问知公有云服务;
4)个人可利用AI PC或者公有云服务,访问天涯问知服务。
无涯问知是一款基于星环自研预训练模型无涯Infinity和向量数据库Hippo、图数据库StellarDB构建的企业级垂直领域问答知识库应用。
该产品基于星环科技大模型底座,结合个人知识库、企业知识库、法律和法规、财经等多种知识源,充分的利用了星环科技自研大模型底座的自动化知识工程特性,使其在处理和分析数据方面具有非常明显的优势,允许用户上传文档、表格、图片等多源数据,并支持与外部数据源的对接,使用户能构建属于自身个人的专属领域大模型。
该产品支持不限长度的音视频图文等多模态数据快速入库,且支持自动化文档切片及向量化处理,配合自研的RAG框架,可实现知识的精准召回,可用于市场研究分析、企业供应链分析、法律风险预警、智能写作等业务场景中。
面向个人用户,星环科技推出无涯问知AI PC版本,可在搭载英特尔新一代CPU的主流个人电脑(AI PC)上基于集成显卡和NPU流畅运行。
无涯问知AI PC版本提供本地化的向量库,支持多种格式、不限长度的文件资料入库,并支持影、音、图、文等多模态数据和资料的“知识化”处理,及相应的“语义化”查询和应用能力,能够对可量化的数据来进行精准的分析和研判。
该工具打通了个人文件资料与企业知识库,形成本地和云端的知识联动推理,而且能保障个人的数据安全。
据介绍,无涯问知AI PC版本具备出色的内容理解能力,包括对感知和认知层的深度理解,以及对事实、流程、图谱等高级语意的把握,因此能够更准确地理解用户需求。
四、无涯问数:用自然语言搞定数据分析,兼顾安全性与准确性
今日星环还发布了一款智能业务分析洞察平台无涯问数,基于星环数据分析大模型打造,旨在解决传统BI在数据获取、使用门槛和效率方面的挑战,为决策者和业务人员带来更好的数据分析体验。
该平台集合了大语言模型、AI和BI的能力,并结合数据分析主体、指标、标签设计、数据开发和治理,形成了从自然语言转数据查询语言并返回数据表或数据图表的完整流程。
非专业用户可在无涯问数平台上使用自然语言轻松查询数据,无需掌握数据库编程语言,有效解决取数需求开发链路长、指标二义性、缺乏数据挖掘能力、数据分析高度依赖人工经验等传统数据分析痛点,简化了用户与数据交互的方式,让数据分析变得更便捷和直观。
在安全性上,无涯问数结合NL2SQL和可视化能力,将模型输出结果解析为易于理解的界面化配置,并从多重维度提供全面的数据安全管控,在更快、更高效获取数据的同时,保证查询过程的安全性和结果数据的可解释性。
在传统BI场景中,缺乏经验的分析师难以给出高质量的分析报告,且靠人力经验积累的业务逻辑、业务洞察无法沉淀为企业知识库。
无涯问数针对数据安全保障有一系列精细的数据安全和权限控制措施,能结合企业自由数据来进行模型训练,理解行业黑化和业务逻辑,在智能分析场景下提供更高的模型准确率和分析方法论等知识输入。
针对数据一致性,无涯问数通过先进的指标和标签模块解决取数渠道和计算口径不一致的情况,提供包括针对数据、指标和标签的智能业务洞察范围,并实现用户数据来源准确和分析口径统一的需求;确保数据分析结果的可靠性,支持数据驱动的决策制定。
在应用场景上,无涯问数提供分析仪表盘和智能问数能力,让决策者/管理者以自然语言提问快速自助获取目标数据;预定义指标计算口径,依托数据分析大模型理解用户的分析意图,让数据分析人员实现对话即分析;通过页面配置的方式快速完成数据准备,让数据研发人员,快速整合多种数据。
星环科技整合大数据、AI等技术,推出一款知识平台Transwarp Knowledge Hub(TKH),为公司可以提供一个全面、高效、智能的数据处理和知识管理解决方案。
TKH旨在为企业打通从AI基础设施到大数据、AI等研发应用的完整链条,实现企业内部所有资料知识化,能统管企业Al Infra算力、语料、模型、应用,助力企业打造安全可控的AI Infra、快速使用AIGC。
星环知识平台TKH包括知识存储与服务、语料开发与知识构建、大模型基础服务等几个重要部分。
TKH提供企业级多模态知识存储与服务,助力企业打造新一代一站式多模型数字底座。基于Transwarp Data Hub for LLM知识管理平台的多模型统一技术架构,支持关系型数据、向量数据、全文检索、图数据、时序数据等的统一存储管理,满足各类场景下多模态数据的统一存储管理与服务,大幅简化知识库的知识存储与服务层架构,降低开发与运维成本。
星环科技新推出的产品能让企业的数据底座实现四个一体化:湖仓集一体化、多模型处理一体化、历史数据与实时数据处理一体化、本地集群和云平台一体化。
其中,大数据基础平台TDH 9.4的多模基座加速AI分析;仓集资源隔离架构,在混合业务场景下依然保持极致性能;湖仓一体架构,大幅度降低TCO;同份数据跑批查询与混合负载,实时备份强在线业务容灾;同时支持多模型存诸架构、大模型海量训练数据存储、多模型混合检索召回增强、Python生态等。
分布式向量数据库Hippo支持文本、图片、音视频等转化后的百亿级向量数据的存储、索引和管理,支持多种索引,具有全文检索+向量检索以及稀疏向量+稠密向量的混合检索等能力。Hippo 2.0可实现百亿级向量存储,提供灵活索引支持、20倍内存成本下降和向量全文混合检索等特性。
分布式图数据库StellarDB提供万亿级图数据存储、毫秒级点边查询和10+层深度链路分析等能力,支持丰富的图算法和图机器学习,创新的动态时序图能力更便捷地挖掘数据变化规律和预测分析。新推出的StellarDB 5.1实现了向量/全文模糊检索、秒级子图匹配、跨集群数据灾备、RAG增强大模型、GPU算法加速等功能,更稳定、安全、易用。
星环分布式分析型数据库ArgoDB支持标准SQL语法,提供多模分析、实时数据处理、联邦计算、隐私计算、数据脱敏等能力,一站式满足OLAP分析,实时数仓、数据集市、湖仓集一体等场景。
新推出的ArgoDB 6.1 版本以“增量数据实时处理”技术为基础,定义并发布“实时数据加工”的智能高效新范式;结合集群级实时同步与数据海量版本能力,协助用户够构建高可靠的实时可信大集群,以数据透明加密、SQL审核/阻断等安全技术方法为辅,共建“快好省”湖仓集一体的融合数据处理架构。
星环分布式时序数据库Timelyre支持海量时序数据库的存储与处理,具备每秒千万级数据吞吐、5~20倍无损压缩和毫秒级检索能力,支持Python、C++等API,易用的时序分析框架满足金融智能投研需求。TimeLyre 9.2新增了多模型时序分析、极速分布式回测平台、投研数据中台、时序数据湖引擎等,助力用户解锁数据深层价值。
星环分布式文件系统TDFS支持10亿级以上的大小文件的存储,并同时支持对象存储,基于Raft保障强一致,支持HDFS平滑迁移,标准POSIX协议支持上层知识等AI场景应用无感对接。
语料是决定行业大模型质量的重要的条件,语料的质量决定了模型的质量,同时高质量语料也是解决行业大模型“幻觉”、“可信可控”等核心落地难点的重要手段。
高质量行业专用语料是企业、机构独特的竞争优势和天然壁垒。星环科技发布了一站式多场景语料平台Transwarp Corpous Sudio(TCS),旨在通过全面的语料生命周期管理,极大提升语料开发效率,助力企业或机构高质量地构建大模型及其应用。
TCS覆盖了语料获取、清洗、加工、治理、应用和管理的全生命周期,具有多种灵活的采集和构建方式,能分布式的高效处理海量语料。
这是一个功能全面、易用高效、安全可靠的语料开发利器,支持20+主流文档格式、数据化学公式、复杂语料处理、语料自动标注及筛选、多视角体系化资产编目和数据治理等。它具有三大核心优势:
1)强大的语料知识化能力,能自动标注知识元素、识别知识类型、推荐知识应用,并构建有明确的目的性的场景知识库,简化了知识管理和知识应用的过程。
2)易用的语料应用化能力,支持将语料快速转化为多种应用形态,如自然语言处理、机器学习等,大幅度的降低了应用语料的门槛,加速了从数据到知识的转化过程。
3)完善的数据安全机制,TCS提供了完善的认证权限管理和加密机制,确保语料数据、模型和应用的安全可信,满足企业对数据保护的严格要求。
企业知识库的建设,让数据可以用自然语言方式来进行对话和检索。公司能够集中式地管理和利用知识资源,提高运营效率和创造新兴事物的能力。只要企业保有自己的知识库,就能够最终靠微调得到企业专属大模型,实现大模型随时选、随时换,且企业核心竞争力得到保护。
企业用户利用TKH提供的星环图谱构建工具Transwarp Knowledge Studio for LLM,可将企业内部数据、个人经验数据和公开信息数据转化为知识,让数据平台更加智能化,同时能将AI PC端和云端资源联动,确保数据安全性。个人经验数据的知识转化和不断的模型微调让知识库建设更具个性化。
TKS是一套全流程、端到端的知识图谱构建工具集,涵盖了知识模型定义、多源异构数据接入、概念与物理数据映射、多元化知识的抽取融合、全自动知识构建、图谱综合查询等功能,可以帮助政务、工业、能源等多领域客户高效构建领域知识体系,并提供智能应用的场景定制化和一站式解决方案。
在行业大模型发展中,企业面临技术复杂、数据和算力稀缺、管理成本高等挑战,已经意识到必须建立自己的AI基础设施,从而能自己对模型进行预训练、微调等。
星环科技推出大模型运营平台Transwarp Sophon LLMOps,提供一站式企业级大模型生产及应用全流程开发工具链,助力企业完成从预训练到微调,到强化学习,到持续模型评估的全生命周期,让每个企业都能构建自己的专属大模型。
一个Sophon LLMOps平台可解决企业在大模型时代语料、模型、应用三类资产的持续积累和加速迭代。
星环科技自主研发的无涯大模型Infinity基本功能包括智能问答、文档问答、智能写作等,具备自主可控特性,在确保数据安全的同时,通过0-1预训练,可为各行业量身定做自有大模型,提供强大的意图理解、语义召回、数据处理和分析能力。
基于无涯大模型底座,星环科技微调了三款垂类大模型,包括问答大模型、数据分析(代码生成)大模型、多模态大模型,以应对内容生成、数据分析图片及音视频理解及检索等多样的使用场景。
星环无涯大模型Infinity提供了灵活的部署模式,包括私有化部署(AIPC版、企业版)、公有云服务等,提升了大模型数据分析能力,在语法正确性、数据库方言、语义正确性等方面有重要突破,能够精准问答,减少大模型幻觉,并通过多模数据来源来提升回答丰富度,通过构建自有知识库来确保企业数据安全。
星环科技在推出全新的AI Infra的同时,也在逐渐完备Data Infra产品与服务。
星环大数据云平台推出TDC 5.0,将原来的多个TDH集群统一纳管,统管多个TDH集群,形成物理上分散、逻辑上统一的企业级一体化大数据平台。
TDC 5.0的优势包括多集群及其基础设施、多数据应用实例统一管理;跨多集群统一调度资源,均衡多个集群资源使用;跨集群共享存储组件,实现NoCopy的跨集群数据共享;隔离和控制资源配额,快速、灵活地为不同业务部门提供多租户的PaaS服务。
星环科技推出了分布式交易型数据库KunDB 4.0,提升了高可用能力与Oracle兼容性,支持跨系统多租户部署。
星环大数据开发工具TDS 4.0,增加了数据实时同步、数据入湖向导、智能化数据资产盘点、数据资产门户、数据服务编排等功能。
星环大数据安全与隐私保护工具软件Transwarp Defensor致力于帮企业建设以数据为中心的数据安全防护体系,包括了解内部敏感数据分布情况,可以帮助管理者发现潜在风险、监管重要数据的合规合理使用等。Transwarp Defensor 4.5,增加了大模型核心资产识别、数据资产流转链路监控、安全策略智能推荐,安全风险预警与应急响应。
星环数据要素流通平台Transwarp Navier通过提供隐私计算环境,使得数据供需双方能够直接进行安全的数据交易。Transwarp Navier 3.1新增了全链路智能合约确保安全合规、数据流通全链路行为监控与分析、实时告警与阻断等。
孙元浩谈道,大模型技术已快速融入公司制作经营的方方面面,在公司制作效率提升、业务职能提效和行业应用场景创新中无处不在,不但重构产业,打造企业的核心竞争力,而且成为企业的基础设施和核心能力,助力企业打造新质生产力。
如今顶尖基础模型参数量达到千亿级,基于MoE架构的稀疏大模型更是达到万亿参数,再加上大模型及生成式AI进入广泛落地阶段,迫切地需要发展新型AI基础设施来满足对算力资源、高性能计算及存储、数据管理、安全可靠、可解释性等方面的严苛要求。
高质量的语料资源、高效率AI基础设施已成为训练和部署大模型的关键。星环科技一系列AI Infra工具及Data Infra产品与服务的推出,为企业和机构提供了更加全面、易用、安全的开发利器,有助于帮企业高效构建和管理知识库、加速实现大模型落地部署,提升数据处理、价值挖掘和业务决策的效率。