随着生成式人工智能技术取得突破性进展,自然语言大模型能够准确的通过人类指令,迅速完成写文章、绘画、作曲甚至制作视频和动画等任务,其“创作”涉猎的范围几乎能媲美人类,而且水平随着训练量增加还在不断的提高。ChatGPT、文心一言等生成式AI技术自然语言大模型的蓬勃发展标志着数据生产的创造性、便捷性、泛在性程度提升到前所未有的高度,将有力推动“从全球获取数据,加工数据服务全球”的数据全球化大生产进程。
自然语言大模型加速形成全球参与、全球分工、全球享有的数据全球化大生产格局
推动数据全球化大生产从“无意识”到“有意识”转变。随着网络化、规模化水平慢慢的升高,数据协同生产覆盖到每个数据生产主体,且每个数据生产单位都与外部保持着高密度联接。然而,绝大多数的数据是用户无意识、无目的制造出来的,如用户消费、出行、医疗等被有关设备终端监测到的数据,或者某一区域企业用电量、采购货物量的数据。这一些数据往往伴随自然或社会行为而产生,并且持续于海量用户及经营主体的全生命周期,使得数据生产具备持久的内生动力,取之不尽、用之不竭。进入AI时代,特别是以ChatGPT为代表的生成式AI对传统AI交互方式来进行了重要创新,AI不再是工程师的专属工具,推动“低代码革命”走进人们的日常工作生活,引发AI的全面普及。基于此,我们大家可以预测生成式AI的低门槛使用将极大程度激发人们主观能动性,“有意识”地开展数据生产。
推动数据全球化大生产从“自发性”到“自觉性”转变。全球化具有自发性。自从人类走入信息时代,内容生产,即生成数字化的文本、图形、音乐等就成为重要生产活动。内容生产中,数据加工方式经历了专家生成内容(PGC)、用户生成内容(UGC)到AI生成内容(AIGC)三个阶段。专家生成内容的生产者数量有限,产能不足;用户生成内容虽然生产者数量庞大,但缺乏标准化,质量有限。这种低质低效冗余数据生产,只能说是自发的数据生产。进入生成式AI阶段,生产效率明显提升,人们可自动、批量、标准化生成低成本、大数量、高质量的数据产品,数据全球化大生产将从一个自发的过程向一个更加自觉的过程发展。
推动数据全球化生产从“单领域”向“多场景”转变。传统的人工智能模型具有高度专用性,即需要针对特定任务对模型进行专门训练和设计,一个模型往往只能完成一种任务,无法交叉使用。ChatGPT的基础大模型“变形金刚”(Transformer)则不同,网络深度达到1750亿个参数,不仅能按照每个用户输入的文本生成文字序列,从而与用户聊天、帮用户写作翻译,还可以生成序列化的数学符号、图形像素、电脑程序等,实现在用户语言指导下做题、绘图、编程等多种任务,用统一的“文本序列生成”核心功能实现“一专多能”的泛在化应用。据业内人士预测,ChatGPT相关模型还可能应用到医疗健康建议、生成3D打印设计图等场景,甚至有可能在AI领域形成跨越模型形态,单一模型解决所有问题的“大统一模型”,为每个行业带来AI再造机会。
总的来看,随着生成式AI加快速度进行发展,全球各类数据都将更方便快捷、深入地参与到数字化的经济中,并以标准化、自动化的方式,针对不相同的领域、不同功能批量生产海量数据产品和服务,加速形成全球参与、全球分工、全球享有的数据全球化大生产格局。数据全球化大生产成为全新的要素配置和生产方式,将重构全世界创新版图、重组全球经济结构、重建社会生产模式、重塑人类生活方式。
以数据为主要内容的新一轮全球化,机遇挑战都将前所未有。建议依托国家数据局的成立,加强顶层设计,积极培育数据产业体系,推动高水平数据开放,努力推动实现“三中心一引领”,在新一轮全球化进程中争取主导地位。
充分发挥海量数据比较优势,建设全球数据获取中心。积极地推进数据资源开发利用,加强公共数据资源共享,推动打破政企间数据壁垒,降低数据获取成本。在确保数据安全的前提下,适度放宽数据产业准入门槛,持续引进全球AI和数据产业跨国公司在华设立总部、研发中心、数据采购中心。全力发展新型存储器产品,布局支持多样性算力、高通量算力、多协议接口的数据存储系统。推动实现跨地域、跨数据源的端、边、云数据协同,以及存储与计算、网络基础设施的高效协同,形成数据存储全球服务能力。
补齐算力短板,发展全球数据生产中心。AI发展的三要素是算法、算力、数据。其中算力是数字时代的“石油”,自2012年开启黄金时代后,AI对算力的需求开始呈现指数级增长。从2012年的AlexNet,到2017年的AlphaGoZero,算力消耗足足翻了30万倍。特别是进行AI大模型训练,需要专门的GPU集群,传统数据中心的用场不大。充分的发挥新型制作用,“揭榜挂帅”攻坚AI大模型技术瓶颈。着力突破高端通用芯片技术,升级AI框架、芯片等。推动公共算力泛在应用,持续降低算力成本,形成全球智能计算成本洼地。
健全数据交易配套制度,打造全球数据融通中心。建立数据资源持有权、数据加工使用权和数据产品经营权“三权分置”的数据产权制度框架,构建中国特色数据产权制度体系。鼓励国内外经营主体探索数据资产定价机制,推动形成全球数据资产目录,逐步完善数据定价体系。规范数据交易管理,建立面向全球的数据资产评定估计、登记结算、交易撮合、争议仲裁等市场运营体系,降低数据交易成本。培育发展全球数据交易平台,健全平台报价、询价、竞价、定价机制,探索协议转让、挂牌、拍卖等多种数据交易模式。
完善数据规则标准,积极引领全球数据治理。积极对接、主动引领国际规则,发起成立全球性的数据合作组织,有效参与数据全球化规则制定。加快数据行业标准化发展,热情参加全球数据产业标准制定。发展新型国际数据贸易,在具有条件的自贸区、开发区试点探索高标准的数据流动、隐私保护等规则,推动试点地区与欧盟、日本等地区标准互认。促进我国和其他几个国家先进的技术互相兼容认证。在数据跨境流动、数据保护、数字监管等领域加强国际合作,着力拓展数据全球化大生产“朋友圈”,提高“中国方案”“中国标准”影响力。