2023年的最后一天,国家数据局联合16个部门印发了《“数据要素×”三年行动计划(2024—2026年)》,文件提出:挖掘文化数据价值,贯通各类文化机构数据中心,关联形成中华文化数据库,鼓励依托市场化机制开发文化大模型。文件刚刚对外公布,参与文化大模型研发的中国公共关系协会文化大数据产业委员会(以下简称“专委会”)成员单位群情激动,都表示要将文化大模型打造成为“数据要素×”三年行动计划的“样本项目”。
美国OpenAI公司研发的ChatGPT在全世界所产生的冲击波,不可避免波及到意识形态领域,对青少年价值观认同产生直接影响。专委会征询了相关专家意见,认为应当充分运用文化数字化建设积累的数据,同科技公司联手研发文化大模型。
2023年5月,专委会同华为云计算技术有限公司(以下简称“华为云”)就联合研发文化大模型和应用场景问题进行了深入沟通,华为云认同专委会提出的人工智能大模型是文化和科技深层次地融合产物的观点,双方应当发挥各自优势、实现强强联合,充分运用文化数字化建设成果,发挥华为云在人工智能大模型领域的技术优势和研发能力,联合研发文化大模型和应用场景,探索AI时代维护意识形态和文化安全的有效途径。
文化大模型是基于华为盘古大模型而开发的。华为的盘古大模型是一个基础大模型,最大的作用就是做好海量基础知识的学习,可以形象地理解为“读万卷书”。在此基础上依托行业伙伴的专业数据打造行业模型和场景模型,可以称作“行万里路”。文化大模型是在基础大模型的基础上形成的行业模型,文化机构再基于文化大模型开发专业模型,也就是场景模型。
2023年8月,专委会邀请20余家成员单位、国家文化大数据标识基地负责人,在北京召开文化大模型评测工作座谈会,就文化大模型如何赋能文化数字化建设进行深入研讨:
——针对文化企业和事业单位在文化数字化建设中面临的数据体量大、处理成本高、数据处理效率低等问题,通过文化大模型的自动智能化标识、图像元素自动提取、文生图和图生文的多模态能力可以有效解决。文化大模型帮助文化机构在多个应用场景高效完成各种工作,包括数字人对话、基于NLP的知识问答和搜索、多模态知识图谱生成、AIGC文生图自动标注、画作鉴真、长视频拆条自动处理等。
——针对文化机构自有数据量多、但因大模型投入大而裹足不前,专委会和华为云能够给大家提供安全且自主可控的基础设施平台,保障数据端到端的安全处理,文化机构不需要投入巨额资金建立自己的算力存储基础设施和工具链,就能够正常的使用自有数据拥有专业模型。
2023年9月,文化大模型开发应用大会在中国(南京)文化和科技融合成果展览交易会期间举行,大会展示了基于文化大模型开发应用的示范案例和相关工具等。
经文化机构的评测,文化大模型基本达到了设计目标,能够很好的满足实施国家文化数字化战略中AI能力建设的各类应用场景,包括但不限于:自然语言解决能力(NLP),图片自动分类聚类能力,自动化标签能力,长视频切片能力,知识图谱(语义识别、概念抽取),AIGC能力,赋能数字人等。
《“数据要素×”三年行动计划(2024—2026年)》对文化大模型开发应用指出了清晰的路径:一是挖掘文化数据价值,二是贯通各类文化机构数据中心,三是关联形成中华文化数据库。自2020年成立以来,专委会积极组织成员单位协同推进国家文化大数据体系建设,为实施上述路径奠定了坚实的基础:
1、布局国家文化大数据标识基地。大模型时代,数据是人工智能的三大核心要素之一。优质的数据集直接决定了大模型的竞争力,要把文化大模型打造为便捷、好用的文化数字化生产工具,离不开高质量数据。数据不标注,等于没内涵;数据不标识,等于没身份。为提升文化数据的供给规模和质量,专委会自2023年起布局国家文化大数据标识基地,旨在对文化资源数据来进行分类、编目、标引和赋码。目前,国家文化大数据标识基地已有11个,分布于文化、艺术、电影、出版、广电网络、文化投资等细分行业。
2、推动建设国家文化大数据体系省域中心。中办、国办印发的《关于推进实施国家文化数字化战略的意见》指出:依托现有有线G网络和相互连通平台,部署提供标识编码注册登记和解析服务的技术系统,完善结算支付功能,形成国家文化专网以及国家文化大数据体系的省域中心和区域中心,服务文化资源数据的存储、传输、交易和文化数字内容分发。
国家文化大数据体系省域中心的主要职能,就是按照物理分布、逻辑关联原则,贯通文化机构数据中心。目前,全国11个省级广电网络公司已建成国家文化大数据省域中心,能够为文化机构接入国家文化专网提供网络服务,其中四川广电网络公司承建的省域中心,已为全省314个文化、图书、博物、旅游等机构提供国家文化专网接入服务。
3、推动建设标识解析体系。不同于互联网的域名解析,文化数字化采用的是标识解析。
2015年,国际标准化组织(ISO)发布了由我国提案创建的信息与文献领域国际标准,中文叫国际标准关联标识符,英文简称ISLI(International Standard Link Identifier)。依托这项国际标准做技术架构,即在广电网络公司机房部署提供标识编码注册登记和解析服务的技术系统、在文化机构数据中心部署底层关联服务引擎和应用软件,就能形成了标识解析体系,数据即使在分布式存储的状态下,依然可以相互连通,实现“物理分布、逻辑关联”,把零散的文化资源数据关联起来,把思想理论、文化旅游、文物、新闻出版、电影、广播电视、网络文化文艺等不相同的领域的文化资源数据关联起来,把文字、音频、视频等不同形态的文化资源数据关联起来,最终形成中华文化数据库。
4、推动建设国家文化大数据交易体系。在国家文化大数据体系架构上,交易扮演着十分重要的角色——既是资源与生产的中介,又是生产与消费的中介。针对目前数据交易所存在的交易不活跃等问题,文化数据交易倡导“一码通”,即交易主体及其交易标的被赋予唯一的关联标识符(ISLI码),凭码交易、拼码结算。
文化数据交易由买卖双方在“数据超市”完成交易,文化产权交易所提供第三方交割,交割完成后“点对点”交付数据,以确保数据安全。目前,由深圳文化产权交易所承建的全国文化大数据交易中心和由江苏文化产权交易所承建的华东区域交易平台均已上线、组织并且开展文化元宇宙试验
数字化文化新体验,是文化大模型最重要的应用场景。专委会正在组织并且开展文化元宇宙试验,旨在培育文化数据要素应用场景,基本思路是把电视机作为文化元宇宙的入口,路径是将机顶盒升级为文化元宇宙发射器,机构和个人进入文化元宇宙需进行身份认证,即被赋予唯一的关联标识符(ISLI码),作为生产者或消费者的凭证。目前,文化元宇宙发射器已研发出来,正在贵州、辽宁、宁夏等地进行测试。
为加速推进国家文化大数据体系建设,专委会组织成员单位同华为公司合作研发出国家文化大数据一体化机柜,机柜内部实现了专业机房环境,装配了服务器、交换机等硬件设备,配置文化数据标识服务系统,对机柜微环境参数实施实时监控,由各级广电网络公司负责运维。随着文化大模型的开发应用,专委会同华为公司达成共识,将国家文化大数据一体化机柜升级为文化大模型一体机,底层算力全部采用华为昇腾AI芯片,配备推理等功能,实现“一机在手,开发场景模型不愁”。
文化大模型作为智能化工具,应用场景范围很广泛,涵盖了宣传思想文化全战线。文化大模型的文化,是“大文化”或跨部门范畴,从部门讲包括宣传、网信、文旅、新闻出版、电影、广播电视、网络文化文艺,从领域上讲包括思想理论、文化旅游、文物、新闻出版、电影、广播电视和网络文化文艺。大模型时代,文化机构一定要跟上科技发展步伐,否则就会落伍甚至被边缘化。文化机构无论规模多大,拥有的数据量多么庞大,如果游离于体系之外,仅仅靠自身的实力开发文化大模型,都会很吃力。在文化大模型开发应用上,“抱团取暖”,“众人拾柴火焰高”,依然是共赢的法宝。