如果2023年是属于大语言模型的一年,那么2024年,Sora为首的多模态大模型,或许将带我们走向更超乎想象的远方。
将心中所想的文字直接变成视频,过去只存在于科幻作品,而现在,幻想正无限接近现实。
即便尚未对公众开放,由OpenAI发布的Sora已经在短短几天超越“GPT”们,成为大众讨论度最高的AI界“新晋顶流”——仅在Tik Tok平台上发布的视频,就为OpenAI在4天内“吸粉”10万。
“AIGC产品在以UGC为核心的平台上惊艳亮相,可能是AI时代的一个重要转折。”对于Sora带来的影响力以及AI大模型领域的未来发展前途,信息管理与商业智能系李文文老师分享了她的最新观察。
复旦管院信息管理与商业智能系助理教授,研究方向:数据分析,机器学习,商务智能,社交网络,医疗健康管理。
某种意义上,AIGC产品在以UGC为核心的平台上惊艳亮相,有几率会成为AI时代的一个重要转折。
Sora能够生成非常逼真、高清晰度的视频和照片。因具备多角色、特定类型运动和细节准确的主题背景构建能力,乍看之下,人们甚至很难分辨哪些是真实拍摄的视频,哪些又是Sora生成的视频。
需要注意的是,Sora并非单纯的“视频模型”,而被视为一种“世界模拟器”, 是OpenAI“教AI理解和模拟运动中的物理世界”计划中的一步,目的是帮助人们解决需要现实世界交互的问题。
在这个过程中,凭借以假乱真的视频生成能力,Sora的出现势必能为很多行业带来新的机遇,例如短视频和游戏行业等。与此同时,传统的影视制作流程和商业模式也可能面临重塑。例如,使用AI生成视频的需求增加,相应可能会减少对人类演员、编导等创造性角色的用人需求,影视行业的就业格局就很有几率发生巨大变化。
同时,基于AI技术强大的图片和视频生成能力,已经引发了人类对于伪造照片和视频的担忧。这类AI技术可能加剧虚假信息的泛滥,因此我们也需要多角度地思考“真实”与“虚拟”交融所带来的影响。目前,Sora也正在做评估关键领域潜在危害或风险的工作,OpenAI还邀请了一批视觉艺术家、设计师和电影制作人加入,期待这些反馈能更加进一步完善Sora的能力。
GPT和Sora的出现彻底变革了人机交互模式,让用户通过直接说话与AI交流,让自然语言交互成为可能,极大地提高了可操作性。较之于传统的图形用户界面,自然语言是人类最自然的交互方式,几乎不需要学习,且交互效率更高。
新的交互模型会怎么样影响组织中的人机协同?很多人都会提出这样的问题:“AI到底会辅助人类的工作,与人类合作,还是取代人类的工作?”“人机共生是否不再遥远?”“人类与机器的关系将何去何从?”而眼下,这些疑问已不再是“遥远的想象”,而是近在咫尺,甚至“迫在眉睫”。
我认为,对于个体而言,技术进步虽然带来了不少挑战,但也提供了新的机遇。与其盲目担忧工作被取代,不如思考我们该如何定位自己,怎么来适应AI时代,如何将技术为我所用。
换一个角度来看,AI中的“A”可以解读为assistance和augmentation,AI应该作为人类的“辅助”“增强”工具,而不是替代工具,或者说,AI应该是人类的工作伙伴。
AI的意义在于让更多人从简单重复的劳动中解脱出来,以更高的效率去创造更大的价值。当自然语言的交互模式极大降低了AI技术的应用门槛,任何人都能够简单地使用AI辅助自己的工作。例如,Sora让视频制作更简单高效,让更多人将自己的想法转化成生动的视频,也可以让人们更加聚焦于创意和故事本身,所以,未来基于Sora的U-AIGC可能会越来越多。
人类天生具备处理和理解多模态信息的能力。比如我们品尝一碗热气腾腾的牛肉面,我们也可以看到面条的诱人的摆盘,闻到面条的香气,尝到面条的劲道。视觉、嗅觉和触觉接收和传递的不同模态信息共同形成了我们对这碗面的认知。同样的,我们也希望AI具备多模态数据的解决能力。
GPT展现了强大的文本处理能力,但它主要处理单一模态数据。Sora的出现则让我们正真看到了多模态模型在模拟物理世界时的巨大潜能。随着多模态模型愈发成熟,其广阔的发展空间和应用前景将非常振奋人心。
当然,目前的AI工具精细度仍然有限,因此,如何高效地与AI沟通,将是未来我们一定要学习和具备的技能。
精细度包含两个方面:一是通过自然语言交互传达指令的精细度,二是AI理解并实现指令的精细度。
OpenAI给出的示例中,只需要一句很简单的描述,例如“一个身穿蓝色牛仔裤和白色T恤的女人在南非约翰内斯堡愉快地散步,在一场冬季风暴中”,Sora就能生成一个非常真实流畅的短视频。这其中有很多细节,比如女人的肤色、路人等,是指令中没有涉及的。
如果是以体验或者娱乐为基准,Sora所生成的这些视频是非常惊艳且有趣的。但在一些专业性较高的任务中,比如生成具有科普性质或者商业化价值的视频时,就需要生成视频在出现的所有内容和细节上都能够很好的满足具体的要求。这种情况下,用户要提供尽可能详细的指令以涵盖所有的要求。
另一方面,AI能否完全理解并且实现用户提出的每一个指令细节依然存疑。以GPT为例,如果给出一个较为复杂的指令,有时候GPT就会“自主”忽略指令中的几个细节要求。
从ChatGPT到Sora,大模型为科技公司不断带来充满前景的新赛道。去年仅8个月内,中国就诞生了238个大模型,几乎一天一个。
然而,当ChatGPT拉高了用户和市场对大模型性能的要求后,训练大模型将意味着投入更多人力、算力和数据量,以提升模型性能,使用户得到满足需求以及市场的期待。
但高昂的训练成本会带来两个问题。首先,AI领域传统的开源氛围受到一定影响,一些核心的技术和模型不再公开。科研机构和高校受制于有限的资源,很难训练出存在竞争力的大模型,没办法提供开源的模型。而一些科技公司和企业花大力气训练出大模型,考虑到商业因素,也不愿意开源自己的模型,而是愿意直接提供包装好的产品。
当像GPT-4这样的先进大模型不公开技术细节和模型,只提供服务的时候,这给很多想要入局大模型的科创公司能够带来了不小的挑战。以往AI领域有着浓厚的开源氛围,大家乐意把最新的模型代码分享到GitHub这类网站上,所以其实AI创业的门槛并不是非常高,因为核心技术和模型都是公开的,只需要稍微修改一下模型,拿自己的数据训练一下,就能得到一个新的垂直领域的AI产品。
现在,闭源的大模型使得科创企业不得不思考另一个问题:自研大模型还是使用已有大模型聚焦垂直领域应用?
如果采用自研大模型,目前国内只有头部的几家公司有自研大模型的能力,他们也发布了自家的产品,但是性能和GPT-4比还是有一定差距的,这是我们应该面对的现状——国内企业在算力和数据资源方面都远远落后于OpenAI。
对很多科创公司而言,另一个更可行的路线是购买已有大模型的服务,聚焦于垂直领域的应用。但是我们现在观察到的一个现象是,不少体量较小的科创公司都宣称研发了自己的大模型。如果仔细调研这些大模型,就会发现其中不少背后都有成熟的大模型的身影,比如GPT-4、ChatGPT之类。
科创企业热衷于大模型技术能理解,毕竟有市场、资本和用户等各方面的因素,但大模型不应该成为面子工程或者“充门面”的产品。
纵观全球的大模型发展格局,头部的三家公司是OpenAI、Google和Anthropic,他们的代表性产品分别是GPT-4、Gemini、Claude-2。中国企业在这场大模型竞赛中长期处在追随者的位置。
尽管追上头部的大模型产品很难,但我们的科创企业一定要追赶,而且需要仔细考虑如何解决两个非常大的挑战。
● 首先是算力问题。模型训练必须的GPU显卡是一个瓶颈。目前GPU的主要提供商NVIDIA供应能力有限,处于供不应求的局面。2023年年中,OpenAI曾提出要用一千万张GPU训练模型,近日,OpenAI CEO山姆·奥尔特曼 (Sam Altman)更提出了筹资7万亿美元的生产自研AI芯片计划。虽然计划尚未正式展开,但也说明他们具有一定能力。与之相比,国内公司在算力上差距还比较大。
● 其次是数据问题。大模型提升能力需要大数据训练,能力升级就能吸引更多用户,从而获得更多数据和资源,帮助逐步提升模型能力。未来,大模型市场有极大几率会出现比较显著的马太效应,头部的两三个大模型产品会占据绝大部分市场。所以,国内企业一定要在大模型发展的初期持续发力,努力追赶。
现在的大模型裹挟了太多东西,有资本的狂热、用户的期待,也有学界的争论。科创企业身处热潮,更需要冷静地思考,大模型对自身业务的价值到底在哪里?能否研发出真正有核心技术的产品,而不是做简单的“套壳”产品?
国内企业很擅长找出应用场景,做技术落地的应用,在AI领域,在大多数情况下要更多能够研发核心技术和具备技术壁垒的企业。
大模型并不一定“大力出奇迹”,除了超强的算力、超大规模的数据,模型架构具体要怎样实现?模型训练的策略是什么?大数据如何来处理会使模型训练效果更好?里面包含非常多的核心技术和经验,正是这些技术和经验导致了不同模型之间巨大的性能差距。
期待中国的科创企业能够在核心技术和前沿研发技术上投入更多精力,从而在大模型以及AI领域具备更强的竞争力。
原标题:《李文文:Sora成为AI界新顶流,“U-AIGC”新概念或将出现》