近日,被誉为“AI界拼多多”的深度求索公司宣布旗下全新大模型DeepSeek-V3的首个版本正式上线,并同步开源。作为该公司的最新力作,DeepSeek-V3凭借其671B参数和37B激活参数,显示出了强大的技术实力,尤其是在14.8T tokens上的预训练,为其后续应用奠定了基础。当前,DeepSeek-V3在多项评测中超越了Qwen2.5-72B和Llama-3.1-405B等一系列开源模型,表现与顶尖的闭源模型如GPT-4o和Claude-3.5-Sonnet几乎不相上下。
DeepSeek-V3在知识类任务中的表现尤为突出。在MMLU、MMLU-Pro、GPQA和SimpleQA等测试中,该模型相对于前代DeepSeek-V2.5有了显著提升,接近Claude-3.5-Sonnet-1022的最佳水平。此外,在算法类代码竞赛平台Codeforces中,DeepSeek-V3也显示出对现有非O1类模型的超越,显示出其强大的技术优势。在2024年AIME和CNMO等数学竞赛中,DeepSeek-V3同样表现亮眼,遥遥领先于所有开源和闭源模型。
有趣的是,DeepSeek-V3在被询问“你是什么模型”时,曾错误地回复称自己是“由OpenAI开发的ChatGPT模型”,并声称其架构基于GPT-4。这一回应引发了广泛的质疑,许多业内的人表示,DeepSeek-V3或许在训练过程中使用了ChatGPT的数据。然而,在后续回答中,DeepSeek-V3已经进行了调整,明确说“我是由中国的深度求索(DeepSeek)公司开发的智能助手DeepSeek-V3”。这一改变显示出公司对自身品牌形象的重视,以及对使用者真实的体验的关注。
深度求索成立于2023年7月,由幻方量化创立。幻方量化在机器学习和量化交易方面有着丰富经验,自2015年创立以来不断的提高其技术水平,以深度学习为基础推动交易效率的提升。值得一提的是,深度求索的模型以极低的推理成本闻名,因此被誉为“AI界的拼多多”,并促使腾讯、阿里等大厂产品相继降价,反映了其对市场的影响力。
在定价方面,深度求索最新公告指出,随着DeepSeek-V3的上线,其模型API服务的价格设定也相应调整。每百万输入tokens定价为0.5元(缓存命中)或2元(缓存未命中),每百万输出tokens定价为8元。同时,为了鼓励使用者真实的体验,深度求索还为新模型推出45天的优惠价格体验期。这一策略旨在不断为用户更好的提供优质的模型服务,并吸引更加多的开发者与企业使用其技术。
从技术层面来看,DeepSeek-V3所基于的MoE(Mixture of Experts)模型是当前AI领域中一种较为前沿的技术架构,允许模型依据输入的数据动态选择激活的专家,从而在保持模型大小的同时大幅度的提高推理效率与准确性。这一技术的应用,不仅提升了生成式AI在文本生成任务中的表现,也为未来可能出现的更复杂的多模态AI应用打下基础。
随着AI绘画、AI写作等工具的迅速发展,DeepSeek-V3的推出无疑为整个行业注入了一剂强心针。在AI绘画领域,已经有不少工具通过深度学习架构生成高质量图像,这一现象与DeepSeek-V3所带来的文本生成能力提升相辅相成,展现了生成式人工智能的多样化应用潜力。在当前市场环境下,用户期待通过高效的AI工具提升创作效率,DeepSeek-V3恰好满足了这一需求。
尽管DeepSeek-V3的推出赢得了关注,但随着其日益增大的影响力,也应引发相关研究者和使用者对AI模型的透明性、伦理性以及潜在风险等问题的思考。AI技术的进步固然令人振奋,但在享受其便利的同时,也一定要保持警惕,确保技术的使用符合社会价值与伦理标准,以便营造更加负责的技术环境。
综上所述,深度求索的DeepSeek-V3无疑是AI领域中的一颗明珠,其强大的性能引发了行业的高度关注与广泛讨论。对于普通用户而言,借助如DeepSeek-V3这样的AI工具,可以大幅度的提高自身在文本创作、图像生成等方面的效率。未来,期待DeepSeek-V3在更多应用场景中展现其无限可能,同时也希望所有的AI科技从业者都能够在推动技术创新的同时,保持对社会责任的思考与实践。