清华联合DeepSeek推出奖励模型新标杆！DpSk-GRM：让AI学会自我批评推理性能越跑越强_智能机器人案例

清华联合DeepSeek推出奖励模型新标杆！DpSk-GRM：让AI学会自我批评推理性能越跑越强

2025-05-01 智能机器人案例

　　清华联合DeepSeek推出奖励模型新标杆！DeepSeek-GRM：让AI学会自我批评，推理性能越跑越强

　　本文内容由阿里云实名注册用户自发贡献，版权属于原本的作者所有，阿里云开发者社区不拥有其著作权，亦不承担对应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

　　DeepSeek-GRM是由DeepSeek与清华大学联合研发的通用奖励模型，采用点式生成式奖励建模和自我原则点评调优技术，明显提升了模型质量和推理扩展性。

　　❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

　　大家好，我是蚝油菜花。当大多数AI还在用简单标量打分时，这个中国团队已经让模型学会写千字论文式评估报告了！

　　今天要解剖的DeepSeek-GRM，正在重写奖励模型规则！这个由清华与DeepSeek联手打造的AI评分帝，用三大黑科技碾压传统方案：

　　已有团队用它48小时内出行业专属评审官，文末附《奖励模型调参圣经》——你的AI准备好接受专业级毒舌训练了吗？

　　GRM通过生成结构化的评价文本（包括评价原则和对回答的详细分析）来输出奖励分数，不是直接输出单一的标量值。DeepSeek-GRM在多个综合奖励模型基准测试中表现优异，显著优于现有方法和多个公开模型。推理时扩展性能尤为突出，随着采样次数增加，性能持续提升。

　　高考理科题AI秒解！昆仑万维开源多模态推理模型 Skywork-R1V 2.0

　　Skywork-R1V 2.0是昆仑万维最新开源的多模态推理模型，通过混合强化学习和多模态奖励模型实现复杂推理任务，在理科题目解答和科研分析中展现出色性能。

　　「社会实验室」成真！SocioVerse：复旦联合小红书开源社会模拟世界模型，用AI预演群体行为

　　SocioVerse是由复旦大学联合小红书等机构开源的社会模拟框架，基于大语言模型和千万级真实用户数据构建，能精准模拟群体行为并预测社会事件演化趋势。

　　AI生成视频告别剪辑拼接！MAGI-1：开源自回归视频生成模型，支持一镜到底的长视频生成

　　MAGI-1是Sand AI开源的全球首个自回归视频生成大模型，采用创新架构实现高分辨率流畅视频生成，支持无限扩展和精细控制，在物理行为预测方面表现突出。

　　让AI读懂K线B：字节开源的时间序列理解和推理大模型，自然语言提问秒解趋势密码！

　　ChatTS-14B是字节跳动开源的时间序列专用大模型，基于Qwen2.5-14B微调优化，通过合成数据对齐技术明显提升分析能力，支持自然语言交互完成预测推理等复杂任务。

　　Dify+DeepSeek实战教程！企业级 AI 文档库本地化部署，数据安全与智能检索我都要

　　接下来这篇文章，就打算用最接地气的方式，手把手带你从 0 到 1 搭建一套专属的本地知识库系统。无论你是想优化企业内部文档检索（不需要过多的担心敏感数据上传云端的风险），还是像我一样想为用户打造更智能的文档服务，都能跟着步骤一步步实现。咱们不卖关子，直接上干货

　　首发，Higress AI 网关率先支持 QwQ-32B，推理成本可再降 90%

　　QwQ-32B 是一款拥有 320 亿参数的大模型，性能媲美 6710 亿参数的 DeepSeek-R1。它支持本地运行、明显降低企业调用成本（最高降 90%），并在 Hugging Face 和 ModelScope 开源。本文提供通过 Higress AI 网关实现 DeepSeek-R1 和 QwQ-32B 无缝切换的教程，涵盖环境准备、模型接入配置及客户端调用示例。Higress AI 网关还具备消费者鉴权、模型自动切换、Token 级限流等进阶功能，助力企业高效管理多模型服务。

　　从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧：安全可观测体系建设刻不容缓

　　本文探讨了中国大模型DeepSeek在全世界内的成功及其面临的网络安全挑战。DeepSeek以低成本、高性能的特点迅速走红，甚至超越ChatGPT，但同时也遭受了大规模恶意攻击，如DDoS和密码暴力破解。文章分析了这些攻击对AI行业的影响，并提出通过阿里云构建安全可观测体系的解决方案，包括流量监控、日志审计与异常检测等，为AI技术的安全发展提供保障。

　　Serverless MCP 运行时业界首发，函数计算让 AI 应用最后一公里提速

　　作为云上托管 MCP 服务的最佳运行时，函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力，用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上，函数计算 FC 会准备好计算资源，并以弹性、可靠的方式运行 MCP 服务，按实际调用时长和次数计费，欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。

　　本文探讨了技术挑战和解决方案，还提供了具体的实施步骤，旨在帮企业顺利实现从传统应用到智能应用的过渡。

　　AI赋能大学计划·大模型技术与应用实战学生训练营——华东师范大学站圆满结营

　　4月24日，由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行大模型应用实战学生训练营——华东师范大学站圆满结营。

　　智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

　　全球首款开源通用型AI智能体上线！Suna：自动处理Excel/爬数据/写报告等复杂任务一句线

　　LongPort MCP：证券业首个券商MCP，AI赋能智能投资新时代，散户也能玩转机构级交易

　　Cooragent：清华 LeapLab 开源 AI Agent 协作框架，一句话召唤AI军团！

　　FastAPI开发者福音！FastAPI-MCP：将FastAPI秒变MCP服务器的开源神器，无需配置自动转换！

　　FireCrawl：开源 AI 网络爬虫工具，自动爬取网站及子页面内容，预处理为结构化数据

　　Browser Use：40.7K Star！一句话让AI完全接管浏览器！自动规划达成目标，多标签页同时管理

　　RuoYi AI：1人搞定AI中台！开源全栈式AI开发平台，快速集成大模型+RAG+支付等模块

　　ChatMCP：基于 MCP 协议开发的 AI 聊天客户端，支持多语言和自动化安装 MCP 服务器

　　还在想开题报告？SurveyGO卷姬：清华开源学术论文AI写作神器，一键生成文献概要

　　小米7B参数推理大模型首次开源！Xiaomi MiMo：数学代码双杀，超越32B巨头

　　阿里通义开源新一代混合推理模型 Qwen3：创新双模式推理，支持思考模式和非思考模式

　　这个AI把arXiv变成代码工厂，快速复现顶会算法！Paper2Code：AI论文自动转代码神器，多智能体框架颠覆科研复现

　　Cooragent：清华 LeapLab 开源 AI Agent 协作框架，一句线

　　LongPort MCP：证券业首个券商MCP，AI赋能智能投资新时代，散户也能玩转机构级交易

　　让AI单次生成4万字！WriteHERE：开源AI长文写作框架，单次生成超长文本，小说报告一键搞定！

　　全球首款开源通用型AI智能体上线！Suna：自动处理Excel/爬数据/写报告等复杂任务一句线

　　Yuxi-Know：开源智能问答系统，基于大模型RAG与知识图谱技术快速构建知识库

　　让AI读懂K线B：字节开源的时间序列理解和推理大模型，自然语言提问秒解趋势密码！

　　还在想开题报告？SurveyGO卷姬：清华开源学术论文AI写作神器，一键生成文献综述

[上一篇] OpenAI GPT-4o：文生图技术革新引发设计行业变革

[下一篇] 今年出版业高增长赛道是哪些？我们问了问DeepSeek