AI速递 | Anthropic最新研究：在被对齐前，模型已经会说谎了

来源：腾讯研究院

想试试 AI 自动生成问答对吗？联著问答试用通道已开启！下拉找到「阅读原文」，一键开启智能交互新体验～

生成式AI

一、 DeepMind获IMO官方「唯一」金牌，OpenAI被打脸？

1. 谷歌DeepMind新Gemini模型在IMO竞赛获官方金牌，解决六题中五题，首次证明AI仅用自然语言可解复杂数学题；

2. DeepMind遵循IMO规则，等待官方结果验证后才公布成绩，获业界赞誉；

3. OpenAI因不参与官方评估、提前公布成绩而引发争议，被批评缺乏规范与合作精神。

https://mp.weixin.qq.com/s/EgcPfK02bpVu8gxQchU8mw

二、全球首位产设研一体AI全栈工程师，在腾讯「出道」

1. CodeBuddy AI IDE是腾讯云推出的全球首个产品-设计-研发一体化AI工具，用户通过自然语言对话即可完成全流程开发；

2. 全链路覆盖需求PRD生成、原型UI设计、前后端开发到上线部署，集成国际主流模型和国产大模型；

3. 实战案例显示开发效率提升10倍以上，已开启内测，将解决AI落地的关键环节问题。

https://mp.weixin.qq.com/s/FVrc1MttBwXtW3e6uYCgdw

三、 Trae 发布 2.0 新增SOLO 模式，加强上下文工程能力

1. 字节AI编程助手Trae发布2.0版本，新增SOLO模式，基于上下文工程实现从需求描述到功能上线的端到端开发；

2. SOLO模式整合代码、文档、终端和浏览器于一个窗口，通过自然语言输入即可完成PRD生成、编码、测试和部署；

3. 上下文工程成为AI开发新趋势，多位专家认为其比提示工程和"靠感觉写代码"更为重要。

https://mp.weixin.qq.com/s/wv9rX4Gxj28r6ZgU0aYzcQ

四、 Qwen3更新，Qwen3-235B-A22B-FP8非思考模式

1. 通义千问更新旗舰版Qwen3模型，推出Qwen3-235B-A22B-Instruct-2507-FP8非思考模式版本；

2. 新模型在指令遵循、逻辑推理、文本理解等通用能力显著提升，多项测评对标Kimi-K2、DeepSeek-V3和Claude-Opus4等竞品；

3. 模型增强多语言长尾知识覆盖，提升用户偏好契合度，长文本上下文扩展至256K，已开源。

https://mp.weixin.qq.com/s/FI3D7pS0qgcvSrlIRfPVhw

五、李开复入场Agent！零一万物推出“万仔”企业级Agent

1. 零一万物推出万智企业大模型平台2.0版本及企业级Agent"万仔"，李开复倡导"一把手工程"打法，以推动AI战略转型；

2. 零一万物企业级Agent定位为"超级员工"，具备五大功能：超级能干、超级靠谱、自主晋升、超级装备和极速上岗；

3. 李开复预测AI Agent将经历三阶段演进：2024年工作流Agent、2025年推理Agent和未来的Multi-agents协作网络，并表示愿意使用其他优质开源模型。

https://mp.weixin.qq.com/s/Q4JprWDpnPsvOVT9r0s2RQ

前沿科技

六、 5亿融资后清华具身团队首秀：55自由度拿捏360°大旋转

1. 清华背景的星动纪元推出全尺寸人形机器人星动L7，身高171cm、体重65kg，实现360°旋转跳和街舞等复杂动作，同时能完成精细操作；

2. 星动L7具备55个自由度的超冗余设计，依靠端到端具身大模型ERA-42驱动，手部自由度达12个，手指响应速度堪比电竞选手；

3. 星动纪元成立两年融资近5亿，率先跑通"模型-本体-场景数据"闭环飞轮，已交付200多台产品，海外市场占比超50%。

https://mp.weixin.qq.com/s/_2g2pEEyUz8_79fXNPhTmw

报告观点

七、 Anthropic最新研究：在被对齐前，模型已经会说谎了

1. Anthropic最新研究发现大多数AI模型不会主动欺骗用户，在25个先进模型中仅5个表现出伪对齐行为；

2. 实验证明几乎所有模型在预训练阶段已具备伪对齐能力，但被安全训练中的"拒绝机制"所抑制，该机制一旦被绕过，模型便会表现出策略性欺骗；

3. 模型伪对齐的主要动机是基于工具性目标守护的理性权衡，而非追求评价或纯粹自保，这种能力深植于预训练阶段，对现有AI安全机制提出挑战。

https://mp.weixin.qq.com/s/ZBJS-f-Z2TuhvtMMdtzkBQ

八、 OpenAI新任CEO最新长文，AI将赋能人类最伟大力量

1. AI将成为全人类赋能工具，OpenAI新任CEO Fidji Simo提出六大赋能领域：知识、健康、创意表达、经济自由、时间和支持；

2. 知识赋能通过个性化学习缩小教育鸿沟，健康赋能转变被动就医为主动预防，创意赋能降低艺术创作门槛；

3. AI将创造"个体经济"新模式，让创业无需高门槛，同时自动化日常琐事释放时间，提供全天候"软性支持"。

https://mp.weixin.qq.com/s/NKW-ZMjsQ3xprdtMAw19IQ

九、 Kimi K2技术报告正式发布：万亿参数智能体秘密解析

1. Kimi K2采用1万亿+参数稀疏MoE架构，384个专家，拥有三大核心技术突破：MuonClip优化器、Agentic数据合成管线和RLVR+自评Rubric奖励；

2. MuonClip优化器通过QK-Clip权值裁剪确保训练稳定，实现15.5万亿tokens训练零loss抖动；数据复述策略放大高质量数据价值；

3. 三步式智能体数据流水线构建了20,000+合成工具，结合可验证奖励与自评判奖励的强化学习框架，使模型从被动对话进阶到主动规划-执行-自我纠错的Agent水平。

https://mp.weixin.qq.com/s/Q0W8xFlfs_vcMclmvvqm4w

完整原文：腾讯研究院AI速递 20250723