AI 资讯日报
每日精选 AI 新闻与前沿动态
模型发布/更新
5Cartesia 发布 Sonic 3.5 与 Ink 2 实时语音模型
Cartesia 推出 Sonic 3.5 和 Ink 2 两个模型,作为单一实时语音栈,分别负责文本转语音和语音转文本。Ink 2 在 Artificial Analysis 的流式语音转文字排行榜上排名第一。Sonic 3.5 在实时文本转语音中位列榜首,首音频延迟约 82ms。Cartesia 成为目前唯一同时拥有 #1 听与说模型的提供商。
Qwen-RobotManip:对齐解锁机器人操作基础模型的规模化能力
Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作(VLA)基础模型,引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频,构建约 38,100 小时预训练语料,涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%,RoboTwin-C2R Hard 达 69.4%,RoboCasa365 Composite-Unseen 达 14.9%,EBench 达 45.6%,RoboTwin-IF 达 72.0%,并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道…
Qwen-RobotWorld:具身智能体的无界世界
Qwen-RobotWorld以语言为统一动作接口,采用双流Multimodal Diffusion Transformer(MMDiT)架构,将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩,统一20余种机器人形态,基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。
成本砍半,字节跳动推出 Seedance 2.0 Mini 视频生成模型
字节跳动火山引擎旗下火山方舟体验中心于 6 月 15 日上线 Seedance 2.0 Mini 视频生成模型,计划近期开放 API。该模型比 Seedance 2.0 Fast 快 2 倍,输出质量相当。图生视频定价 0.023 元/千 tokens,视频生视频 0.014 元/千 tokens,720P 规格下单秒生成成本约 0.5 元,较 Seedance 2.0 标准版降低约一半。模型面向电商内容生产、营销素材批量生成、UGC 创作及特效玩法等高频率、大规模视频生成场景。
Qwen-RobotNav:面向智能体导航系统的可扩展导航模型
Qwen 发布 Qwen-RobotNav,基于 Qwen3-VL 在 15.6M 样本上训练,统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域,无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA:VLN-CE RxR 成功率 76.5%,HM3Dv2 目标导航 75.6%(仅 RGB),EVT-Bench 跟踪率 90.0%,NAVSIM PDMS 91.4,以及三项 EQA 新标杆。模型暴露四个可调轴(视觉 token 预算、时间衰减、相机权重、帧采样模式)。作为智能体系统的一部分,上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%,导航步数减少 …
产品发布/更新
8教育部“阳光志愿”信息服务系统全新升级上线:智能筛选志愿,数据权威可信
教育部“阳光志愿”信息服务系统今日全新升级上线,依托招生、学籍、就业等海量官方数据,免费为考生和家长提供志愿填报服务。系统支持31个省区市本专科普通批次志愿筛选,输入高考成绩、位次及个性化条件即可快速生成合理参考方案。AI助手“智慧小招”24小时在线解答政策规则。平台数据由高校直接报送、官方核验,真实可靠。同时推出专业倾向测评和21项生涯测评工具,帮助学生认清特长、规划未来。
Google Cloud 推出 OKF v0.1:供应商中立的 Markdown 规范,为 AI 智能体提供结构化上下文
Google Cloud 发布 Open Knowledge Format (OKF) v0.1,一种供应商中立的 Markdown 规范,为 AI 智能体提供结构化上下文知识。OKF 将知识表示为带 YAML 前置元数据的 markdown 文件目录,每个概念对应一个文件,通过 `type`、`title`、`description` 等少量保留字段实现互操作。无需专有服务、SDK 或运行时,目录可托管在 GitHub、以 tarball 传输或挂载到任意文件系统。OKF 旨在解决组织内部知识碎片化问题——表结构、指标定义、runbook 等散落在不同 catalog 和 wiki 中,各厂商方案互不兼容。遵循最少意见原则,只强制…
Copilot Cowork 全球正式可用,支持多模型
Copilot Cowork 现已全球正式可用,并支持多模型! 每个组织都可以让长期运行的智能体处理复杂的多步骤任务,基于你组织的独特知识和专有技术。 https://www.microsoft.com/en-us/microsoft-365/blog/2026/06/16/copilot-cowork-is-now-generally-available/?v=15
AI 版支付宝官宣开启邀测:右滑打开“阿宝”,官方放出 100 个邀请码
支付宝今日开启 AI 版邀测,用户可右滑进入新版界面,在对话框或语音中输入指令,由“阿宝”助手代办事项。以查询公积金为例,阿宝自动匹配对应小程序和服务入口,用户点击确认即可完成,将多步跳转折叠为一句指令。所有涉及资金变动和支付的环节均需用户本人确认。首批放出 100 个邀请码。
小米 MiMo Claw 正式版发布:旗舰模型+金山办公,全新订阅服务上线
小米推出云端轻量化 Claw 类产品 MiMo Claw 正式版,搭载与 OpenClaw 框架深度适配的 MiMo-V2.5-Pro 旗舰模型。该模型原生兼容 MCP 工具调用协议,内置百万级超长上下文,支持单会话千次以上连续工具调用;依托 MTP 三层解码架构,在 OpenClaw 标准 Agent 工作流中吞吐效率提升约 3 倍。ClawEval 测试中任务达标率(Pass³)达 63.8%,Token 消耗较同类产品降低 40%-60%。联动金山办公生态,提供 Word、Excel、PPT、PDF 等格式的 AI 生成、预览与在线编辑一站式服务。免费用户每日单次体验时长从1小时升级至4小时,面向高频用户推出 TokenPla…
Subagent:让模型把琐碎任务委托出去
OpenRouter 推出 openrouter:subagent 服务器工具,允许前沿模型在生成过程中将独立的琐碎任务(如文档总结、结构化数据提取、文本重格式化)委托给更小、更便宜、更快的 worker 模型执行,从而节省前沿模型的 token 消耗。
Midjourney V8.1 推出 Draft mode 草稿模式与新功能预览
Midjourney V8.1 的 Draft mode 草稿模式每次生成24张低分辨率低质量图片。用户可对任意图片点击 "Vary",将其渲染为全质量、全分辨率版本。草稿任务消耗的快速小时数减半。
Grok for PowerPoint 发布:在 Microsoft PowerPoint 内直接生成和编辑幻灯片
xAI 于 6 月 16 日发布 Grok for PowerPoint,作为免费 Microsoft 365 插件上线。用户无需离开应用即可利用 Grok 将大纲转为完整幻灯片,进行内容研究、撰写、排版,并支持添加单张幻灯片、调整样式主题、重构章节。插件还能调用 Grok 连接器,从邮件或 SharePoint 中获取信息。该插件同样适用于 Word 和 Excel。
行业动态
8美国司法部援引国家安全为xAI未经许可的燃气轮机辩护
美国司法部在一份驳回诉讼的动议中称,xAI的聊天机器人Grok对军事行动至关重要,以此为其在密西西比州Southaven的Colossus 2设施运行未经许可的燃气轮机辩护。NAACP已提起诉讼,指控xAI的燃气轮机数量从4月的27台增至57台,导致氮氧化物排放飙升111%。国防部首席数字与人工智能官Cameron Stanley表示,Grok是支持机密和绝密网络军事任务的四款AI模型之一,包括近期针对伊朗的打击。
五角大楼将大部分日常AI工作流从Anthropic转移,目标9月前完全切断
五角大楼宣布已将超2/3日常AI工作流从Anthropic转移,目标9月前清零。起因是年初五角大楼要求Anthropic签署协议允许Claude用于大规模监控和全自动武器,CEO Dario Amodei以模型不可靠为由拒绝。五角大楼将其列为“供应链风险”,起诉未果。OpenAI调整立场获得订单。Polymarket预测6月底前和解概率仅9%。此事件凸显AI公司需在原则与政府合作间抉择。
微软旗下GitHub遭遇AI算力短缺,转而向AWS寻求支持
微软旗下GitHub面临AI算力短缺,微软因此转向亚马逊AWS寻求计算资源支持。原文来自Hacker News热门讨论,标题为“Microsoft turns to AWS as GitHub faces AI capacity crunch”。
微软考虑为 Copilot Cowork 集成 DeepSeek V4
微软正考虑为 Copilot Cowork 提供微软托管的 DeepSeek V4 版本,作为更便宜的模型选项。Copilot Cowork 将放弃无限定价,转向按使用量计费,原因是成本过高(用户每周执行数百项任务导致费用激增)。若采用 DeepSeek,该模型将是可选的、经过微调与安全防护,并完全托管于 Azure。Axios 报道称微软已微调了一个可用模型,最终决定待定。
Fable 遭美国政府封禁,TechCrunch 质疑真正原因并非模型越狱
美国政府对 Anthropic 的模型 Fable 实施封禁,但 TechCrunch 发文质疑,实际原因可能并非此前认为的“模型越狱”问题。该文章在 Hacker News 引发讨论,获得 103 个点赞。
SpaceX 以 600 亿美元股票收购 AI 编程公司 Cursor
SpaceX 在历史性 IPO 数天后,同意以 600 亿美元股票收购 AI 编程初创公司 Cursor,旨在帮助其围绕 xAI 构建的 AI 部门追赶主要 AI 实验室。此前 Cursor 正接近完成一轮 20 亿美元融资,估值 500 亿美元,投资方包括 Andreessen Horowitz、Thrive 和 Nvidia。SpaceX 在 IPO 期间向投资者表示,其 AI 产品可寻址市场达 26 万亿美元。交易预计于今年第三季度完成。
Anthropic 5月企业AI订阅份额首超OpenAI,特朗普政府禁令反促采用量创新高
Anthropic 5月企业AI订阅市场份额达41%,首次超越OpenAI(39.5%)。公司刚完成650亿美元融资、估值9650亿美元,并因首次盈利季度秘密提交IPO。特朗普政府以出口管制为由要求Anthropic禁止非美国人访问最新模型Mythos 5及Fable 5,导致两款模型下架。Ramp首席经济学家指出,类似争议(如3月被国防部列为供应链风险)反而推动Anthropic企业采用量创纪录。Ramp数据显示,企业支出主要流向Claude Opus模型(最新为Opus 4.8)。
DeepSeek 完成首轮外部融资,估值超 500 亿美元
中国 AI 初创公司 DeepSeek 完成首轮外部融资,募资超 500 亿元人民币(约 74 亿美元),估值超 500 亿美元。投资结构特殊:多数投资者将资金投入 CEO 梁文锋管理的有限合伙企业,无投票权且锁定期五年;仅国资 AI 基金直接投资并保留投票权。创始人梁文锋个人投入约 200 亿元,腾讯和宁德时代为主要外部投资者。梁文锋表示优先基础 AI 研究与 AGI 开发,将继续开源。DeepSeek 去年初凭 V3、R1 模型获全球关注,今年 4 月发布运行于华为芯片的最大开源权重模型 V4,并将 V4 Pro 永久折扣 75%,输入价格约为 OpenAI GPT-5.5 的 1/11,输出价格约为 1/35。
论文研究
3Anthropic:智能体编码中专业知识回报持续存在
Anthropic 基于约40万次 Claude Code 交互会话(2025年10月至2026年4月)分析发现:人类主导规划决策(做什么),Claude 主导执行决策(怎么做)。领域专业知识越强,模型每次指令完成的工作量越多。各类职业完成任务的成功率与软件工程师平均相近;领域专家成功率更高,但与中级用户差距不大。七个月间调试会话占比下降近一半,使用转向端到端智能体任务(部署运行代码、分析数据、编写非代码文档),典型任务价值平均上升约25%。
OpenAI 发布 Deployment Simulation 方法:通过模拟部署预测模型发布前行为
OpenAI 近日发布 Deployment Simulation 方法,通过在隐私保护下重放历史对话、用新候选模型重新生成回复,模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中,该方法比传统评估更准确地估计了不良行为频率,发现新型对齐问题,并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限,而 Deployment Simulation 使用真实对话分布缓解了这些问题,但无法测量频率低于每 20 万条消息 1 次的行为。
公开聊天数据能否预测真实世界AI失调?
OpenAI利用WildChat公开数据集(2023年4月至2024年5月收集的100万条对话)模拟模型部署,预测GPT-5.1、GPT-5.2、GPT-5.4在真实生产环境中的不良行为率。与私有生产数据对比发现,WildChat模拟的平均预测误差约3倍;但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。
技巧与观点
5Meta 解散工程部门引发热议
6月16日,一篇标题为“Why is Meta destroying its engineering organization?”的博客文章出现在 Hacker News,获得110个点赞。文章指出 Meta 正在解散其工程组织,引发业界广泛讨论。具体原因和后续影响尚未明确。
毕业生陷入AI检测荒诞循环:手写摘要被判99%AI率,AI写部分0%
当前毕业生面临论文AIGC率检测荒诞困境。学生手写摘要被判定99%AI率,纯AI写部分却为0%。学校要求AIGC率不超40%,学生用Claude反复修改并花上百元检测费(维普20元/篇,知网/万方2元/千字符),最终降至36.1%。答辩时老师要求改回学术表达,AI率回升至37.21%。同一论文在不同平台检测结果差异巨大(48%、44%、59%)。部分平台提供降重收费服务,少数学校已改用AI使用声明表替代一刀切检测。
WorkBuddy日活飙升至行业第二的3-4倍,非技术用户涌入
从3月至今,WorkBuddy日活用户数已达行业第二名的3-4倍,用户不再限于开发者,大量HR、运营、行政等非技术岗位也在使用。其企业版和项目功能进一步扩展了Agent办公场景。同期,Trae Work、QoderWork、Kimi Work等产品纷纷改名或出新,争夺市场。腾讯云认为这可能是十年一遇的机遇。
OpenAI 的领先优势正在快速缩小
评论认为 OpenAI 正面临多重危机:缺乏护城河导致市场领先地位下滑;最大投资者微软持续疏远,近期甚至公开考虑将主要产品外包给中国;亏损速度远超预期,年亏损额以 8 倍增长。华盛顿方面可能打压 Anthropic,但也可能反而帮助其崛起,而 Elon Musk 成为另一个潜在的竞标者。
前沿大模型后训练配方回顾:与 Finbarr Timbers 对谈
Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变:从 InstructGPT 的 SFT→奖励模型→RL 三阶段,到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL,再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation(MOPD):训练 N 个领域专家(经 SFT 和领域 RL),再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入,DeepSeek V4 与 Nemot…